随着互联网、信息化产业的不断发展,作为各种信息载体的数据中心发挥着越来越重要的作用。因此保证数据中心的安全运行变得尤为关键,数据中心运维管理工作也变得越来越复杂,技术难度不断被加大。本文主要介绍数据中心运维工作者所应具备的工作职责。

1安全运行

保障系统和设备的正常运行;消防系统的完好;具备防水防火、防鼠措施;健全安全出入管理规定;保持机房清洁;建立供应商联系方式;工具和备件管理;事故应急流程和人员安全应急流程制定等。

2可连续性管理

a.保证所有基础设施设备正常运行

b.特别要注意发电机状态和自动启动功能、油料储备情况和供应条件、ATS状态和转换功能、电池状态和剩余能量、最高功率密度机架温度变化情况,以及预计市电掉电所导致的制冷设备停止运行后的继续运行时间等;

c.注意可维护性和可快速可修复性检查,包括所有设备的维护和修复空间、运输通道畅通、工具和设备备件状况等。

3文章管理

完整的文档时候起运维、故障诊断及优化改造的基础,包括基础设施的全套规划设计相关文档、系统最近一次改造的图纸、全套设备的清单及相关文档、设备保修及保养资料、机房自动操作系统的逻辑图及说明文档、维护日志及相关数据、故障分析及处理过程报告。

4容量管理

应有新增IT设备的安装及下线的工作流程;预测机房空间、电力、制冷的能力与IT需求的关系;关注高密度负载与IT部门保持良好沟通;对于IT需求制定6~36个月的预测;当机房不能满足IT增长的需求时,提前制定扩容或者新建数据中心的计划。

5变更管理

系统扩容预计任何对于设备状态的变更都要事先进行可行性和风险分析,并提出扩容和更改方案,并有完备的事前审核及告知流程、变更窗口审核及告知流程,以及事后的事件报告。

6节能运行

应了解并记录数据中心在不同工况及不同外界气候条件下的能耗情况,从中发现趋势,通过调整制冷设备参数设置、封堵所有可能的漏风口、调整或关闭不必要的出风口、安装盲板、改进气流组织等手段,保证冷空气最佳使用效率;根据负载量调整供电和制冷设备的冗余度以便提高设备容量利用率。

7事故处理

对于突发性故障,要有事故过程和状况记录,组织专家评审并提供事故原因报告,事后提出系统修复方案报告。

8应急演练

主要针对系统可连续性做定期演练,关闭市电输入,考察发电机状态和自启动功能、燃油储备量和消耗量、ATS转换功能、电池备用时间、UPS状态转换不停电供电功能、制冷设备再启动功能、高密度IT机架温度变化情况。

数据中心机房运维管理工作责任重大,运维人员应当了解自己工作的职责。熟悉自己日常的工作流程,时刻关注机房的温度和安全问题,通过优质的维护和管理,让机房发挥出更大的价值。

关注中国IDC圈官方微信:idc-quan或微信号:821496803 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-07-19 15:32:09
运维管理 保护数据中心网络安全需要防止外部渗透
近年来,安全问题一直在IT行业频繁发生,WannaCry ransomware数据窃取事件发生在英国国家医疗服务系统(NHS)和"发薪日贷款公司Wonga",这让人们感到不安,因为传统的安全 <详情>
2017-07-19 15:16:49
运维管理 数据中心SDN网络的构建及通信业务与光纤引入
数据中心最重要的是要完善和建设10Gb、40Gb甚至是100Gb以太网的设施基础。软件定义网络(SDN)一直都是网络领域里的热门话题。SDN的最大好处是有可能节约网络的总拥有成本 <详情>
2017-07-19 12:06:10
国内资讯 国家大数据中心等建设提速 中心地区带动发展趋势凸显
以中心地区带动发展已经成为我国目前培育经济新动能的主要方,向记者从多个部门了解到,以北京、上海等大城市为主,我国部署了多批国家大数据中心、国家科学中心、国家制造 <详情>
2017-07-19 10:53:30
国内资讯 苹果数据中心选址贵州 数据中心规模增长几何?
7月12日,苹果宣布将投资10亿美元在贵州建立其在中国的首个数据中心,也是目前投资贵州云计算大数据行业最大的海外公司。 <详情>
2017-07-19 10:32:00
云资讯 落成西南地区首例数据中心双区布局 腾讯云计算加速
腾讯云今日宣布新增国内2大数据中心:成都第二个数据中心、广州第四个数据中心。6月13日,腾讯云宣布开放了成都第一个数据中心,今日成都二区开放之后,国内互联网云计算服 <详情>