Anything that can go wrong , will go wrong。

 ——墨菲定律

何运行一个庞杂的机房,进行无数的主动和被动的操作,同时避免错误导致的数据中心故障?

1. 以终为始

以终为始是一种以结果为导向的思维方式,提示人们在做事情前要先明确做事情的最终目的,也就是“不忘初心,方得始终”。数据中心的终极目标是支持业务系统的不间断运行。在接手一个数据中心的运维任务之前,我们首先需要明确业务连续性目标,然后才能制定相应的运维策略。

2. 以人为本

70%的数据中心故障是由人为造成的。与此同时,即使有最先进的监控系统,数据中心内无论主动保养操作,还是应急反应,都还需要依赖于人员的最终决策和操作。所以,配备足够的人员、有责任心、经验丰富的人员、对于数据中心的安全运行至关重要。

3. 培训与学习

学习是一种修炼。有一种说法“最好的运维团队只不过是犯了足够的错误就修炼出来的”。数据中心基础设施牵涉到电力、暖通、弱电、消防、建筑等诸多专业,对于数据中心运维团队来说,需要学习的专业知识非常多。同时,每一个数据中心的配置和特定的操作流程都不完全相同。因此,培训与学习应该成为运维团队管理的一个重要组成部门。

4. 建立管理体系

数据中心基础设施的运维管理工作的管理对象包括整个庞大的基础设施、运维团队、服务对象(IT部门或者IDC客户),是一项系统性很强的工作,需要建立起一个管理体系。在整个管理体系中最重要的三个方面是设备保养体系、与所有相关部门的沟通机制、以及支持整个数据中心生命周期管理的财务预算体系。

5. 规范操作流程

任何规范化的企业管理,都不可避免地需要引入流程,数据中心运维管理也不例外。完全基于个人经验和判断的操作,往往隐藏着重大的故障风险。数据中心就是要强化流程管理。任何重要的操作,必须严格按照流程执行。建立流程文化是数据中心规范化管理的一个重要环节。数据中心最重要的三类流程是标准操作流程(SOP),维护保养操作流程(MOP),和应急相应流程(EOP)。

6. 动态管控

除了之前提到的管理体系和操作流程这些相对静态的工作以外,数据中心还需要进行动态的管控。近几年,IT负载的动态性表现得越来越明显。一方面,IT设备的增加速度比较快。新的业务系统上线可能导致IT负载在短期内有较大的增加。另一方面,企业大量采用虚拟化技术以后,可能会出现机房内各机柜的IT负载在一天范围内有较大变化的情况。基础设施运维团队需要针对这种IT负载的动态性作出相应的对策。

7. 持续改善

大型数据中心的出现只是近几年的事情。当数据中心超过一定规模的时候,管理变得复杂,已经超越原来简单的依赖于少数运维人员的责任心的时代,需要的是完整的管理思想和方法论。国内数据中心基础设施运维体系的成熟度大致处于三个等级的状态:基础级、成长级、文化级。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2018-03-01 14:18:25
整机柜服务器 IDC:2017年Q4全球服务器市场营收增长26.4%
据IDC全球服务器追踪报告显示,在2017年第四季度,全球服务器市场的供应商营收同比增长了26.4%,达到207亿美元。随着新型Purley和EPYC产品带动销售增长,服务器市场规模仍 <详情>
2018-03-01 12:02:33
数据中心节能 数据中心面临的能效问题
如今, 数据中心已经成为当今全球经济发展的基石。它们可以对位于个人和商业生活中心的信息进行移动、存储和分析。如果没有数据中心,人们不能这么自由地日常交流、分享社 <详情>
2018-03-01 10:43:00
国内资讯 全云化难以一步到位 云数据中心如何备战5G?
近年来电信行业一直在致力于推动数字化转型,与此同时,5G将临以及云服务、视频、IoT等业务的迅速崛起,都促使运营商加快走向全云化。然而运营商的组织结构和流程都极为复 <详情>
2018-03-01 10:32:00
国内资讯 国网江苏电力全业务统一数据中心初见成效
近日,国网江苏电力全业务统一数据中心分析域顺利完成配网运监大数据分析、信息系统应用情况分析两个新应用场景部署,并在国网大数据应用专题中发布。这是2017年江苏公司分 <详情>
2018-03-01 10:27:00
国际资讯 QTS公司扩展其在达拉斯的数据中心园区
日前据悉,美国房地产投资信托和数据中心服务提供商QTS公司正在扩建其在达拉斯的数据中心园区,计划为这个2014年开通运营的54英亩面积的园区增加32MW的电力容量。 <详情>