优良数据中心运维体系建设经验谈_IDC运维管理

越来越多数据中心行业从业人员意识到一个残酷的现实：人为操作失误是造成数据中心宕机的头号因素，而非糟糕的设计或施工。越来越多的人开始关注数据中心的运营与维护。设计、建造一个完善的数据中心只是数据中心可持续运行的第一步，公司企业、政府部门等数据中心的业主必须能够根据其数据中心风险特性来准确描绘运维需求并设计相应的运维规划。要做到这一点并不容易，尤其相关的经验和技能对于那些核心业务并非数据中心的公司来说是比较匮乏的。本文将讨论数据中心运维当中应当从哪些方面入手，以帮助大家建立合理的运维体系，确保数据中心的可持续与可靠运行。

运维人员必须参与数据中心设计

如果数据中心设计的人不是最终使用的人，或者在设计阶段使用者的意见没有被充分咨询或征求，很容易造成后期使用过程中额外的修改和改动。实际上，数据中心运维人员在实际运维中经常遭遇这样的情景：使用中发现配电柜没有预留足够的空开位置，造成必要的维护工序无法完成；电池柜的设计安装未预留服务空间；建筑结构设计使得通风装置无法提供所需要的通风量，等等。如果在设计阶段就包括运营评估的环节，那这些问题就可以尽可能地避免。

最有效、最省钱、高效的数据中心应当采用生命周期总拥有成本（TCO）的方式来规划管理，以平衡投资和运营成本，进而满足业务需求。其中很重要的一步就是根据公司具体业务需求制定设计指标和运营目标。这样，建造的数据中心目的性更强。

不能仅仅依赖数据中心的设计

许多公司认为高级别的冗余设计可以弥补运维预算的不足，但多方的研究证明，关键任务环境下，人为错误是宕机的首要因素。为什么人们还是会忽略运维呢？主要是因为硬件的设计建设是看得见摸得着的，而运营的经验相对来说需要更多的时间积累。所以我们时常看到公司花费大量投资进行硬件建设，而忽略运营规划所需的预算。很多缺乏经验的用户不知从何下手时，往往会把数据中心的运维交给不具备专业知识的第三方管理。比如说，很多数据中心的运维交由办公室建筑维护类公司，而这类公司往往并不具备操作和管理关键设施的技能。大的区别在于，办公室环境的维护修复是可以离线进行的，而关键设施环境下的维护是以尽可能减少宕机时间为高信条。

所以无论是基础设施管理还是数据中心运营团队的架构必须围绕着一个目标：大化正常运行时间。具体而言，与维护传统设施环境相比，维护关键设施环境有特殊的需求。例如，要求连续运营，不许宕机，要求实现冗余系统，发生故障时能主动切换，等等。无疑，满足这些特殊需求的关键在于用正确的方法建立运营体系。

重视人才，重视培训

数据中心环境下，低估人员构成是有风险的，有可能造成紧急情况下无法恢复正常运行。合理安排人员配置，以优化紧急状况响应、设备维护和供应商管理。同样，招聘并保留合适的人员至关重要。招聘具备专业技能的合格员工不是那么容易的，招聘时要通过严格的筛选过程，来验证应聘人员的技术、管理和沟通能力，因为这些技能对数据中心关键设施的运营必不可少。当然，找到合适的人选只是第一步。

招募了优秀人才还要能留住他们。过高的人员流失比例对数据中心里的大多数运营项目造成风险。提供完善的培训和支持，营造良好的职业发展空间可以有效地保留员工。经过系统培训的员工将了解如何安全地操作和维护系统，并知道在出现问题时如何处理。

很多情况下，设备安装调试完成后，设备供应商或总包商会提供相关设备的培训，但这样的培训往往针对具体的设备而很少全面考虑数据中心的整体运营。而接受培训的员工又“言传身教”，“口口相传”地培训其他人，这样的培训方式很容易使一些不正确的方法和流程成为标准化的东西。

因此，我们需要的是一套完整的培训和考核体系，根据掌握的技能将人员按不同资质资格划分，同时提高不同层次人员的业务水准。通常情况下，业务人员水准可分为以下几个层次：

在指导监督下的基本操作；

进行日常操作及维护；

进行高级操作及维护；

专业领域专家

糟糕的培训往往是由于没有花足够的时间和经费来开发培训规划。所谓“磨刀不误砍柴工”，很多IT经理们忽略了这样一个简单的道理。良好的培训可以带来正常工作时间的增加、维护成本的节约，以及人员流失的降低，所有这些收益都会远远抵消开发培训规划的成本和努力。

持续不断地演练

任何紧急状况下，数据中心的操作人员都应该象训练有素的救火队员一样从容应对。要做到这一点，关键是持续不断地安排专门时间演练。而且这样的演练需要数据中心所有相关人士的参与，从而令每个人都明确在紧急状况发生时应该做什么。

好的演练需要完备的教材。有效的培训教材应该包含以下内容：

紧急措施的演练内容

主要设备、系统的操作原理

操作与维护流程

不同级别培训的考核

给演练和测试考核打分可以促进持续不断的进步。

把运维上升为流程

发生在数据中心关键设施内的一切行为都应记录在案，有据可查，以便于量化比较结果，为改进提供依据，促进优化。

供应商提供的文件是运营的一个重要部分，但关键环境下运营团队操作的详细流程同等重要。这包括数据中心内通路安排、日常操作、预防性维护、修正性维护和应急响应。另外，最终交付施工图纸对安全可靠运行也十分重要，例如设备列表、维护工作内容、维护时间安排等看似简单的信息经常会遗失，不准确或不充分。管理归档好这些文件对数据中心生命周期的维护至关重要。

合理实施工序与流程

在数据中心这样的关键环境里，所有的工作都要应该有成文的流程。最常见的流程如下所示：

标准操作流程（Standard Operating Procedure/SOP）。可以是功能性或者管理性的，详细描述规定操作流程，可在任何情况下引用。

流程方法（Method of Procedure/MOP）。直接工作于或围绕对关键负载有直接或间接影响的设备时，一步一步，详细描述的流程。

紧急情况操作流程（Emergency Operating Procedure/EOP）。故障状态下的应急反应流程，包括如何确保安全、恢复冗余，及隔离故障。

供应商管理（Vendor Management/VM）。当供应商参与时，如果没有完善的供应商管理体系，会引入不必要的风险。设备供应商人员在数据中心内的所有行动都需要在SOP、MOP和EOP中有详细的监督和规定。没有合理的文档记录和监督体系，造成人为故障的风险大大增加。因此，坊间时常流传这样的故事：即设备供应商去某重要客户数据中心进行维护却造成宕机事件。

应急响应（Emergency Response/ER）。无论准备如何充分，不测事件总会发生。精心设计的应急响应机制和总结流程，包括详细的事件报告、故障分析，以及经验教训总结，可以防止类似事件的再次发生并减少损失。

开发和实施质量体系

很多人认为一旦流程建立起来，经过验证，就不会出错了，殊不知精益求精的道理同样而适用于数据中心运维流程，只有这样，我们才能真正做到数据中心运维的高效、可靠和经济。这需要一个完善的质量体系来保障：

质量保证（Quality Assurance/QA）：确保系统中的流程不会引发错误。

质量控制（Quality Control/ QC）：在流程的不同步骤，主动进行监测考核，以发现可能导致系统故障的隐患。

做到零宕机并不容易。没有任何工序或流程是完美无缺的，尤其在其形成的初期。为确保不断完善流程，制定相应的计划非常关键。例如，现场记录文件需要有反馈专栏以记录任何为执行或改进流程所需的变更，以便这些变更在经过QA审核后融入到新版流程中。

充分利用软件管理工具

一个成功的数据中心运维流程需要大量的文件处理，而且必须能够随时调用。所谓“工欲善其事，必先利其器”，没有一个软件管理系统，仅靠记录表格可以对付一时，但必将带来巨大隐患。

例如，表1为一个5千平米的数据中心3个月内的活动记录，每一项活动都需要相当的协调工作和文档记录。因此，我们需要一个强有力的计算机辅助维护管理系统（Computerized Maintenance Management System/CMMS）来帮助规划、指派和跟踪所有维护活动。这些活动记录可以用于生成关键的统计数据来分析数据中心健康状况、体系的合理性，以及资源的利用情况。与质量体系结合，可以实施更高级的运维管理，例如预测性维护和故障模型分析，进一步降低数据中心的成本和风险。