人类在对于灾难的承担与付出中,实现了向更高程度文明过渡的历程,数据中心的基础设施运维也是如此。如果说,处于高风险社会的事实,以暴乱、洪水、矿难、重大污染事件为标志的各类事故灾难类突发公共事件在近年来的集中发生,是对于中国当下政治、社会的重大考验。那么停电、停水、火灾、洪水等意外事件的发生,对于数据中心的连续不间断运营也提出了前所未有的挑战。
本文基于业界的最佳实践,对数据中心基础设施运维之应急处理的组织体系、运行机制、应急保障、监督管理等方面进行浅析,探讨了应急处理的目的及意义,给出了应急处理相关名词解释,分析了应急处理的基本原则,研究了应急处理体系建设方式及应急处理物资管理建议,最后本文针对数据中心几种典型场景,给出相应的应急处理建议,供读者参考借鉴。
1、应急处理的目的及意义
为保障数据中心业务的连续运营,各类数据中心在硬件建设上通过设备及系统的冗余配置,使得数据中心的业务保障能力不断提高。但与此同时,据统计显示,全球每年仍有大量的数据中心由于基础设施运维的应急处理不当,造成部分或全部业务宕机。如何保障数据中心在意外事件发生后能做到有章可循、有据可依,要求各类数据中心必须建立明确的应急处理体系,其目的及意义探讨如下。
数据中心基础设施运维的应急处理体系确定了应急救援的范围和方法,使数据中心应急管理不再无据可依,无章可循,尤其是通过培训和演练,可以使数据中心应急人员熟悉自己的任务和角色定位,具备完成指定任务所需的相应能力,并检验预案和执行程序,评估应急人员的整体协调性。
数据中心基础设施运维的应急处理建设,有利于在突发事件来临时做出及时的应急响应,降低事故后果,应急行动对时间要求十分敏感,不允许有任何拖延,应急预案预先明确了应急各方职责和响应程序,在应急资源等方面进行先期准备,可以指导应急救援迅速、高效、有序的开展,将事故造成的人员伤亡、财产损失、环境破坏、运行中断时间等降到最低限度。
数据中心基础设施运维的应急处理体系是数据中心各类突发事故的应急基础,通过编制应急预案,可以对那些事先无法预料到的突发事故起到基本的应急指导作用,成为开展应急救援的“底线”,在此基础上,可以针对特定事故类别编制专项应急预案,并有针对性地制定应急预案、进行专项应急预案准备和演习。
数据中心基础设施运维的应急处理体系,建立了与上级单位和部门应急救援体系的衔接,通过编制应急预案,可以确保当发生超过本级应急能力的重大事故时,与有关应急机构的联系和协调。
数据中心基础设施运维的应急处理体系建设,有利于提高风险防范意识,应急预案的编制、评审、发布、宣传、演练、教育和培训,有利于各方了解面临的重大事故及其相应的应急措施,有利于促进各方提高风险防范意识和能力。
2、小应急处理相关
应急:应急是一种要求立即采取行动(超出了一般工作程序范围)的状态,以避免事故的发生或减轻事故的后果。
预案:为进行危机管理提前制定的操作计划。
应急信息保障:当数据中心设施遭受破坏、性能降级、异常或执行重要信息保障任务时,通过应急方式来保障信息服务能力。
数据中心保障应急预案:为开展数据中心服务保障工作而提前制定的操作计划,规定了各级单位应对各种突发或重要事件的工作原则、组织机构、应急响应等通用性内容,适用于应对各类突发或重要事件。
重大危险源:指在数据中心园区内或周边,长期地或是临时地生产、搬运、使用或贮存危险性物品,且危险物品的数据等于或超过临界量的,重大危险源历来就是数据中心运营监管重点对象。
分级响应:突发或重要事件发生时,按照分级负责、快速反应的原则,应急响应划分参照国家应急预案标准。
3、应急处理的基本原则
数据中心基础设施运维应急处理应遵循以下原则:
数据中心基础设施运维应急处理应当遵守国家相关法律法规,遵守数据中心所在地区的行政法律法规。
数据中心基础设施运维应急处理在保障人员生命安全的前提下,积极承担应尽的社会责任,优先确保涉及民生的信息服务安全、畅通。
数据中心基础设施运维应急处理要做到统一领导,分级指挥,充分利用现有资源,突出保障重点。
数据中心基础设施运维应急处理的信息发布应当及时、准确、客观、全面,要积极主动,准确把握,避免猜测性、歪曲性的信息披露等。
4、应急处理体系建设
1、应急体系建设
各类数据中心应针对本数据中心基础设施运维的特点,建立基础设施运维应急处理体系,应急体系建设原则如下:
总则:包括基础设施运维应急处理体系目的、工作原则、编制依据和适用范围。
数据中心基础设施运维应急处理组织指挥体系及职责:包括组织机构和职责、组织体系框架描述。
数据中心基础设施运维应急处理的预防和预警机制:包括对预防机制、预警监测、预防预警行动、预警分级和发布的介绍。
数据中心基础设施运维应急处理的应急响应:说明应急响应的阶段划分、应急响应各阶段的工作内容和要求。
数据中心基础设施运维应急处理的后期处置:包含情况汇报和经验总结、奖惩评定及表彰。
数据中心基础设施运维应急处理的保障措施:从信息资源、人力资源、财力资源、物力资源四个方面,说明为应对突发或重要事件所应配备的资源及相应的管理办法。
附则:包括名词术语和缩写语、预案的管理与更新、沟通与协作、制订与解释部门等内容。
2、应急预案制定
数据中心基础设施运维,要提前制定针对本数据中心的相关应急预案。数据中心基础设施运维应急预案的制定,要注意以下几个方面:
针对性。数据中心基础设施运维应急预案,是针对可能发生的事故,为迅速、有序地开展应急行动而预先制定的行动方案,因此,应急预案应结合危险分析的结果。
针对数据中心基础设施运维重大危险源,如前所述重大危险源是指在数据中心园区内或周边,长期地或是临时地生产、搬运、使用或贮存危险性物品,且危险物品的数据等于或超过临界量的,重大危险源历来就是数据中心运营监管重点对象,比如数据中心周边的施工现场、化工厂、加油站、供气中心等均是数据中心周边的重大危险源。
针对可能发生的各类事故,在编制应急预案之初,需要对数据中心运营管理过程中可能发生的各类事故进行分析和研究,结合可能发生的各类事故的发生概率、损失大小等,在此基础上编制数据中心基础设施运维预案,才能保证应急预案更广范围的覆盖性。
针对数据中心基础设施运维关键的岗位和地点,不同的数据中心,即便同一数据中心不同生产岗位,所存在的风险大小都往往不同,特别是在柴油发电机、高压机房等,都存在一些特殊或关键的工作岗位和地点。
针对薄弱环节,各类数据中心的薄弱环节,主要是指数据中心为应对重大事故发生而存在的应急能力缺陷或不足方面,数据中心基础设施运维部门在编制预案过程中,必须针对生产经营在进行重大事故应急救援过程中,人力、物力、救援装备等资源是否可以满足要求而提出弥补措施。
针对重要入驻单位:重要的入驻单位或自用重要系统应当编制专门的预案,重要的入驻单位或自用重要系统往往关系到国计民生的大局,一旦发生事故,其造成的影响或损失往往不可估量,因此,针对这些重要的入驻单位或自用重要系统应当编制应急预案。比如政府、金融等领域,数据中心基础设施运维有必要对此重要领域的客户做专门的应急预案。
科学性。应急救援工作是一项科学性很强的工作,编制应急预案必须以科学的态度,在全面调查研究的基础上,实行领导和专家结合的方式,开展科学分析和论证,制定出决策程序和处置方案,应急手段先进的应急反应方案,使应急预案真正的具有科学性。
可操作性。应急预案应具有实用性和可操作性,即发生重大事故灾害时,有关应急组织、人员,可以按照应急预案的规定,迅速、有序、有效地开展应急救援行动,降低事故损失。
完整性。功能完整。数据中心基础设施运维应急预案中,应说明有关部门应履行的应急准备、应急响应职能和灾后恢复职能,说明为确保履行这些职能而应履行的支持性职能。
应急过程完整。数据中心基础设施运维应急预案应包括应急管理工作中的预防、准备、响应、恢复四个阶段。
适用范围完整。数据中心基础设施运维应急预案要阐明该预案的使用范围,即针对不同事故性质可能会对预案的适用范围进行扩展。
可读性。
易于查询。
语言简洁、通俗易懂。
层次及结构清晰。
相互衔接性。各类针对各种场景的数据中心基础设施运维应急预案,应相互协调一致、相互兼容。
规范性。数据中心基础设施运维应急预案的版本号建议采用“Vx.y.z(年份)”的形式表示。其中:V:表示版本,是"version"的简写;x:大版本更新,结构变化,每次更新数值加1;y:具体更改,部分内容的修正,每次更新数值加1;z:文字修改,奇数为包含对上一版修改记录的稿子,偶数为对上一版修改稿的定稿;年份:最新修改年限,如“2014”代表最新修改发生在2014年。
x、y、z均为非负整数。每当x加1时,y和z应清零。
5、应急处理之物资管理
为了提升数据中心基础设施运维质量,加强数据中心自有应急服务保障物资和装备的管理,确保数据中心各类业务保障工作的顺利开展,依据国家法律、行业规范,各类数据中心应制定适合本数据中心的基础设施运维应急物资管理办法。
1、应急物资管理原则
数据中心基础设施运维应急物资,是指用于数据中心应对突发事件的业务保障和业务恢复工作所需的通信装备、电源设备、辅助装备、后勤保障装备和个体防护装备等。
应急物资管理遵循“统筹管理、科学分布、合理储备、统一调度、分级负责”的原则。
2、应急物资的存储
数据中心基础设施运维应急物资存储工作,应遵循“统筹规划、分区储备、保障急需、方便调度、专业管理”原则。
根据数据中心基础设施运维保障需要,各数据中心基础设施运维部门要选用固定的应急物资存储地点,确保应急物资“灵活、方便、快捷”地存储和调用。各储备点应满足以下要求:
选址在交通便利,供电可靠,周围没有明显的安全隐患,不易受洪涝、山体滑坡等影响。
满足“四防”要求:防盗、防火、防水、防潮。
储备点需设置操作维护空间,便于应急设备的检修、测试等。
3、应急物资的维护
数据中心基础设施运维相关应急物资的日常维护工作,由数据中心应急物资储备部门负责,应参照各数据中心相关维护规程制定具体的应急物资维护细则并严格执行。
数据中心基础设施运维相关应急物资储备部门,要加强应急物资维护管理,根据储备物资的有效期和质量要求对储备物资进行保养和适时轮换,确保应急物资的可用性和完好率。
数据中心应急保障车辆应制定专门的安全生产管理办法,车辆的保养和检修频次应高于车辆保养手册的要求,五年以上车辆应将保养里程或者时间减少一半以上。
数据中心应急保障设备至少应每年检修和保养一次,各类重型设备应每半年在本数据中心灾害高发季节之前及结束之后进行检修和保养一次。
专业管理部门牵头负责应急物资,特别是备品备件的性能检查和升级,至少应每半年进行应急物资的软件、硬件与数据中心现行设备的同步更新和升级。
数据中心各级基础设施维护部门应提出应急物资维护支出预算,对执行情况进行跟踪。
数据中心应急物资报废按照《数据中心固定资产管理办法》有关固定资产报废的相关规定执行。数据中心各级基础设施运维部门应在应急物资报备时上报物资报废情况。
6、应急处理之应急演练
为确保数据中心基础设施维护工作的顺利开展,保障数据中心基础设施安全、机房设备稳定运行,进一步验证安防、消防、动力、空调、综合监控等系统在突发情况下的运行状态,为各项操作规程和应急预案的编制奠定基础,提升维护人员的现场实际操作能力和应急能力,日常的应急演练显得尤为重要,各类数据中心应当重视应急演练,切实防患未然。
1、应急演练的目的和意义
为提高数据中心发生突发安全生产事故时,维护人员的快速反应能力,检验及维护在非正常状态下的组织能力,缩短处理事故的时间,减少事故状态下的经济损失,各类数据中心应当本着“安全第一,预防为主”的方针,组织进行数据中心基础设施应急演练。通过数据中心意外事件的实战演练,为日后数据中心基础设施故障处理积累经验。通过应急演练,查找目前存在的薄弱环节,采取措施进行补救和提高,以保证在意外状态下正确快速地处理异常状况,保证数据中心基础设施安全运行。数据中心各专业应急演练,应参照应急演练的总体部署。
2、应急演练的组织原则
制定详细的应急演练方案。凡事预则立,不预则废。数据中心基础设施运维之应急演练亦是如此,基础设施运维各专业应密切结合本专业实际,制定详细的应急演练计划,对可预见的场景应提前做好应急演练部署。应急演练方案应包括以下内容:
应急演练目的和意义。本部分应当阐述清楚本次应急演练针对的场景,验证的内容,目的及意义。如:为检验数据中心空调系统功能是否正常,监测末端精密空调机组漏水监控功能是否正常,考察空调维护人员漏水应急处理的响应时间,开展本次演练。
应急演练时间安排。此部分内容应明确演练启动筹备会时间,各参演单位参演人员就位时间,启动时间及终止时间等信息。
应急演练地点。应急演练中涉及的主要区域,指挥调度区、演练观摩区、演练操作区、总结点评区等,重要区域是否需要戒严和人员疏散等,应予详细的描述。
应急演练涉及的系统及设备。本次演练涉及的所有系统及设备(包含可能间接影响的系统及设备)。
参演人员架构及职责分工。该部分内容应明确本次演练的组织架构及人员分工,包括应急演练总指挥,各专业现场指挥,操作员,观察员,记录员等人员的姓名、职责、位置、联系方式、应急联系方式等信息,应在本部分予以明确。
应急演练场景描述。描述清楚本次应急演练涉及的应急场景,如:模拟数据中心末端空调风机故障引发动环监控报警,设备无法正常启用,导致机房局部产生温高。维护人员需紧急关闭该机组并关闭相应的阀门,开启备用机组。
应急演练的工作要求:
所有参演人员应做到听从指挥,严格按照操作流程执行操作,意外情况做到及时上报,并采取有效措施防止意外事件继续发展。
所有人员应严格遵守职责分工,演练过程中密切关注设备异常情况,发现异常及时记录和报告。
现场人员均按照演练计划中各类指令进行下一步操作。
演练实施步骤。该部分内容为应急演练方案中的主要内容,本部分内容要对演练中所有涉及的环节,每一步应急操作详细内容,出现的现象,下一步指令和操作,予以明确的描述。确保参演人员可按此进行逐步操作,此外,在实施步骤中应明确描述应急演练中突发情况操作步骤。
应急演练严格落实。按照数据中心演练计划,基于上述详实的演练方案,在演练执行的过程中要认真落实,严格监控演练各环节的落实情况,不断优化此类应急演练的方案和流程,将数据中心应急演练工作常态化,随时保持警惕,真正做到“平战结合”。
应急演练经验总结和提升。应急演练执行完毕后,善于总结,将成功的经验及方法及时总结归纳,及时输出应急演练报告,重要文献应纳入数据中心文档库、资料库、案例库。在演练过程中发现的问题及时给出解决方案并落实解决,应急演练过程中的优秀参演维护单位和部门应予以表彰。
3、应急演练小结
综上,应急演练工作的开展,是数据中心基础设施运维中不可或缺的重要部分,演练执行过程中加强“四点”管理,即抓住重点、克服难点、控制节点、保证终点;要求“科学运维、智慧演练”。
数据中心基础设施应急演练,应围绕各项工作的目标要求,增强应急演练工作的计划性和主动性,坚决贯彻“12个有”:即各项应急演练工作开展之前要“有目标、有计划、有要求”,应急演练工作开展之中要“有人抓、有人管、有落实”,“有制度、有流程、有手段”,应急演练工作完成之后要“有总结、有考核、有提升”。