容灾切换演练,是一项将管理与技术相互紧密结合系统工程,容灾系统能在紧急时刻保障业务连续性,但企业在容灾演练准备、容灾演练切换等过程中存在诸多隐患;如何发现隐患、消除隐患所带来的风险,是需要我们讨论的问题,以下梳理了五种隐患,抛砖引玉,欢迎大家继续提出,以消除我们在容灾演练工作中的各类隐患。
隐患之一:容灾组织建设不健全
容灾团队需要有一个包括决策组、执行组、行政组的完整组织机构。需要有团队组织和完成日常管理、预警、演练、测试、培训等工作。
但很多企业建成容灾中心后,维护的工作量增加很多。但却忽视了要增加相应的维护人力资源,致使系统切换的执行人员保障不到位;再者,当发生灾难时,由于决策成员对于容灾中心的关注度不够,无法做出决策;行政组更是形同虚设,诸如人员调配、信息发布和公共关系等工作,都只能由技术部门完善。
隐患之二:缺乏预警流程
企业当面对灾难时,很难严格按照预警流程执行,往往各个部门乱作一团,缺乏响应的预警流程机制,使容灾系统无法起到应有的作用。
结合演练工作将预警流程可以分为以下几个主要步骤:风险上报--风险评估--风险决策--风险告知--发起系统切换。
1、风险上报主要包括风险信息获知、收集、上报。风险获知后,应验证风险的真实性,完整性。
2、风险评估需要容灾团队根据上报资料做出全面评估,必要时形成评估报告,应包括造成灾难的几率、影响程度、发展趋势等。
3、风险决策需要领导组根据风险评估报告决定后续的处理,包括是否提前启动切换,进入风险警备状态。
4、风险告知需要行政管理组将有关风险的信息及时对内对外发布,保持消息沟通顺畅。
5、系统切换过程是在领导组在做出切换系统的决策后,按照应急预案和相关操作手册直接进入灾难恢复启动步骤。
隐患之三:容灾演练流于形式
企业没有建立起完善的容灾演练机制,容灾演练利于形式,没有形成针对各灾难场景行之有效的演练模式。
容灾演练不仅要检验灾难恢复流程的有效性,而且也要验证容灾系统是否能够实现正常的切换和回切。容灾演练的主要步骤应至少包括:制定演练计划、审批、演练启动、消息发布、演练切换、业务验证、演练回切、总结等。
在容灾演练切换过程中,应详细记录各个重要环节的时间点,并分析切换演练是否能够达到容灾系统和生产系统的各项指标。在演练后应及时总结经验,对发现的问题应及时解决,修改或优化演练的应急流程,完善演练应急预案。
隐患之四:容灾测试不及时
如果对容灾系统的数据、功能、性能等方面没有充分的测试验证,就难以保证容灾系统实现数据保护和业务接管的功能。
进行测试时,尽可能采用测试脚本,避免人为误操作。测试环境尽可能与生产系统隔离。在不发生系统变更时,好每月测试一次,否则须即时测试。
隐患之五:没有做好容灾培训
通过容灾培训,可确保相关人员及时准确地了解容灾系统结构,熟悉测试、演练、灾难恢复流程,明确自身职责,使沟通、协作顺畅,提高工作技能和灾难应对能力。
培训计划由执行组与人力资源部门共同制订和执行。培训内容主要包括:容灾基础培训、容灾流程培训、容灾技术培训等。
以上所述的五个方面的隐患,任何一个环节的缺失都可能致使容灾中心形同虚设。养兵千日,用兵一时。所以任何一个环节都不能忽视。