一年一度的飓风季节又将来临,IT世界又将面临一个非常严峻的问题:“我们当前的灾难恢复(DR)计划是否能够表现出充分的业务信心?我们是否可以按照需要进行恢复?”去年夏天,飓风艾琳肆虐了美国东海岸,给许多企业、员工和家庭带来了不可逆转的损害和损失。艾琳应该教会了我们一些非常重要的经验教训。
艾琳带来的经验教训
首先,所有的企业都必须有一个经过全面测试的灾难恢复计划。对于这样的重大灾害对您的整体业务的健康运作所产生巨大的影响,您绝对买不起单。更何况,该计划对于支持您当前的业务需求是至关重要的。IT部门必须和业务部门进行沟通和协调。他们必须承认,他们的灾难恢复计划必须与整个企业的紧急预案相辅相成,以大限度地减轻脆弱性和减少数据丢失。企业还应该确保他们有一个基础设施,帮助他们在灾区地理区域以外恢复到维持一个备用的紧急措施的恢复设施。
失败的灾难恢复计划
失败的灾难恢复计划大致可以分为如下五大类
。不完整:计划不包括所有关键系统
。过时:计划不保护现有的IT基础设施
。交付差距:尚未对IT工作人员完成培训
。测试问题:计划在近期尚未完全测试
。协调问题:计划缺乏与业务整合
所以,你要怎么能确保你的灾难恢复计划不会失败?首先,最重要的是要确保你有熟练的技术资源,可用来执行恢复。毕竟,像艾琳这样的飓风灾难,你不能预测关键IT人员的可用性。灾难恢复计划应指定专门的团队成员,无论是来自企业内部或从服务提供商处购买服务,站灾区以外有专业知识的人来管理为您恢复。
重要的是要了解一个灾难恢复计划必须定期进行全面的测试,以确保系统和工作人员能够按计划需要被激活。你必须总是问自己:“如果我要调用计划,我可以100%的相信我可以恢复既定目标之内的业务吗?”
创建和测试灾难恢复计划
那么,究竟应该怎样准备你的灾难恢复计划?并且,你应如何测试它?这里我给出了10项创建和测试您的灾难恢复计划时的建议,仅供参考:
最新、完整和全面的:确保你的计划是到目前为止最新的,详细和易于遵循。并且,支持您的企业的所有关键业务。
优先、分类和分发:在您的计算机房内,并非所有的服务器对于您的企业都具有同等的重要性。优先级服务器和关键任务应用,并确定这些计划。分配计划到所有计划持有人,并确保它很容易访问,而且保证在计划发生变化时,他们及时收到更新的副本。
预定测试日期!说得够多的了。
经常性的测试:为了确保业务连续性,灾难恢复计划应每年至少进行一次测试,如果主要业务或基础设施发生变化,或如果你有很短的恢复时间要求。在已知的等待事件前,提前预订您的灾难恢复测试时间。
进行不同的测试:对于计划的所有组成部分纳入各种测试。在模拟的,逼真的灾难场景中的测试,你可以得到真实的实践方案。
积极和的测试:进行两类测试:通过积极的测试行使你的程序和行动计划;通过消极的测试,与程序主要参与者进行沟通。两者都同样重要。
应对突发性:由于灾害事故经常是突然来袭,将突发性的这一特点纳入到您的测试,看看您的计划的反应。真正的准备,你需要体验模拟灾害,并评价目前程序的有效性。
执行基本的例行演习和后勤检查:执行呼叫联系列表,以确认任何可能涉及(其中包括供应商)的联系信息都是最新的。确保你可以很容易地随时从异地召回存储备份磁带。不要忘了检查会议记录。
测试发电机:测试发电机在满负荷情况下如何反应。确保你有多个燃料供应商的支持协议,当你在需要补充柴油时,按规定的服务水平协议(SLA)提供。
检查备份策略:定期查看您的备份策略,并确保其正确地反映了你的数据的优先级,恢复时间和恢复点目标。
底线:企业依靠技术来运行他们的业务,因此停机时间是一个商业问题,而不仅仅是一个技术问题。任何灾难,无论是自然灾难(飓风、洪水或地震)或相关的设备/硬件故障,无疑会造成停机或更糟的状况,对公司的底线产生负面影响。一次又一次,我曾看到那些经历了灾难恢复噩梦的企业后悔他们的灾难恢复计划没有准备充分。并且,所有这些公司有一个共同点:他们从来没有想到灾难会发生在自己身上。
我的建议是:假设灾害会在某些时候影响你。Forrester研究显示,60%的企业在过去五年中曾调用过他们的灾难恢复计划。吸取飓风艾琳事故中学到的重要教训,在2012年飓风季节启动您的灾难恢复计划,并对其进行测试。我保证你不会后悔。