如今,数据中心运营商每天都在为数据中心的高可用性感到烦恼,全天候工作以确保100%的正常运行时间。他们部署冗余设施以最大限度地降低风险,严格规划和测试以确保连续性运行,并采取预防措施保护其基础设施免受环境威胁。但是,即使是最好的计划和准备措施也会在自然灾难或突发事故中出错。

事实上,在某些极端情况下,先进的规划和准备工作依然无能为力,而灾后恢复成为确保企业在重建数据中心业务的同时保持功能的重要组成部分。

在任何灾难情况下,时间都是至关重要的,因此数据中心工作人员需要知道在事件发生后的几分钟、几小时和几天采取适当的行动。

工作人员的安全首先是最重要的因素,因此一旦确定所有人员都是安全的,就应该开始执行以下恢复活动:

主动监控所有关键设备以寻找隐藏的问题 - 查看直接受到灾难事件影响或暴露于灾难事件的设备,如发电机,机油和过滤器等。例如,在恢复工作可能需要几天甚至几周的情况下,对于监测燃料供应和了解发电机在没有备用柴油的情况下运行多长时间至关重要。在自然灾害紧急情况下,医院,急救人员和其他公共安全组织必须首先获得燃料供应,无论数据中心是否有没有燃料供应合同。

在指定的时间段内增加现场巡查 - 这将有助于工作人员发现任何缺陷,如漏水或设施损害。确保每位员工都有合作伙伴提供支持和帮助也很重要。

确保员工轮岗,减轻现场员工的压力 - 为了给员工提供足够的休息时间,企业可以考虑从其他没有受到影响的数据中心招聘员工或委托第三方供应商进行部分恢复工作。

建立通信协议,提供关键更新和现场反馈 - 在验证所有区域和系统后,定期举行简报会,向工作人员和管理层通报任何数据中心或现场影响。在灾难恢复情况下,从CIO到每个工作人员人都可以发挥作用,因此,所有参与方都必须及时了解正在发生的事情。

监视输入电源- 由于为数据中心的提供电力的电网可能受到影响,数据中心电力将会中断或质量下降,所以与电力公司联系以了解合理的安全时间非常重要,在电网供电正常时,数据中心关闭备用的发电机。并重新接入电网。

应用经验教训 -只要时间允许,立即开始编写和记录经验教训和最佳实践,为下一步活动做好准备。

尽管自然灾害是不可避免的风险,但通过正确的灾难恢复计划,数据中心运营商可以将这些灾难性事件的影响降至最低,从而快速安全地恢复运营。

 

关联阅读:

数据中心自然冷却设施的应用水平有待提高

防止数据中心停机需要采取什么措施

 


【中国IDC圈编译原创,转载请注明出处】

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-11-16 09:24:00
国内资讯 京东11·11:撬动数据中心的支点——京东阿基米德
今年11.11,京东数据中心操作系统(JDOS)阿基米德已经全面接管了应用资源调度。每日调度百万台容器实例运转,每日为离线计算提供了多达3000万核。小时的计算资源,SLA履约 <详情>
2017-11-15 09:59:00
交换存储 什么是数据中心的双层存储系统?
大多数数据中心至少拥有五到六个不同供应商的不同存储系统,这既提高了存储成本,又加大了管理复杂性。而一个潜在的解决方案是全闪存数据中心,其中所有数据都移动到一个单 <详情>
2017-11-15 09:40:37
机房建设 数据中心从芯出发
数据中心是信息处理的集中场所,是由大量服务器、网络和存储等设备搭建起来的强大数据处理系统。虽然现在云计算、大数据、人工智能等这些软件虚拟化的技术在数据中心里大行 <详情>
2017-11-15 09:33:00
国内资讯 阿里云+思科,构建下一代数据中心
中国最大的公有云服务提供商阿里云的目标是在2019年之前达到或超越AWS的公有云市场规模,为此阿里云即将在北京建立的数据中心将会采用思科的技术来实现。 <详情>
2017-11-15 09:22:00
国际资讯 由于光缆被盗 即将开通的数据中心被迫延期
据国外媒体报道,位于南非约翰内斯堡市布莱姆芳登社区的数据中心价值200万南非兰特的铜缆11月11日被盗。这个数据中心设施将于12月开通,但由于发生盗窃案件,其运营将被 <详情>