如今,数据中心运营商每天都在为数据中心的高可用性感到烦恼,全天候工作以确保100%的正常运行时间。他们部署冗余设施以最大限度地降低风险,严格规划和测试以确保连续性运行,并采取预防措施保护其基础设施免受环境威胁。但是,即使是最好的计划和准备措施也会在自然灾难或突发事故中出错。

事实上,在某些极端情况下,先进的规划和准备工作依然无能为力,而灾后恢复成为确保企业在重建数据中心业务的同时保持功能的重要组成部分。

在任何灾难情况下,时间都是至关重要的,因此数据中心工作人员需要知道在事件发生后的几分钟、几小时和几天采取适当的行动。

工作人员的安全首先是最重要的因素,因此一旦确定所有人员都是安全的,就应该开始执行以下恢复活动:

主动监控所有关键设备以寻找隐藏的问题 - 查看直接受到灾难事件影响或暴露于灾难事件的设备,如发电机,机油和过滤器等。例如,在恢复工作可能需要几天甚至几周的情况下,对于监测燃料供应和了解发电机在没有备用柴油的情况下运行多长时间至关重要。在自然灾害紧急情况下,医院,急救人员和其他公共安全组织必须首先获得燃料供应,无论数据中心是否有没有燃料供应合同。

在指定的时间段内增加现场巡查 - 这将有助于工作人员发现任何缺陷,如漏水或设施损害。确保每位员工都有合作伙伴提供支持和帮助也很重要。

确保员工轮岗,减轻现场员工的压力 - 为了给员工提供足够的休息时间,企业可以考虑从其他没有受到影响的数据中心招聘员工或委托第三方供应商进行部分恢复工作。

建立通信协议,提供关键更新和现场反馈 - 在验证所有区域和系统后,定期举行简报会,向工作人员和管理层通报任何数据中心或现场影响。在灾难恢复情况下,从CIO到每个工作人员人都可以发挥作用,因此,所有参与方都必须及时了解正在发生的事情。

监视输入电源- 由于为数据中心的提供电力的电网可能受到影响,数据中心电力将会中断或质量下降,所以与电力公司联系以了解合理的安全时间非常重要,在电网供电正常时,数据中心关闭备用的发电机。并重新接入电网。

应用经验教训 -只要时间允许,立即开始编写和记录经验教训和最佳实践,为下一步活动做好准备。

尽管自然灾害是不可避免的风险,但通过正确的灾难恢复计划,数据中心运营商可以将这些灾难性事件的影响降至最低,从而快速安全地恢复运营。

 

关联阅读:

数据中心自然冷却设施的应用水平有待提高

防止数据中心停机需要采取什么措施

 


【中国IDC圈编译原创,转载请注明出处】

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2018-10-26 10:52:42
机房建设 浪潮网络智能SDN平台 数据中心网络重构之路
随着云计算、大数据、AI等新兴技术的快速发展,个性化的网络应用需求增长迅速,网络正在从关注技术和设备,逐渐向以业务、用户和体验为中心转变。 <详情>
2018-10-26 10:41:46
机房建设 数据中心机房应该如何布线,机柜布线方法详解!
机柜的作用远远要比只是放置设备的柜子要高深得多,机柜系统性地解决了计算机应用中的高密度散热、大量线缆附设和管理、大容量配电及全面兼容不同厂商机架式设备的难题。 <详情>
2018-10-26 10:04:00
机房建设 智能化的数据中心到底该如何建设?
随着AI、大数据时代的到来,数据中心的业务也不断在演变,新的技术不断的融入到数据中心。这其中,智能化的数据中心包含两方面含义。 <详情>
2018-10-26 09:28:10
运维管理 如何经济而高效地提升数据中心的容量
全球计算容量在发生变化:大中小企业正在将工作负载从自己的基础设施转移到云端,被OpEx成本模式、灵活性和几乎无限增长的空间所吸引。消费者也日益使用云(有时没有意识到 <详情>
2018-10-26 09:14:37
云资讯 微软云业务“三驾马车”齐聚中国
微软今晨发布了创纪录的一季度业绩,智能云业务是微软营收增长的主要驱动,也是微软冲击万亿美元市值的主要支撑。 <详情>