一声巨响,数据中心应声倒下

罗马尼亚一家银行数据中心业务中断了大约10个小时。原因是数据中心在对消防系统进行测试时,打开了储存有“烟烙尽”的钢瓶,“烟烙尽”通过软管和喷嘴均匀地喷洒在狭小空间、当气体通过喷嘴释放时,压力过大,在释放“烟烙尽”时发出了异常大的巨响,巨响超过了130分贝,引起振动,服务器和数据存储设备都因此受到了影响,破坏了设备内部部件,导致银行的业务瘫痪。实际上,数据中心设备对噪声也非常敏感,尤其是这种突然的巨响,很容易造成内部电子元器件的失效。(专家点评:有必要在数据中心增加一些消声设施,提供一个相对安静的环境,有利于延长设备的使用寿命。)

一辆SUV汽车引发的惨剧

2007年11月位于美国达拉斯的Rackspace公司数据中心遇到了一场无妄之灾,一位大型四驱车司机,在开车途中由于糖尿病病发而出现短暂昏迷,汽车一路向前直冲,并从丁字路口处撞向路边外侧的护堤。护堤被撞击后,冲向空中,并落在了Rackspace公司的数据中心建筑物上,恰好砸在了供电装置上,一阵火光带闪电之后,数据中心电力供应中断,使其业务在数小时内陷入了瘫痪。Rackspace公司为此次事故向客户支付了350万美元赔偿金,同时还增加了客户流失的风险。(专家点评:数据中心需具备一定的抗震、抗撞、防火能力,避免遇到这样的意外故障。)

飓风吹停了数据中心发电机

2012年10月位于美国纽约曼哈顿地区的一处数据中心整套供电系统失效,原因是肆虐一时的飓风桑迪袭击了曼哈顿。在数据中心的十八层摆放了多台备用发电机,用于持续提供电力且不至于受到洪水影响。但风暴来袭时直接灌满了该数据中心建筑的地下室,并且摧毁了应急发电机的燃油泵送系统,遭到海水浸泡的整套电路立刻失去了作用,备用发电系统失效,而十八层电力采用的是市电,当飓风来袭造成整个曼哈顿市电系统故障,数据中心主备供电均故障,造成数据中心断电,所有应用系统无法运行。

QQ图片20161116144742

太阳耀斑事件

1989年,太阳耀斑定向瞄准了加拿大魁北克水电电网,导致电网电压振荡,造成跳闸保护设备启用,某个核电站的发电机升压变压器永久损坏,无法提供服务。太阳耀斑是一种最剧烈的太阳活动,周期约为11年,通过高速度产生强磁场的过程中发出的带电粒子,对于数据中心和电网是一个毁灭性的灾难。这属于小概率事件,但一旦发生,对数据中心就是致命一击。

天灾之下,数据中心人员是束手无策,还是能够有所作为?故障突然发生的一刻,运维人员是否真的能在最短时间内有效地完成故障处理?系统是否真的能如预案中快速恢复?这些都是对数据中心故障处理能力的实际考量。良好的培训和完善的应急预案及演练将有助于意外事件的应对。 

灾难恢复演练

以农业银行首次全行参与的数据中心信息系统业务级灾难恢复演练为例,包括事件响应、预警准备、系统恢复、业务验证和总结回退等5个阶段,10分钟内完成了总分行灾难恢复人员集结;在75分钟内恢复了公共应用、内部核算、单折、银行卡、客户信息、联行、现金管理、库房现金及表外等9大类核心业务,并通过了全国36家分行营业网点的业务验证,业务验证成功率为99.94%。 

未雨绸缪,多手准备

桑迪飓风之后,发现许多企业并没对燃料供应链有足够的关注。数据中心灾难计划把备用发电机作为重中之重:当燃料被耗尽之前,所有的工程项目和技术、系统都可以表现得很好,直到柴油燃料被悲剧般地耗尽了……。

即使企业能够获得燃料供应商的支持,他们也要防止在需要的时候遭遇灾害事故引起的交通瘫痪问题。这些问题可能会在其他情况下发生,如地震、飓风、龙卷风造成的重大民用基础设施损害。而我们从桑迪飓风中所汲取到的一个关键的教训便是,需要在燃料的供应链冗余、地理和备用运输路线方面投入更多的关注。 

人员培训

当发生天灾时,人员的冗余问题固然是必需的,这样不会造成单一某一个人成为企业操作的关键,但是一旦发生百年难遇的特大灾难时,事前安排N+1个人可能也是不够的。像发生桑迪这样的灾难时,更广泛的交叉培训将帮助数据中心解决很大的难题。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-05-04 13:49:00
公众号 唱吧高级技术总监:小而精的初创团队如何保持?
现在,互联网圈经常提到“极致”这个词。在项目的完成预期上,我们经常会讨论到底是做一个大团队还是小团队这样的问题。那么,你的团队应该如何选择呢? <详情>
2016-11-14 14:26:24
数据中心节能 终结系统管理员与安全团队之争
IT中最古老的纷争之一就是在应用安全性与应用性能之间。双方都声称有大量数据支持其论据。尽管在外行来看这看似不重要,但这并不是小问题。 <详情>
2014-11-25 10:25:31
互联网 新iCloud照片服务“难产” 因缺乏负责团队
据知情人士透露,苹果新的照片备份及同步服务iCloud Photo Library如今正面临着“难产”的尴尬——该产品首个测试版的露面事实上已经较原定计划晚了不少,但由于内部配套基 <详情>
2014-11-21 13:51:57
互联网 Facebook招聘人才 以扩充内部无人机研发团队
据国外媒体报道,facebook正在公司内部积极打造一支无人机及其他飞行设备的研发团队。公司目前已通过官方网站开始招纳拥有飞行设备相关研发经验的工程师人才。 <详情>
2014-11-12 17:23:54
互联网 基于任务还是IM?团队协作工具的两条路
最近,网易也推出了基于有道云笔记的团队协作产品“有道云协作”,它选择了另一条路,基于 IM (即时通讯)的群聊功能。 <详情>