一声巨响,数据中心应声倒下

罗马尼亚一家银行数据中心业务中断了大约10个小时。原因是数据中心在对消防系统进行测试时,打开了储存有“烟烙尽”的钢瓶,“烟烙尽”通过软管和喷嘴均匀地喷洒在狭小空间、当气体通过喷嘴释放时,压力过大,在释放“烟烙尽”时发出了异常大的巨响,巨响超过了130分贝,引起振动,服务器和数据存储设备都因此受到了影响,破坏了设备内部部件,导致银行的业务瘫痪。实际上,数据中心设备对噪声也非常敏感,尤其是这种突然的巨响,很容易造成内部电子元器件的失效。(专家点评:有必要在数据中心增加一些消声设施,提供一个相对安静的环境,有利于延长设备的使用寿命。)

一辆SUV汽车引发的惨剧

2007年11月位于美国达拉斯的Rackspace公司数据中心遇到了一场无妄之灾,一位大型四驱车司机,在开车途中由于糖尿病病发而出现短暂昏迷,汽车一路向前直冲,并从丁字路口处撞向路边外侧的护堤。护堤被撞击后,冲向空中,并落在了Rackspace公司的数据中心建筑物上,恰好砸在了供电装置上,一阵火光带闪电之后,数据中心电力供应中断,使其业务在数小时内陷入了瘫痪。Rackspace公司为此次事故向客户支付了350万美元赔偿金,同时还增加了客户流失的风险。(专家点评:数据中心需具备一定的抗震、抗撞、防火能力,避免遇到这样的意外故障。)

飓风吹停了数据中心发电机

2012年10月位于美国纽约曼哈顿地区的一处数据中心整套供电系统失效,原因是肆虐一时的飓风桑迪袭击了曼哈顿。在数据中心的十八层摆放了多台备用发电机,用于持续提供电力且不至于受到洪水影响。但风暴来袭时直接灌满了该数据中心建筑的地下室,并且摧毁了应急发电机的燃油泵送系统,遭到海水浸泡的整套电路立刻失去了作用,备用发电系统失效,而十八层电力采用的是市电,当飓风来袭造成整个曼哈顿市电系统故障,数据中心主备供电均故障,造成数据中心断电,所有应用系统无法运行。

QQ图片20161116144742

太阳耀斑事件

1989年,太阳耀斑定向瞄准了加拿大魁北克水电电网,导致电网电压振荡,造成跳闸保护设备启用,某个核电站的发电机升压变压器永久损坏,无法提供服务。太阳耀斑是一种最剧烈的太阳活动,周期约为11年,通过高速度产生强磁场的过程中发出的带电粒子,对于数据中心和电网是一个毁灭性的灾难。这属于小概率事件,但一旦发生,对数据中心就是致命一击。

天灾之下,数据中心人员是束手无策,还是能够有所作为?故障突然发生的一刻,运维人员是否真的能在最短时间内有效地完成故障处理?系统是否真的能如预案中快速恢复?这些都是对数据中心故障处理能力的实际考量。良好的培训和完善的应急预案及演练将有助于意外事件的应对。 

灾难恢复演练

以农业银行首次全行参与的数据中心信息系统业务级灾难恢复演练为例,包括事件响应、预警准备、系统恢复、业务验证和总结回退等5个阶段,10分钟内完成了总分行灾难恢复人员集结;在75分钟内恢复了公共应用、内部核算、单折、银行卡、客户信息、联行、现金管理、库房现金及表外等9大类核心业务,并通过了全国36家分行营业网点的业务验证,业务验证成功率为99.94%。 

未雨绸缪,多手准备

桑迪飓风之后,发现许多企业并没对燃料供应链有足够的关注。数据中心灾难计划把备用发电机作为重中之重:当燃料被耗尽之前,所有的工程项目和技术、系统都可以表现得很好,直到柴油燃料被悲剧般地耗尽了……。

即使企业能够获得燃料供应商的支持,他们也要防止在需要的时候遭遇灾害事故引起的交通瘫痪问题。这些问题可能会在其他情况下发生,如地震、飓风、龙卷风造成的重大民用基础设施损害。而我们从桑迪飓风中所汲取到的一个关键的教训便是,需要在燃料的供应链冗余、地理和备用运输路线方面投入更多的关注。 

人员培训

当发生天灾时,人员的冗余问题固然是必需的,这样不会造成单一某一个人成为企业操作的关键,但是一旦发生百年难遇的特大灾难时,事前安排N+1个人可能也是不够的。像发生桑迪这样的灾难时,更广泛的交叉培训将帮助数据中心解决很大的难题。

关注中国IDC圈官方微信:idc-quan或微信号:821496803 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-05-04 13:49:00
公众号 唱吧高级技术总监:小而精的初创团队如何保持?
现在,互联网圈经常提到“极致”这个词。在项目的完成预期上,我们经常会讨论到底是做一个大团队还是小团队这样的问题。那么,你的团队应该如何选择呢? <详情>
2017-04-24 16:46:29
云资讯 红帽软件 淡成:当Devops遇到容器
容器在DevOps的发布管理里最大的作用就是标准化的交付件,不可变基础设施,每当发布以后我这个里面的内部就不会变了,它是一个标准的格式,我在任何的底层的异构的环境里都 <详情>
2017-04-24 16:07:52
云资讯 Ceph中国社区工程师 张磊:Ceph运维实践及业务场景分析
Ceph我们就必须得讲到存储的发展,早期的存储单机的存储,单机存储是没办法进行网络共享的,到了第二个阶段就是共享数据的阶段,像NFS之类的。 <详情>
2017-03-14 17:54:15
运维管理 数据中心运维人的中年危机
数据中心属于年轻人的行业,紧随科技前进的步伐,在数据中心里从事技术运维的人普遍年龄较轻,一般在30岁以下,尤其是一些技术操作人员都很年轻,这是由这个行业的发展特点 <详情>
2017-02-22 09:38:15
市场情报 JFrog 立足中国快速拓展亚洲业务 通用DevOps解决方案公司宣布进入中国市场
美国加州桑尼维尔,2017年2月22日——领先的DevOps加速器公司 JFrog 宣布进入中国市场。随着业务的拓展,JFrog宣布杰蛙科技公司,提供本地技术支持和DevOps咨询服务。 <详情>