对于数据中心来说,保持业务连续性是首要目标,然而庞大的数据中心面临众多潜在风险,小概率事件也可能带来灾难性后果——机房火灾、服务器长时间宕机、声誉受损,据不完全统计,仅仅2020年以来有十几桩类似大故障发生。

IDC圈经过梳理盘点,列出近三年来严重程度可排前十的数据中心灾难事件。

数据中心灾难预防封面图

数据中心火灾前/后对比

事件一:韩国SK公司数据中心火灾

韩国数据中心火灾

韩国数据中心火灾

2022年10月15日,韩国SK公司C&C板桥数据中心发生火灾,大火在大约8小时后被扑灭。

起火后数据中心断电造成韩国国民级聊天软件Kakao Talk、主流电商平台NAVER等在内的众多网络服务中断。据《韩国时报》报道,本次火灾导致了约3.2万个服务器瘫痪,数千万用户服务受到影响——截止2021年,韩国人口约为5200万。一天之后Kakao Talk等服务才开始陆续恢复。数据中心客户表示,由于损失了大量服务器,恢复过程比预期的要长。

调查发现,安装在地下三层电气设备室的5个电池机架全部烧毁,电池和机架附近似乎因电气因素失火。

事件二:湖南电信荷花园大厦起火

2022年9月16日,位于湖南省长沙市芙蓉区的湖南电信大楼发生火灾,数十层楼体燃烧剧烈,消防赶到后将火势扑灭,撤离及时,无人员伤亡。经初步侦察,现场为大厦外立面起火。为防止发生危险,大楼部分设备断电,据中国电信官方及用户反映,部分用户手机语音和短信功能受到影响,截止当晚12时仍未恢复。

长沙电信大火-央视

长沙电信大楼起火-图源央视新闻

长沙电信大楼于2000年建成,建筑地上42层地下2层。大楼内含荷花园电信机房,是湖南最大的主干线接入点之一,此前资料显示,机房具备25G光纤直CHINANET骨干网,总机架数量约1000个。

事发前招标信息显示,该大厦消防设备超期运行,火灾报警系统等存在较大安全隐患。

事件三:谷歌数据中心电气爆炸

当地时间2022年8月8日,位于美国爱荷华州康瑟尔布拉夫斯的谷歌数据中心发生爆炸,造成3人受伤。

媒体报道,3名电工在数据中心大楼附近的变电站工作时,突然发生了电弧闪光(电气爆炸),导致三名电工被严重烧伤。事故发生后,多个地区的谷歌地图、谷歌搜索出现中断服务情况,有数据显示,该故障影响了全球40多个国家/地区的至少1338台服务器,包括美国、澳大利亚、南非、肯尼亚、以色列、南美洲部分地区、欧洲和亚洲部分地区。

谷歌证实了这场意外为电力事故,但未披露具体原因。

事件四:英国高温致多个数据中心宕机

2022年夏天,欧洲经历极端高温,当地时间7月16日英国气温达到42℃,位于伦敦的谷歌云和甲骨文数据中心均因气温过高出现故障,导致系统宕机。

甲骨文报告,数据中心的两台制冷系统出现故障,导致数据中心内部气温越来越高,一些系统自动采取保护措施关闭作业,使得一些用户的数据使用出现延迟问题。谷歌同样称数据中心内的冷却系统出现故障,导致了该区域的部分容量故障,导致VM(虚拟机)终止和一小部分客户的机器损耗,同时谷歌关闭了机房内的一些机器,以防进一步损坏。

谷歌表示只有“一小部分用户”受到了影响。

事件五:网易游戏机房大规模服务器宕机

2021年11月3日,多款网易游戏出现无法登录、断连情况。

据《绝对演绎》等游戏官博表示原因系机房过热导致服务器宕机“机房传来报警,温度过高。部分服务器过热宕机。空调重新开机也没有解决问题……”。

事发后约3小时左右,网易游戏各服务器已恢复正常登陆,网易方面并未就此次故障做统一回复。

事件六:Telstra英国数据中心火灾

2021年8月27日,澳洲电信Telstra位于英国首都伦敦的托管数据中心发生火灾并引起宕机。火灾造成一半大楼断电,消防人员表示,虽然只烧毁了三层供应间的一小部分区域,但由于大火使支撑母线的断路器跳闸,工程师们不得不通过发电机恢复电力。

据分析,这次火灾事故很有可能是由于UPS故障引起,事故击穿了温度保障、消防灭火及ups预测性维护、ups预防性维护等多重保障,最终导致火灾。

事件七:汛情致河南多机房断电

2021年7月,河南遭遇极端暴雨天气,多个数据中心受到汛情影响,机房停止服务:

河南移动机房汛情

河南移动机房公告

河南移动枢纽机房断电,无法正常办理移动业务;海腾郑州BGP机房、华中郑州市BGP机房等数据中心因所在区域市电中断超过1、2个小时,机房由柴发带载,附近油站因道路积水暂时无法供油到机房,在出现电力中断前,考虑到用户数据安全,临时中断服务。

西部数码郑州区域、晋江文学城、河南省产权交易中心用户方发布通知,表明服务受机房原因中断。

当时IDC圈收到的照片显示,有位于河南的数据中心出现机房进水情况。

事件八:OVH数据中心火灾

当地时间2021年3月10日,欧洲云计算巨头OVH位于法国莱茵省首府斯特拉斯堡的数据中心发生严重火灾,OVH在该区域拥有的4个数据中心全部暂停服务。4座数据中心中,一座被完全烧毁,一座的服务器损毁了三分之一。

OVH火灾现场

OVH火灾现场

起火后,瘫痪的法国政府、企业与公共事业网站达到约360个,一些游戏开发商在欧洲的业务也受到影响,部分位于该数据中心的服务器被烧毁,其中游戏《Rust》表示,25台欧洲服务器完全损毁,没有备份,数据无法被修复。

尽管OVH短时间调查后解释,此次起火可能因UPS引起,但一年后法国官方事故调查机构的发布的报告显示,灾难更大可能是由电力室逆变器周围的湿气引起的。

事件九:WebNX美国犹他州数据中心起火

2021年4月,美国主机托管公司Web NX位于犹他州的奥格登数据中心着火,导致超360万个网站出现故障,约1.5万名客户的资料受到影响,部分客户数据完全丢失且无法恢复。

事件十:微软Azure美东数据中心服务中断6小时

2020年3月3日,微软Azure位于美国东部的数据中心发生服务中断,持续六小时,导致客户无法使用Azure云服务。

微软随后披露,一个冷却系统故障是导致这次停机的原因,发生故障的楼宇自动化控制导致气流减少,随后整个数据中心的温度峰值阻碍了网络设备的性能,使计算和存储实例无法访问。

.......

当然,2020年以来,数据中心发生的故障大事远不止以上这些。

例如2020年8月华为云香港机房制冷设备出现异常,导致服务器挂了3个小时;2022年10月,苏州国科数据中心因备用冷塔着火致楼顶着火,但或是影响范围较小,或是如苏州国科数据中心般机房和业务未受影响,因此并未列入。

这里仅盘点故障严重和造成较大影响的事件,供大家了解,以作前车之鉴。

预告接下来还将发布第二篇关于数据中心灾难的分析文章,深入探查数据中心故障高风险,以及近年来出现的新挑战,欢迎持续关注!)

智者千虑,必有一失。业务连续性是数据中心的首要原则,灾难预防和应对是数据中心每分每秒的“必修课”。当前数据中心高可靠性正面临诸多新挑战,灾难预防需要多方共同参与构建。

将于今年12月举行的第十七届中国IDC产业年度大典,设置“数据中心灾难预防及应对”主题论坛,邀请设计院、数据中心企业、基础设备厂商、用户多方,就如何保障业务连续性,灾难预防与故障应对,分享成功经验与创新技术

让数据中心防患于未“燃”!

IDCC2022新banner800x180

论坛方向:

1.数据中心选址与设计降低灾难风险

2.数据中心自然灾害/限电/疫情预防与应对实践

3.安全保障智能低碳基础设施助力数据中心灾难预防

4.防患于未“燃”——数据中心防火灭火系统

5.智慧运维安全守护:隐患预警定位与高效处理

6.构筑安全最后防线金融数据中心灾备

7.有损即赔保险让数据中心更保险

演讲招募:

如果你在“数据中心灾难预防与应对”有专业建树,或你所在的企业有相关优秀产品,希望在论坛演讲、分享,请联系我们。

联系人:孙女士

电话:17661531102

邮箱:sunny.s idcquan.com

参会聆听:

第十七届中国IDC产业年度大典火热报名中,扫描下方小程序码,即刻报名!

大会报名小程序码

码上报名

点击报名:http://idcc.idcquan.com/ticket.html

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2021-03-25 10:37:26
运维管理 国内某银行存储瘫痪 数据缺失6个小时
数据保护早已不再局限于仅对核心场景数据的保护,“热数据全容灾、温数据热备份、冷数据温归档”开启了为全场景数据保护产业生态保驾护航的新时代! <详情>
2020-11-12 10:21:02
运维管理 天猫双11期间进行数据中心断网、断电演练
6天前,阿里巴巴内部曾先后发起了断网、断电的突袭,而这些突如其来的意外一旦真实发生,都会对双11造成毁灭性的打击。 <详情>
2020-08-24 10:20:05
国际资讯 Equinix 伦敦数据中心再现UPS故障导致服务中断
示在LD8数据中心USP发生故障以后,便触发了该数据中心的火灾警报,机架因此失去供电,从而导致其寄存托管的核心设备如Juniper MX路由器和Cisco LNS失去联络,从而导致了与 <详情>
2017-07-28 09:09:00
运维管理 数据中心里发生的天灾人祸
数据中心要想全年不间断运行,最大的敌人就是天灾人祸,得出这样结论的理论基础是已经有太多的血的教训摆在面前,太多数据中心曾发生过的严重故障均与天灾和人祸有关。曾有 <详情>