对于数据中心来说,保持业务连续性是首要目标,然而庞大的数据中心面临众多潜在风险,小概率事件也可能带来灾难性后果——机房火灾、服务器长时间宕机、声誉受损,据不完全统计,仅仅2020年以来有十几桩类似大故障发生。
IDC圈经过梳理盘点,列出近三年来严重程度可排前十的数据中心灾难事件。
数据中心火灾前/后对比
事件一:韩国SK公司数据中心火灾
韩国数据中心火灾
2022年10月15日,韩国SK公司C&C板桥数据中心发生火灾,大火在大约8小时后被扑灭。
起火后数据中心断电造成韩国国民级聊天软件Kakao Talk、主流电商平台NAVER等在内的众多网络服务中断。据《韩国时报》报道,本次火灾导致了约3.2万个服务器瘫痪,数千万用户服务受到影响——截止2021年,韩国人口约为5200万。一天之后Kakao Talk等服务才开始陆续恢复。数据中心客户表示,由于损失了大量服务器,恢复过程比预期的要长。
调查发现,安装在地下三层电气设备室的5个电池机架全部烧毁,电池和机架附近似乎因电气因素失火。
事件二:湖南电信荷花园大厦起火
2022年9月16日,位于湖南省长沙市芙蓉区的湖南电信大楼发生火灾,数十层楼体燃烧剧烈,消防赶到后将火势扑灭,撤离及时,无人员伤亡。经初步侦察,现场为大厦外立面起火。为防止发生危险,大楼部分设备断电,据中国电信官方及用户反映,部分用户手机语音和短信功能受到影响,截止当晚12时仍未恢复。
长沙电信大楼起火-图源央视新闻
长沙电信大楼于2000年建成,建筑地上42层地下2层。大楼内含荷花园电信机房,是湖南大的主干线接入点之一,此前资料显示,机房具备25G光纤直CHINANET骨干网,总机架数量约1000个。
事发前招标信息显示,该大厦消防设备超期运行,火灾报警系统等存在较大安全隐患。
事件三:谷歌数据中心电气爆炸
当地时间2022年8月8日,位于美国爱荷华州康瑟尔布拉夫斯的谷歌数据中心发生爆炸,造成3人受伤。
媒体报道,3名电工在数据中心大楼附近的变电站工作时,突然发生了电弧闪光(电气爆炸),导致三名电工被严重烧伤。事故发生后,多个地区的谷歌地图、谷歌搜索出现中断服务情况,有数据显示,该故障影响了全球40多个国家/地区的至少1338台服务器,包括美国、澳大利亚、南非、肯尼亚、以色列、南美洲部分地区、欧洲和亚洲部分地区。
谷歌证实了这场意外为电力事故,但未披露具体原因。
事件四:英国高温致多个数据中心宕机
2022年夏天,欧洲经历极端高温,当地时间7月16日英国气温达到42℃,位于伦敦的谷歌云和甲骨文数据中心均因气温过高出现故障,导致系统宕机。
甲骨文报告,数据中心的两台制冷系统出现故障,导致数据中心内部气温越来越高,一些系统自动采取保护措施关闭作业,使得一些用户的数据使用出现延迟问题。谷歌同样称数据中心内的冷却系统出现故障,导致了该区域的部分容量故障,导致VM(虚拟机)终止和一小部分客户的机器损耗,同时谷歌关闭了机房内的一些机器,以防进一步损坏。
谷歌表示只有“一小部分用户”受到了影响。
事件五:网易游戏机房大规模服务器宕机
2021年11月3日,多款网易游戏出现无法登录、断连情况。
据《绝对演绎》等游戏官博表示原因系机房过热导致服务器宕机“机房传来报警,温度过高。部分服务器过热宕机。空调重新开机也没有解决问题……”。
事发后约3小时左右,网易游戏各服务器已恢复正常登陆,网易方面并未就此次故障做统一回复。
事件六:Telstra英国数据中心火灾
2021年8月27日,澳洲电信Telstra位于英国首都伦敦的托管数据中心发生火灾并引起宕机。火灾造成一半大楼断电,消防人员表示,虽然只烧毁了三层供应间的一小部分区域,但由于大火使支撑母线的断路器跳闸,工程师们不得不通过发电机恢复电力。
据分析,这次火灾事故很有可能是由于UPS故障引起,事故击穿了温度保障、消防灭火及ups预测性维护、ups预防性维护等多重保障,最终导致火灾。
事件七:汛情致河南多机房断电
2021年7月,河南遭遇极端暴雨天气,多个数据中心受到汛情影响,机房停止服务:
河南移动机房公告
河南移动枢纽机房断电,无法正常办理移动业务;海腾郑州BGP机房、华中郑州市BGP机房等数据中心因所在区域市电中断超过1、2个小时,机房由柴发带载,附近油站因道路积水暂时无法供油到机房,在出现电力中断前,考虑到用户数据安全,临时中断服务。
西部数码郑州区域、晋江文学城、河南省产权交易中心用户方发布通知,表明服务受机房原因中断。
当时IDC圈收到的照片显示,有位于河南的数据中心出现机房进水情况。
事件八:OVH数据中心火灾
当地时间2021年3月10日,欧洲云计算巨头OVH位于法国莱茵省首府斯特拉斯堡的数据中心发生严重火灾,OVH在该区域拥有的4个数据中心全部暂停服务。4座数据中心中,一座被完全烧毁,一座的服务器损毁了三分之一。
OVH火灾现场
起火后,瘫痪的法国政府、企业与公共事业网站达到约360个,一些游戏开发商在欧洲的业务也受到影响,部分位于该数据中心的服务器被烧毁,其中游戏《Rust》表示,25台欧洲服务器完全损毁,没有备份,数据无法被修复。
尽管OVH短时间调查后解释,此次起火可能因UPS引起,但一年后法国官方事故调查机构的发布的报告显示,灾难更大可能是由电力室逆变器周围的湿气引起的。
事件九:WebNX美国犹他州数据中心起火
2021年4月,美国主机托管公司Web NX位于犹他州的奥格登数据中心着火,导致超360万个网站出现故障,约1.5万名客户的资料受到影响,部分客户数据完全丢失且无法恢复。
事件十:微软Azure美东数据中心服务中断6小时
2020年3月3日,微软Azure位于美国东部的数据中心发生服务中断,持续六小时,导致客户无法使用Azure云服务。
微软随后披露,一个冷却系统故障是导致这次停机的原因,发生故障的楼宇自动化控制导致气流减少,随后整个数据中心的温度峰值阻碍了网络设备的性能,使计算和存储实例无法访问。
.......
当然,2020年以来,数据中心发生的故障大事远不止以上这些。
例如2020年8月华为云香港机房制冷设备出现异常,导致服务器挂了3个小时;2022年10月,苏州国科数据中心因备用冷塔着火致楼顶着火,但或是影响范围较小,或是如苏州国科数据中心般机房和业务未受影响,因此并未列入。
这里仅盘点故障严重和造成较大影响的事件,供大家了解,以作前车之鉴。
(预告:接下来还将发布第二篇关于数据中心灾难的分析文章,深入探查数据中心故障高风险,以及近年来出现的新挑战,欢迎持续关注!)
智者千虑,必有一失。业务连续性是数据中心的首要原则,灾难预防和应对是数据中心每分每秒的“必修课”。当前数据中心高可靠性正面临诸多新挑战,灾难预防需要多方共同参与构建。
将于今年12月举行的第十七届中国IDC产业年度大典,设置“数据中心灾难预防及应对”主题论坛,邀请设计院、数据中心企业、基础设备厂商、用户多方,就如何保障业务连续性,灾难预防与故障应对,分享成功经验与创新技术
让数据中心防患于未“燃”!
论坛方向:
1.数据中心选址与设计降低灾难风险
2.数据中心自然灾害/限电/疫情预防与应对实践
3.安全保障智能低碳基础设施助力数据中心灾难预防
4.防患于未“燃”——数据中心防火灭火系统
5.智慧运维安全守护:隐患预警定位与高效处理
6.构筑安全最后防线金融数据中心灾备
7.有损即赔保险让数据中心更保险
演讲招募:
如果你在“数据中心灾难预防与应对”有专业建树,或你所在的企业有相关优秀产品,希望在论坛演讲、分享,请联系我们。
联系人:孙女士
电话:17661531102
邮箱:sunny.s idcquan.com
参会聆听:
第十七届中国IDC产业年度大典火热报名中,扫描下方小程序码,即刻报名!
码上报名