衣荷华州火灾、三星大火、桑迪飓风、失控的SUV四驱汽车、甚至太阳风暴……本文介绍的这几种随机性事件让数据中心运营者夜不能寐。虽然是“小概率”事件,却因为其灾难性后果而不能不防。贵公司的灾难恢复计划是否准备好处理这些突如其来的奇怪事件呢?他山之石,可以为鉴,希望本文可以给各位数据中心运营者敲响警钟。

1. 衣荷华州火灾

2014年2月18日下午,那也是衣荷华州平时制作全州工资单的工作日,主数据中心发生了一场电气火灾。衣阿华州CIO Robert von Wolffradt在GovTech.com上发布的一篇博客中回忆道,IT工作人员事先根本普没有料到会发生这种事,他们之前一直在为预报当天晚上会来袭的那场暴风雪准备应急计划。

七大数据中心灾难:小概率事件也要提防

火警在下午3点拉响后,数据中心断了电,整幢大楼里面烟雾弥漫,工作人员只好疏散。火警触发了数据中心以天然气为燃料的FM-200灭火系统,大火被控制在壁挂式瞬态电压抑制盒(如上图)里面。该装置控制着进入数据中心的电流,因过热而熔化。该州的总务管理团队拉了一条旁路,几小时电又恢复了。

电力恢复正常后,大门可以打开,风扇可以开启,大楼可以通风,不过警察和消防人员不愿意允许IT工作人员回到大楼。火灾发生后过了三个半小时,州政府官员确定可以重新进入数据中心

Wolffradt不得不决定是否可以继续处理该州付给公民和供应商的1.62亿美元连同员工工资。全体工作人员马上展开工作,清理掉了数据中心的残留物,IT工作人员在晚上9点之前恢复了存储连接网络、防火墙和网络核心系统。如果不更换瞬态电涌抑制盒,重新开启这些系统会让设备处于险境。Wolffradt于是决定无论如何要更换抑制盒,不过他为备用数据中心配备了人手,作为一项防范措施。

到了晚上11点,另外的系统恢复上线,包括服务台和交通运输部在即将到来的暴风雪中监测桥梁和公路所需的摄像头。

另外恢复的还有财务系统和虚拟化应用软件。到了晚上,额外的系统投入运行,到了早上备用数据中心不需要接过处理全州工资的工作。Wolffradt回忆道:“我们在那次事件当中充分利用了国土安全部的语音通知系统,两次向政府部门主管和重要的工作人员通报最新情报。”他特别指出,数据中心火灾过后,传闻四起;因此,CIO必须与其他责任方经常沟通。随着事态的进一步发展,他本人随时向州长和重要政府官员汇报情况。

Wolffradt在博文中透露的一个教训是,让主要的企业系统放在彼此不同的地方,比如将电子邮件放在与工资单不同的设施(数据中心)。另一个教训就是:一旦发生火灾,总务管理和人力资源部门“是你好的朋友”,会帮助你顺利渡过难关。他写道,想恢复数据中心运营,最棘手的障碍之一就是,说服警察和消防人员:IT工作人员可以重新进入数据中心。数据中心所在的大楼里面共有1000名州雇员,大多数人等待的时间比IT工作人员还长,等警报解除后,才重新进入大楼。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-01-09 16:53:00
市场情报 中兴通讯分布式存储+ DPU,加速数据中心转型
存储技术在不断地创新、完善、加速演进,以更好地满足业务的存储需求,但同时也使得存储协议和文件系统越来越繁重。 <详情>
2023-11-17 10:35:56