先来看看青云官方微博的事件及原因描述:

2015年6月6日下午,因广东1区(GD1)所在IDC遭遇雷暴天气引发电力故障。

“机房因雷击引起UPS异常,机柜瞬时断电再加电,从而导致了青云的全部物理设备异常关机与重启。”

qy1

数据中心为啥会被雷电击中?

众所周知,广东一带处于南方沿海地区,夏季多雨潮湿,雷电频繁,放电时瞬时电流非常大,一旦被雷电击中,数据中心电力出现故障,就上演了停机等严重故障。放眼全球,2015年2月,富士通位于澳大利亚珀斯的数据中心也因雷击导致断电,2014年新加坡某证券公司也遭遇同样故障……

面对雷击这样的看似小概率事件,业界资深运维专家的点评是“故障无偶然,全是必然的结果。”即单点的运维故障是罕见的,更多的是几个疏漏共同作用的结果。

qy2

青云雷击事件几大诱因

潮湿+强对流——区域选址是规划硬伤

在气候潮湿、尤其夏季强对流天气频发的地理位置运行的数据中心会面临更多的雷电风险。

在规划设计阶段,尤其需要对雷电等自然灾害风险做更多考虑,包括风险评估、防雷工具级别等。

系统应对不利——缺乏给力的测试验证

“在数据中心投产前,一定要找专业的第三方服务机构做测试验证!” 中国电源学会专家委员会主席、中国科学院计算技术研究所研究员张广明认为对数据中心的系统验证是降低故障率的重要屏障,尤其是极端环境下的模拟测试。为金融、IDC、互联网等行业客户提供超过200次测试验证服务的中科仙络咨询服务有限公司董事长程小丹:“我们认为测试验证的过程不仅仅是对系统的检测,更大的价值是帮助运维团队及早了解数据中心的实际情况,积累日后运维和故障应对的宝贵经验。”

永远不够及时的应急处理——缺乏风险管理和日常演练

青云雷击事件停机3小时,造成官网和控制台等都无法使用。

回看腾讯深圳宝安数据中心曾经在2014年3月底的罕见暴雨中经历了一条主用市电供电线路10千伏线路的“罢工”,平时注重风险管理和应急演练使得腾讯运营团队在此次大事件中表现出色,成功解救了数据中心,确保了业务的连续运营。

“从IDC基础设施层面来看,充分了解IDC的基础环境状况和系统架构,清晰掌握每一个单点或风险点;结合实际建立完善的应急体系和应急预案。在做好以上两方面的基础上,通过多场景、多专业的联动应急演练,提升现场运营人员应对各种故障的能力,快速准确定位故障原因,并第一时间恢复运营,避免误判、误操作带来的次生灾害影响。从业务运营层面来看,引导做好业务架构层面的冗余性和健壮性建设,提高业务的抗风险能力。同时联合业务层面的应急预案要充分,并且切换机制要完善、高效,确保快速安全切换。平时加强与业务层面的联合应急演练。”腾讯数据中心华南区总监郁智华认为以上三条是应对故障最给力的措施。

qy3

日后如何避免——规划+设备+运维

“对数据中心的规划是我们最看重的环节。”德拓天全设施技术总监曹洁认为,从数据中心选址、建设、运营等各方面的规划,对数据中心管理者而言,意味着要加强对风险的应对措施。设备的冗余可用以及日常的检修保养是保证运行的基础。

“最近几次的宕机案例都是对行业同仁的警示,运维仍然需要被重新理解和更加重视。”数据中心场地基础设施运维管理工作组组长、中科仙络董事长程小丹协同来自超过50%的全国大型数据中心管理者共同推出《数据中心场地基础设施运维管理标准》,并于2015年6月4日在广州中国数据中心产业发展大会上发布了《数据中心场地基础设施运维管理标准等级评估指南》,程小丹在大会上同时宣布了基于标准的实训基地进展情况。“在众多惨痛的案例面前,我们希望通过实训基地这样最接近实际工作场景的培训课程来完成日常的演练,从而提升个人的应对技能。”

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2019-04-16 14:40:03
市场情报 青云QingCloud推出专业增强型主机 “国民好云”再升级
企业级全栈云ICT服务商青日前宣布推出专业增强型主机,是面向企业级用户全新升级的vCPU独享型虚拟主机 <详情>
2018-08-23 11:29:02
云资讯 青云QingCloudCEO黄允松获选快公司“2018中国商业具创意人物
近日,美国著名商业媒体 Fast Company快公司正式公布“2018年度中国商业具创意人物100榜单”,青云QingCloud CEO 黄允松凭借对云计算执着的追求及对中国云计算发展的杰出贡 <详情>
2017-07-25 12:06:00
国内资讯 青云:QingCloud Insight 2017大会重新定义IT+CT的全产业链
7月28-29日,青云QingCloud将在北京国际饭店举办QingCloud Insight 2017大会。在此次大会上将会有众多的大型企事业单位、互联网行业及企业服务领域的CIO、CTO、架构师、工 <详情>
2017-07-18 18:12:36
市场情报 QingCloud Insight 2017:洞悉IoT背后的黑科技
7月28日-29日,主题为"科技。洞见未来"的QingCloud Insight 2017大会将在北京国际饭店-建国国际会议中心举行(即刻报名,预留席位:http://t.cn/RopPsvm)。届时,青云Qing <详情>
2017-06-27 12:14:46
云资讯 QingCloud Insight 2017:重磅发布在即 洞见科技未来
企业级云服务商青云QingCloud将在北京国际饭店举办QingCloud Insight 2017大会。届时将有超过2,000名来自大型企事业单位、互联网行业及企业服务领域的CIO、CTO、架构师、 <详情>