yk2

我目前主要负责的工作是保障数据中心安全稳定,提升效率,到目前为止已经实现连续648天无影响可用性故障。我们知道用支付宝和微信都遇到过这种问题,大家经常开玩笑,再强健的系统,也比不上蓝翔技校的挖掘机。断电是我们经常遇到的问题,阿里云香港的节点遇到的故障也造成了相当大的影响。另外,对于数据中心来讲会遇到高温的问题,大家知道达到35度服务器就宕机了,这个影响也是很大的。下一个是控制软件,也会对数据中心造成一些影响。另外,雷击也是影响之一,前些年我们也出现过因为雷击造成的断电。漏水也是经常出现的问题,我们会发现数据中心的顶棚第一年都会有漏水,问题小的时候可能不会造成太大影响,问题大的时候真的会使设备和可靠性受到影响。

因为数据中心跟建筑物相关,所以也会造成相关的火灾。这是在三星数据中心发生的火灾,造成的宕机。除了表面的故障以外,还有其他更严重的故障,我们出现过一个机房UPS电容爆炸,UPS电容到一定年限不进行更换,相对来说会有一些设备缺陷,就会造成短路和电源中断。我们也知道有些数据中心是靠柴油发电的,所以有时候也会有一些隐患产生。

刚才我们看到数据中心有这么多故障可能,这些其实是跟数据中心整体构架有关的。数据中心是由七大子系统组成,包括防雷接地系统、供配电系统、空调系统、消防系统、综合布线系统、安全防范系统、供电系统。数据中心涉及方方面面的领域和专业,我们发现目前大多数行业数据中心是处在第三级,而对于业务来讲,出现一个问题会造成比较大的连锁反应。这是一个非常大的缺陷,这是数据中心运营要去面对的问题。谈到运营其实大家也非常理解,墨菲定律这是大家必须面对和需要解决的问题,如果坏事有可能发生,不管这种可能性有多小,它总会发生,并且造成最大可能的破坏,墨菲定律对于运营者来讲就是宿命。

这是我们在稳定运营之道方面的一些想法,稳定性依托于七大子系统,如何实现每个子系统的稳定运行,一个是全链条监控,全链条监控为什么重要?我本人电子游戏玩得不多,唯一玩的就是《星际争霸》,事先发现它的动向是很重要的,我们以前更多是传统的,靠运营商或者人肉盯屏,面向用户黑盒,仅面向设施,与业务脱节。对于2.0来讲是三级复合监控,运营商监控+用户远程监控的模式,对于用户来讲可以看到前面发生的信息,包括对运营产生很大的联动。对于3.0来讲,我们通过全链路CMDB+V2.0复合监控,面向用户业务公开,面向设施子系统,与IT硬件关联。对于全链路监控来讲,服务器侧包括供电状态,设备功耗,设备入风温度,CPU温度。设备侧包括UPS变压器等等。在基础设施方面,有机柜、列头相、抵押、高压配电部分,市电,对于业务链路来讲,有机柜、机位、SN、业务、PE。这是我们在做的一些监控系统,红色的是有一些告警,这是目前为止阿里给的全链路监控范围,包括它的功耗、告警情况。

全链路监控有一个优势,可以看到温度在22度,斜率刚刚发生改变的时候就可以看到,对于运营商传统监控系统在通道超过28度后收到告警,比阿里监控系统晚15分钟。其实运营商监控系统依赖于冷通道传感器数据多部署在通道顶部,且通道内传感器数量较少,无法通过局部环境异常发现问题。阿里监控系统根据历史数据,发现环境出现异动,推测发生故障,同时监控系统采样最小颗粒度为机位(?)。

从长远来讲,我们是希望通过智能运营的方式,首先我们会对所有设备进行全面监控,同时可以通过和设施联动,进行设施调节。通过智能算法,减小能耗,降低运营成本,最后是和业务联动,实现系统识别风险后动态调节迁移业务。检查维修保养这也是我们必须要做的。

下面是阿里做得相对比较全面比较透的风险管理,对于我们通常来说会做一些应急预案,这些被动的应急预案是否就够了呢?每次应急预案又是针对什么场景制定的?那么哪些应急预案需要不断演习优化呢?通过这三点,我们来实现风险管理。我们看墨菲定律极端表述,如果坏事有可能发生,不管这种可能性有多小,它总汇发生,并造成最大可能的破坏。对于运营来说要坚决杜绝这种可能。以前我们是有了故障去抢险和应急,但是从现在来讲,我们就要思考怎么更好地做好风险管理。另外数据证明,数据中心70%的故障都是人为造成的,良好的人为保养会提升单个设备乃至整个系统的可用性。

如果我们要保证百分之百的可用应具备哪些条件,根据运营风险库,我们会对风险进行排查,实现排查以后我们要从预防开始。另外我们对风险进行了分类,一类风险是影响可用性,二类是影响系统冗余性,三类风险是存在影响单设备性能的风险。我们IDC的规模,基本上从2014年到现在是翻倍的,我们在2015年建立风险库筛查300+项风险,解决率96%,未关闭重要风险,共累计进行60+次演练。已识别机房级故障11次,成功规避了11次业务故障,影响业务故障从4个下降为0,持续648天无影响可用性故障。

以上就是我的分享,谢谢大家!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2018-01-02 09:34:11
运维管理 清洗将提高数据中心运营的可靠性
这并不是说,数据中心行业对清洁工作的好处一无所知。数据中心供应商很早就意识到空气中的污染物会损害IT硬件,并采取一些防护措施,例如在服务器机房铺设防静电地毯,其电 <详情>
2017-12-18 09:50:00
运维管理 数据中心运营策略应该随着气候变化而改变
未来几年,数据中心运营商必须做好更多的准备并对数据中心设施实施更好的保护以应对极端天气事件。 <详情>
2017-12-18 09:46:00
运维管理 数据中心管理人员预计2018年发生的变化
2018年即将到来,数据中心行业人士对未来一年数据中心的发展趋势进行了预测,讨论了涵盖组织到技术的广泛话题。以下是数据中心运营商和工作在数据中心一线的专业人士给出的 <详情>
2017-12-14 10:47:00
运维管理 消除数据中心热点的各种技术措施
如果热点迟迟无法消除,时间一久便可能带来严重的威胁,不仅危及IT设备的可靠性与性能,还会影响硬件制造商的保修或维护协议。因此,数据中心运维人员需尽早采取有效措施, <详情>
2017-12-14 10:36:00
运维管理 合格的数据中心专家应该是什么样的?
伴随着工作负载的演变和业务的快速增长,数据中心专家承担各种角色和掌握多种技能,越来越成为IT设备中的一项关键要素。 云计算的出现可能会给数据中心的未来蒙上一层阴影 <详情>