闫昆：从四到零-IDC稳定运营之道_IDC模块化数据中心

yk2

我目前主要负责的工作是保障数据中心安全稳定，提升效率，到目前为止已经实现连续648天无影响可用性故障。我们知道用支付宝和微信都遇到过这种问题，大家经常开玩笑，再强健的系统，也比不上蓝翔技校的挖掘机。断电是我们经常遇到的问题，阿里云香港的节点遇到的故障也造成了相当大的影响。另外，对于数据中心来讲会遇到高温的问题，大家知道达到35度服务器就宕机了，这个影响也是很大的。下一个是控制软件，也会对数据中心造成一些影响。另外，雷击也是影响之一，前些年我们也出现过因为雷击造成的断电。漏水也是经常出现的问题，我们会发现数据中心的顶棚第一年都会有漏水，问题小的时候可能不会造成太大影响，问题大的时候真的会使设备和可靠性受到影响。

因为数据中心跟建筑物相关，所以也会造成相关的火灾。这是在三星数据中心发生的火灾，造成的宕机。除了表面的故障以外，还有其他更严重的故障，我们出现过一个机房UPS电容爆炸，UPS电容到一定年限不进行更换，相对来说会有一些设备缺陷，就会造成短路和电源中断。我们也知道有些数据中心是靠柴油发电的，所以有时候也会有一些隐患产生。

刚才我们看到数据中心有这么多故障可能，这些其实是跟数据中心整体构架有关的。数据中心是由七大子系统组成，包括防雷接地系统、供配电系统、空调系统、消防系统、综合布线系统、安全防范系统、供电系统。数据中心涉及方方面面的领域和专业，我们发现目前大多数行业数据中心是处在第三级，而对于业务来讲，出现一个问题会造成比较大的连锁反应。这是一个非常大的缺陷，这是数据中心运营要去面对的问题。谈到运营其实大家也非常理解，墨菲定律这是大家必须面对和需要解决的问题，如果坏事有可能发生，不管这种可能性有多小，它总会发生，并且造成大可能的破坏，墨菲定律对于运营者来讲就是宿命。

这是我们在稳定运营之道方面的一些想法，稳定性依托于七大子系统，如何实现每个子系统的稳定运行，一个是全链条监控，全链条监控为什么重要？我本人电子游戏玩得不多，唯一玩的就是《星际争霸》，事先发现它的动向是很重要的，我们以前更多是传统的，靠运营商或者人肉盯屏，面向用户黑盒，仅面向设施，与业务脱节。对于2.0来讲是三级复合监控，运营商监控+用户远程监控的模式，对于用户来讲可以看到前面发生的信息，包括对运营产生很大的联动。对于3.0来讲，我们通过全链路CMDB+V2.0复合监控，面向用户业务公开，面向设施子系统，与IT硬件关联。对于全链路监控来讲，服务器侧包括供电状态，设备功耗，设备入风温度，CPU温度。设备侧包括UPS变压器等等。在基础设施方面，有机柜、列头相、抵押、高压配电部分，市电，对于业务链路来讲，有机柜、机位、SN、业务、PE。这是我们在做的一些监控系统，红色的是有一些告警，这是目前为止阿里给的全链路监控范围，包括它的功耗、告警情况。

全链路监控有一个优势，可以看到温度在22度，斜率刚刚发生改变的时候就可以看到，对于运营商传统监控系统在通道超过28度后收到告警，比阿里监控系统晚15分钟。其实运营商监控系统依赖于冷通道传感器数据多部署在通道顶部，且通道内传感器数量较少，无法通过局部环境异常发现问题。阿里监控系统根据历史数据，发现环境出现异动，推测发生故障，同时监控系统采样最小颗粒度为机位（？）。

从长远来讲，我们是希望通过智能运营的方式，首先我们会对所有设备进行全面监控，同时可以通过和设施联动，进行设施调节。通过智能算法，减小能耗，降低运营成本，最后是和业务联动，实现系统识别风险后动态调节迁移业务。检查维修保养这也是我们必须要做的。

下面是阿里做得相对比较全面比较透的风险管理，对于我们通常来说会做一些应急预案，这些被动的应急预案是否就够了呢？每次应急预案又是针对什么场景制定的？那么哪些应急预案需要不断演习优化呢？通过这三点，我们来实现风险管理。我们看墨菲定律极端表述，如果坏事有可能发生，不管这种可能性有多小，它总汇发生，并造成大可能的破坏。对于运营来说要坚决杜绝这种可能。以前我们是有了故障去抢险和应急，但是从现在来讲，我们就要思考怎么更好地做好风险管理。另外数据证明，数据中心70%的故障都是人为造成的，良好的人为保养会提升单个设备乃至整个系统的可用性。

如果我们要保证百分之百的可用应具备哪些条件，根据运营风险库，我们会对风险进行排查，实现排查以后我们要从预防开始。另外我们对风险进行了分类，一类风险是影响可用性，二类是影响系统冗余性，三类风险是存在影响单设备性能的风险。我们IDC的规模，基本上从2014年到现在是翻倍的，我们在2015年建立风险库筛查300+项风险，解决率96%，未关闭重要风险，共累计进行60+次演练。已识别机房级故障11次，成功规避了11次业务故障，影响业务故障从4个下降为0，持续648天无影响可用性故障。

以上就是我的分享，谢谢大家！