yk2

我目前主要负责的工作是保障数据中心安全稳定,提升效率,到目前为止已经实现连续648天无影响可用性故障。我们知道用支付宝和微信都遇到过这种问题,大家经常开玩笑,再强健的系统,也比不上蓝翔技校的挖掘机。断电是我们经常遇到的问题,阿里云香港的节点遇到的故障也造成了相当大的影响。另外,对于数据中心来讲会遇到高温的问题,大家知道达到35度服务器就宕机了,这个影响也是很大的。下一个是控制软件,也会对数据中心造成一些影响。另外,雷击也是影响之一,前些年我们也出现过因为雷击造成的断电。漏水也是经常出现的问题,我们会发现数据中心的顶棚第一年都会有漏水,问题小的时候可能不会造成太大影响,问题大的时候真的会使设备和可靠性受到影响。

因为数据中心跟建筑物相关,所以也会造成相关的火灾。这是在三星数据中心发生的火灾,造成的宕机。除了表面的故障以外,还有其他更严重的故障,我们出现过一个机房UPS电容爆炸,UPS电容到一定年限不进行更换,相对来说会有一些设备缺陷,就会造成短路和电源中断。我们也知道有些数据中心是靠柴油发电的,所以有时候也会有一些隐患产生。

刚才我们看到数据中心有这么多故障可能,这些其实是跟数据中心整体构架有关的。数据中心是由七大子系统组成,包括防雷接地系统、供配电系统、空调系统、消防系统、综合布线系统、安全防范系统、供电系统。数据中心涉及方方面面的领域和专业,我们发现目前大多数行业数据中心是处在第三级,而对于业务来讲,出现一个问题会造成比较大的连锁反应。这是一个非常大的缺陷,这是数据中心运营要去面对的问题。谈到运营其实大家也非常理解,墨菲定律这是大家必须面对和需要解决的问题,如果坏事有可能发生,不管这种可能性有多小,它总会发生,并且造成大可能的破坏,墨菲定律对于运营者来讲就是宿命。

这是我们在稳定运营之道方面的一些想法,稳定性依托于七大子系统,如何实现每个子系统的稳定运行,一个是全链条监控,全链条监控为什么重要?我本人电子游戏玩得不多,唯一玩的就是《星际争霸》,事先发现它的动向是很重要的,我们以前更多是传统的,靠运营商或者人肉盯屏,面向用户黑盒,仅面向设施,与业务脱节。对于2.0来讲是三级复合监控,运营商监控+用户远程监控的模式,对于用户来讲可以看到前面发生的信息,包括对运营产生很大的联动。对于3.0来讲,我们通过全链路CMDB+V2.0复合监控,面向用户业务公开,面向设施子系统,与IT硬件关联。对于全链路监控来讲,服务器侧包括供电状态,设备功耗,设备入风温度,CPU温度。设备侧包括UPS变压器等等。在基础设施方面,有机柜、列头相、抵押、高压配电部分,市电,对于业务链路来讲,有机柜、机位、SN、业务、PE。这是我们在做的一些监控系统,红色的是有一些告警,这是目前为止阿里给的全链路监控范围,包括它的功耗、告警情况。

全链路监控有一个优势,可以看到温度在22度,斜率刚刚发生改变的时候就可以看到,对于运营商传统监控系统在通道超过28度后收到告警,比阿里监控系统晚15分钟。其实运营商监控系统依赖于冷通道传感器数据多部署在通道顶部,且通道内传感器数量较少,无法通过局部环境异常发现问题。阿里监控系统根据历史数据,发现环境出现异动,推测发生故障,同时监控系统采样最小颗粒度为机位(?)。

从长远来讲,我们是希望通过智能运营的方式,首先我们会对所有设备进行全面监控,同时可以通过和设施联动,进行设施调节。通过智能算法,减小能耗,降低运营成本,最后是和业务联动,实现系统识别风险后动态调节迁移业务。检查维修保养这也是我们必须要做的。

下面是阿里做得相对比较全面比较透的风险管理,对于我们通常来说会做一些应急预案,这些被动的应急预案是否就够了呢?每次应急预案又是针对什么场景制定的?那么哪些应急预案需要不断演习优化呢?通过这三点,我们来实现风险管理。我们看墨菲定律极端表述,如果坏事有可能发生,不管这种可能性有多小,它总汇发生,并造成大可能的破坏。对于运营来说要坚决杜绝这种可能。以前我们是有了故障去抢险和应急,但是从现在来讲,我们就要思考怎么更好地做好风险管理。另外数据证明,数据中心70%的故障都是人为造成的,良好的人为保养会提升单个设备乃至整个系统的可用性。

如果我们要保证百分之百的可用应具备哪些条件,根据运营风险库,我们会对风险进行排查,实现排查以后我们要从预防开始。另外我们对风险进行了分类,一类风险是影响可用性,二类是影响系统冗余性,三类风险是存在影响单设备性能的风险。我们IDC的规模,基本上从2014年到现在是翻倍的,我们在2015年建立风险库筛查300+项风险,解决率96%,未关闭重要风险,共累计进行60+次演练。已识别机房级故障11次,成功规避了11次业务故障,影响业务故障从4个下降为0,持续648天无影响可用性故障。

以上就是我的分享,谢谢大家!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-01-20 13:34:54
运维管理 未来数据中心运营过程中可能遇到的挑战
在新的一年,数据中心应当通过更高效、更节能的方式进行设施运维。 <详情>
2021-07-12 10:19:33
机房建设 自动化可显著提高数据中心运营效率
人工智能还将提高后端价值链的其他一些组成部分的效率,例如楼宇管理系统、分支电路监控系统、传感器、环境监控系统、电源管理系统等。 <详情>
2021-05-12 10:25:01
国内资讯 AR远程协助的背后:数据中心或许又是另一个值得落地应用的领域
在数据中心中,AIM系统可以了解网络设备的连接方式、网络设备所在位置、哪些连接承载了实时数据、可用机架空间、端口容量以及特定网络服务的端口可用性。 <详情>