中国IDC圈1月9日报道,1月5-7日,第十届中国IDC产业年度大典IDCC2015)在北京国家会议中心隆重召开。本次大会由中国信息通信研究院、云计算发展与政策论坛、数据中心联盟指导,中国IDC产业年度大典组委会主办,中国IDC圈承办,并受到诸多媒体的大力支持。

中国IDC产业年度大典作为国内云计算数据中心领域规模大、具影响力的标志性盛会,之前已成功举办过九届,在本届大会无论是规格还是规模都"更上一层楼",引来现场人员爆满,影响力全面覆盖数据中心、互联网、云计算、大数据等多个领域。

阿里巴巴集团技术保障IDC高级专家任华华出席IDCC2015大会并在数据中心设施与运营论坛发表主题为《数据中心运营的大数据分析》的精彩演讲。

IMG_7240阿里巴巴 任华华

阿里巴巴集团技术保障IDC高级专家任华华

以下是演讲实录:

任华华:大家好!很高兴可以代表阿里巴巴技术保障部与大家分享IDC运维的大数据分析。当我们还没有充分理解互联网的时候,移动互联网已经来了,当我们还没有充分理解移动互联的时候,大数据与云计算已经来了。那么,在不知不觉中成千上百多个数据中心已经拔地而起,海量的数据也已经悄然产生。事实上大数据已经在潜移默化的影响着我们生活中的点点滴滴。

比如,我们出行的时候参考高德地图的交通数据,我们餐饮时会打开大众点评来察看评论数据,当我们购物时,淘宝网的消费数据的分析可以向我们推送符合我们喜好和倾向的产品。那么,我们生活中的小事都需要大数据的分析,IDC运营这样一件严肃而又严谨的工作,同时也需要大数据的分析。今天我主要从以下四个方面跟大家分享一下IDC运维与大数据分析,它们是:为何IDC运维需要大数据分析?以及如何获取IDC运维的大数据。大数据分析能够为IDC的运维带来什么样的消除。以及如何挖掘与分析IDC运维的大数据。

那么,这张图片就是一个典型的IDC。它包含哪些元素呢?从软件和业务层面,它包含应用、虚拟化、服务器、存储、异地灾备。从风火水电风的角度包括通风、消防、供水、制冷、空调,还包括两路市电的冗余电源,包括配电,从运维层面,包括安防、巡检、反恐怖活动,以及防自然灾害。从成本的层面,还有设计的成本、建造的成本、运行的成本、维护的成本。可以说,IDC是一个复杂的综合体系。

一个如此庞杂的体系自然需要科学的管理。那么,可以这样理解“管理”二字,“管”意味着决策与执行。“理”意味着整合与分析数据。为什么这样理解呢?这里有一张图片,这个燃烧体系意味着管理的目标,那么采集传感器的数据以及设定温度的基准就是一个“理”的过程。那么,根据这个温度的数据来决定开大或者关小阀门的动作就是一个“管”的我们可以发现“理”是手段,“管”是目的。“理”的功能就是采集数据,“管”的功能就是根据“理”的数据的分析结果进行运维操作,进行决策和执行。

那么,既然IDC的运维是一种管理,管理需要数据。那么,如何获取IDC运维的数据呢?IDC里面的电力监控系统可以帮助我们采集到柴油发电机、变压器,以及各个开关,还有燃油,以及UPS、电池、开关的种种数据和它们的运行状态。那么,暖通制冷的监控系统可以帮助我们采集到冷机、冷塔、水泵、空调末端、冷热通道的温度,还有自然冷却的运行时间,以及PUE和WUE等系列数据。而消防与安防的监控可以帮助我们采集到物流和人流一系列的数据。

那么,这么多的数据,有一些数据它们是形成了报表。比如最左边的这张图片,某些设备电量的趋势以及能耗得到了分析。那么,中间这张图是对自然冷却的时间进行分析。而大量的数据并没有形成合理的分析,而仅仅停留在初级的采集阶段。例如,左边的这张表格是动力设备的配电变压器的状态以及它们的配电开关的状态数据。那么,右边这张表格是蓄冷罐的温度的数据,在IDC的监控当中很少有监控和温度数据能够把这两个数据关联起来,事实上蓄冷罐的温度系统不仅仅是暖通子系统的设备导致,比如冷机、冷塔的故障可以引起蓄冷罐温度的异常,但是电器系统的故障同样可以引起蓄冷罐温度的波动。比如冷机的配电开关发生故障,比如冷机专用的变压器发生故障,都可以引起蓄冷罐的温度波动。因此,数据不仅仅需要采集,还需要跨系统的关联与整合。

那么,海量的数据其实还在沉睡中,它们都沉睡在很多监控系统的服务器里,就是你用或者不用,那些数据就待在那里。一方面是我们管理的需求,一方面是沉睡的数据。我们需要做的是把这些沉睡的数据唤醒对它们进行科学的分析。

那么,大数据的分析能够为IDC的运营带来哪些好处呢?今天我抛砖引玉的从以下三个方面进行分析,就是方案比选、优化运维以及决策依据。所谓的方案比选就是从众多的可选方案中挑选一个对优的方案,比如想要在北京地区建设一座IDC,可选的制冷方案有多达7、8种,有直接新风+风冷机,间接新风+风冷机,纯水冷机、纯风冷机等多达八种方案。我们如何从八种可选的方案里面挑选一个最优的方案。

首先,我们在左下角的这张图片分析了北京地区的气象参数。我们可以分析北京地区全年8760小时的干球温度,湿球温度,以及露点温度。最上面的表格可以把八个方案的PUE进行计算和罗列。这八种方案的初投资以及运行费是什么样,我们也可以把它逐项的分析和对比,如最右端的这张表格。有了这些数据,我们就可以从这些数据的分析结果挑选出最适合我们项目的最优方案。这就使得我们的方案符合我们项目的需求,而不仅仅是凭借经验或者是感觉。

大数据分析还可以帮助我们提高运维的可靠性。因为IDC的运营第一要务就是保证7×24小时×365天不间断的可靠运行。设备的故障其实是IDC运营需要重点关注的一个问题。那么,如何关注呢?是否需要等到设备的故障告警然后才提醒我们的运维人员去关注呢?我们如何做到预测故障呢?大数据分析就可以帮助我们诊断哪些设备已经处于亚健康的状态。比如这张表格,我们可以把很多关键的设备,比如冷机、冷塔、水泵、柴阀、开关、UPS、变压器等等他们的平均维护时间,平均无故障时间,每个月累计的故障率进行统计和对比。如果我们发现某一组电池,它的月故障率突然高于平均值,那么我们就有理由怀疑这组电池近期有可能出现故障,这就可以提醒我们的运维人员提前对这组电池进行维护和更换,从而避免故障的发生,减少宕机的可能。

说到运维的可靠性,最右边的这张图片是著名的海恩法则,它的含义是一次严重的事故之前有可能有一千次的事故隐患,300次的尾水先兆,29次的轻微事故,大数据可以让我们在先兆阶段就发现这样的故障,他们是如何做到的呢?比如暖通制冷系统里面的环境温度持续监测,温度超出限定值的时候,系统会进行告警,但是那个时候往往已经太晚了,这样的局部热点,这样的温度偏高会容易引起局部热点,局部热点会容易引起宕机。事实上我们完全可以通过电器系统的监控数据发现这种可能,如何做到呢?比如PVU的持续检测,我们发现某些机柜的温度持续维持在高位,所以应该事先关注该机柜的散热以及周边空调的冷却能力,从而提前加速周围空调的风机,防止局部热点的出现,减少宕机的可能。

刚才我听到专家讲到如何筛选僵尸服务器,大数据分析是一种再好不过的办法了,对连续监测的IT电量的数据进行分析和比较,我们有的时候会发现百分之八九十的服务器它们运行在平均的负载率范围之内。那么,打个比方说,某一个IDC的单机柜的服务器运行功率都维持在五六千瓦左右,而很少的在PVU电量在两千瓦左右,这些服务器对计算能力以及计算资源的贡献是非常有限的。这又可以提醒我们的软件运维人员去优化服务器的配置及软件架构,甚至移除这些服务用作其他的计算,这样可以把宝贵的服务器的资源充分配置,从而达到优化资源配置的目的。

刚才也有专家提到过绿色节能。事实上服务器在飞快的转着,产生了大量的数据,输出了海量的计算能力的同时,电表的数字也在飞快的跳着。有数据表明IDC的耗电量占全国总耗电量的20%左右,大数据分析可以帮助我们在运行中持续的提高能效。怎么做到的呢?例如,我们在某一座IT满负荷为五千千瓦的数据中心里采用了冷塔和水侧节能器的方式为数据中心节能。当IT负载为五千千瓦的时候,我们假定湿球温度4度的时候可以采用自然冷却。但是,大家都知道服务器往往是分批上架的,IDC也是分期部署的,一期如果当IT负载率低于某一个设定值的时候,我们完全可以提高自然冷却开始的设定值。比如当IT负载率低于3000千瓦的时候,我们就完全可以把湿球温度6度,或者7度设定为自然冷却开始的时间。那么,这样就可以延长自然冷却的时间,缩短电制冷的运行时间,从而能够节省暖通制冷系统的电耗,达到降低PUE、节能运行的目的。

我们也都知道,IDC的规划、设计、建造往往都是根据IT负载满负荷运行来做的。但是,事实上运行总情况,实际运行都是变功耗运行。如果最初空调的设定温度设定为18度,冷通道的上限设定为22度,但是实际运行中如果PDU运行仅仅是2000多千瓦,或者仅仅是一个很小的数字,冷通道机房的温度也持续低于22度,这时候我们就可以提醒运维人员尝试提高送风温度为20度,甚至更高。这时候冷通道的环境温度依然可以满足服务器的要求,送风温度的设定点提高,从而冷水机组的供水温度也可以提高。大家都知道,每提高一度冷冻水的供水温度,全年运行下来节省的能耗也是非常客观的。

通过对运维数据的动态收集、分析以及监测,也可以帮助IDC运维人员在下一个生产环节提供输入。IDC有SPS的管理三元素,S指空间,P指供电,S指的就是polling(音译)。这个时候如果我们有UV的总的数据,已经占用的UV在哪里?我们把两者相减就可以得到可用的UV空间。那么,对于电力也是如此。我的总电量是多少,系统已经占用的定量是多少,剩余的电量是多少,我就可以换算得到我可以上多少台服务器。制冷也是一样的道理,我的系统能够提供的能量是多少,已经使用的能量是多少,剩余还可以用的能量是多少。通过三个数据库的联合分析,我们就可以决定我可以上多少台服务器,这些服务器能够在哪些UV空间中进行摆放,这对我们日常运维工作提供了莫大的便利,可以提高劳动效率,节省时间。

其实可以举个例子非常的多,例如,某一个企业的某类业务的IDC,在最早我们的规划设计中如果说往往采用百分之百的负荷进行它的容量规划,进行基础设施的容量规划,以及平面设定。那么,在常年的运行当中我们发现此类业务的运行其实平均在70%左右的负荷,而峰值也不会超过80%。那么,我们就完全在下一个IDC同样业务类型的IDC建设中,我们就可以把IT的负载率设定为80%。就是服务器计算的同时使用系数是80%,这样我们就可以节省基础设施的容量,以及节省基础设施的初投资。这对于IDC的规划、设计、建造也具有很大的意义。如果某类业务在一线城市进行建造,我们往往选择它的配电方案为双路市电以及家柴油发电机。大家都知道很多一线城市的电网的可靠性非常高,往往达到5个9,甚至更高。如果我们在常年的监测数据中发现市电的可靠性非常高,而从未停过电,我们在下一个IDC的规划中甚至可以优化架构,我们可以考虑简化成五路市电加一路柴发的设计。

其实大数据分析可以做的事情非常多,可以实现成本管理、规划管理、工单管理、容量管理、可靠性管理、能效管理。今天我们仅仅是从以上三个方面进行分析。其实我们可以想象的空间很多,我可以把告警管理与应急预案相关联,从而实现更好的告警管理。甚至可以把资产与容量以及服务器相关联实现变更管理,我们可以汇总技术规范与运维手册,从而实现知识库的管理。我们可以一个供应商管理,一个二维码的方式从而实现供应商的管理,我们也可以在能效管理的基础上进一步提升为计费管理,甚至我们可以把巡检这样的工作流程化变成工单管理。其实我们有很多空间可以提升大数据的分析,可以说大数据分析是IDC运营的核心竞争力,可以帮助IDC运营增能效、减成本、助运维、轻风险。

我们有理由相信IDC运营已经进入大数据分析的时代。可以说蓝天靠风吹,数据待深挖,在以后运维的工作中,我们希望跟大家一起对海量的数据进行比对、分析,从而帮助我们的运维工作。

接下来请大家观看一段视频,因为阿里巴巴一直致力于将大数据分析的理念深植于IDC的运维,千岛湖的数据中心就是把大数据运用最多的一个已经建成的数据中心,这里面采用湖水制冷,按需供冷,采用比较高端的监控系统,大家在观看完这段视频之后,可能对阿里巴巴的大数据分析的理念会有更深刻的了解。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2022-07-26 10:28:08
云资讯 阿里巴巴张勇发布股东信:明确消费、云计算和全球化三大战略
过去一个财年,阿里云计算业务继续在中国市场保持领先地位,并实现了阿里云创立 13 年来的首次全年盈利。 <详情>
2019-12-19 10:42:00
国内资讯 【IDCC2019】阿里巴巴任华华:IDC液冷化-正在发生的未来
阿里巴巴技术专家任华华在数据中心技术论坛上作了题为《IDC液冷化-正在发生的未来》的演讲。 <详情>