中国IDC圈讯,开放数据中心峰会(ODCC2020)在北京召开,峰会围绕数据中心新基建为主题,有数据中心领域及相关行业的众多专家与会。在9月16日智能监控与管理分论坛上,腾讯科技(深圳)有限公司产品经理李欣做了以《乘风破浪会有时-新时代数据中心智能运营》为主题的精彩演讲。

李欣

我的题目是《乘风破浪会有时-新时代数据中心智能运营》,不管多么资深的艺人也要在新时代背景下想着求新求变乘风破浪。新时代数据中心如何做运营这件事情也是需要不断求新求变的。

一、行业背景

数据中心行业从某种程度算是很庆幸,咱们算是在好时代,数据中心从政策面、实务面来讲都是高速发展的时代,我们从事这个行业是值得大家共同欢庆的事情。

但是在行业变化下,数据中心整体规模和结构有了很大变化,数据中心小的通信机房可能就是几十个架,但是腾讯现在一个数据中心已经几千个机架甚至上万,这样大规模数据中心的变化对行业带来了一些挑战。另外,数据中心发生很多变革,配电、暖通,像腾讯从MDC到T-Block等架构变化。

但变化过程中有很多是不边的,比如对于数据中心来讲,运营的目标是没发生变化的,围绕三个关键词:高效进行整合,提供高质量产品,极大降低服务运行的成本,这是三个不变的关键词。

怎样在新时代背景下达到这三个目标?我们围绕一个关键字——自动化。自动化站在腾讯角度有很深刻的体会,比如腾讯数据中心规模增长曲线非常快,未来2、3年要翻倍。但是数据中心运维运营人员团队的增速远远跟不上数据中心规模增速,中间的差距和空白 靠什么填补?靠的就是自动化。

在一般我们认知的各类型自动化领域分了三个层次、不同的维度去理解:最底层是感知自动化,我们对于现场设备要有清晰了解,掌握信息数据,比如第一个议题中李喆提到监控数据质量把握等等。第二个层次,执行自动化,我们能够通过数据表达,去向设备或现场执行工作去自动运行;金字塔顶尖认知自动化,通过数据理解、数据分析,能够精准掌握数据背后含义和提高效率等等。

传统自动化运营的趋势,从现场小机房,到后面的动环,更多聚焦于设备。但是数据中心运营过程中觉得这还不够,至少它有很多事情没有解决,像对数据中心人的管理、对数据中心事情的管理(它日常运维该怎么做)、对数据中心资源的把握、对数据中心成本的管理,数据中心成本也是关于腾讯云在外面PK时核心竞争力非常关键的一块。

二、腾讯智慧运营管理平台

大概围绕这三方面,围绕刚才讲的金字塔:感知、执行、认知。我们围绕智慧监控、智慧运维、智慧分析,通过这套模型去真正达到我们想要提到的高效、高质量以及成本这几个目的。我讲讲其中核心关键点的理解,比如:

(一)智慧监控

关于智慧监控,我们打破基础设施与IT间的管理壁垒,基础设施是一块、网络是一块,服务器是一块,但数据中心业主管理者来讲需要更多知道IT设施之间联动发生什么,我们系统要做这个事。

关于告警这块,翟骏老师提到配电告警根因分析,腾讯平台也做了这个事情,基于配电拓扑架构找到告警的根因节点,有了这个根因节点之后推出告警全方位解决方案,如何去治理它和处理它、它告警发生的位置、当前设备运行曲线以及对告警该做怎样相应处理建议,我们会在系统里给运维人员推送出来。

最关键的是在于我们构建了所认知的数据中心监控中台,中台有两层意思,一是围绕数据采集、治理、分发,如何更高效将数据采集到平台里来,然后保证它的治理以及治理,这里用到时序数据库,用Hadoop大数据平台做相应的读写分离来保证相应的事情。另外,腾讯数据中心体量够大,我们有海量采集上来的数据,在这个数据中台上进行加工、进行资产标签化,这为了支撑我们提到的对于智慧分析、认知智能、认知自动化相应的保障,这是数据处理的基石。

(二)智慧运维

腾讯目前的运维管理体系至少是两层架构,未来有三层架构。

第一层,总部有Foc,它通过平台去关注全球腾讯数据中心发生的一级告警、事件全流程跟踪,跟踪属地现场工单完成情况怎样。另外,包括演练方案的执行,腾讯智维平台在运维管理有十几套功能,构建完成的智慧运营管理方案。

有了功能之后可以做相应的对于运维工作的量化和可视化,大家都知道对于数据中心运维工作者来讲,如果没有很多量化指标去评判你的工作,你很有可能就是靠天吃饭,如果这个数据中心今年没发生事就绩效不错,但显然你的工作并不是这样完全能够描述出来的。所以腾讯构建了80多个量化管理指标,去评判每个数据中心之间运维工作做得到底好不好,并且可以通过这些指标进行横向相应比较。

(三)智慧认知

数据中台对于海量数据资产标签化之后,可以根据不同应用场景构建我们对智慧分析、智慧认知的相应理解。数据中心里智慧认知场景有哪些?目前我们做得比较多的有容量管理、能耗分析、设备故障预测等等,我挑着给大家讲讲。

首先,呼应我们前面讲的问题,对于成本的理解。人、事、资源、成本这几块是业主非常关心的几个点。成本怎么做?将相应的电力帐单和我们自己从系统里跑出来的电度数据进行比对,可以得到它电力曲线,如果你做电改行为之后电费发生什么变化可以清晰呈现在系统中。还针对不同业务用多少电、电量多少、和其他业务形成怎样比较。可以分业务进行划分。比如数据中心管理者可以和不同的业务部门,看看QQ、视频、微信等到底用了多少电。未来在数据中心行业其他客户中,如果是做第三方托管,一个客户来了在你这里用了这么多电,它用了多少流量?我们可以基于此对它进行相应用户价值的划分。

这是电费和电度之间的比例是怎样的,我们大家都在谈PUE节能降低,它非常有意义,换算到成本方面用这样的曲线表达,红色是电费 数据,蓝色是PUE指标,直观看出降PUE非常有意义,可以直接与钱挂钩,这也是为什么要做PUE这件事情。

另外,我们有很多场景,刚才提到容量管理、能耗 ,容量怎么做?容量在数据中心最关键的指标,比如机架功率、是否超电等等,对于SPC、空间、制冷、电力进行综合分析,首先要对数据中心有个全貌了解,可以进一步规划服务器上架的动作。我们从传统的PUE向IUE演进和迭代,形成这样一个雷达图,空间、电力、制冷、网络、承重这五个指标,如果数据中心是按照你的设计值去走的,它的发展曲向偏向是有所不同的,比如你的空间利用率非常高,但是电力利用率没那么高的情况下,有相关挖潜的空间,通过这样的表达式可以直观呈现出来。

另外,运营过程中还发现一些问题,比如服务器上架过程中发现有的机架还有空间,这时候要不要上一个服务器?传统是判定机架功率 和服务器额定功率 去做一个比值,但是有的时候我并不知道它发生的情况怎样,贸然上台服务器之后会有超电风险,我在过程中可以预先做综合数值判定来了解,比如这条曲线是机架实时功率变化,根据它超额定功率范围值是多少来选择是否对相应机架进行锁定 ,如果锁定 之后就不能不能上架了,保证用电安全。如果机架因为应用迁移,电降到安全阈值以下了,系统可以自动的充分利用它碎片化空间。进而有了电力、制冷、网络业务划分、机架空间利用率等等相关数据,就可以通过不同的模型去算,到底是要根据业务,还是充分利用碎片化空间,不同的模型去算服务器到底怎么上架,可以形成自动规划的方案,这是针对容量管理智能分析的场景。

第三,腾讯在运营方面沉淀很多经验,做了很多事情,还有进一步挖潜空间,通过海量数据、机器学习手段帮助人来进一步挖潜。怎么做?大概四个步骤:

第一步,你要了解数据中心能效情况怎样、它怎么分布的,比如数据中心PUE情况,你的电到底用在什么地方,特别是除了IT服务器是耗电大头之外,最重要的是在制冷,所以我们看看制冷系统对于电分布的情况怎样。

有了这些洞察数据之后,我们可以构建相应能效影响因子的模型,腾讯结合专家先验知识构建超过40个不同能耗因子模型,包括IT功率、冷机频率、供水温度等等一系列。有了这些因子模型之后,可以根据不同数据中心的海量数据去跑它哪些因子占比权重值是高的,权重值高的因子意味着它的变化带来数据中心PUE影响变化更大,理所当然需要对这些权重高的因子加以更多分析,可以得到相应的节能方案、优化建议。这和专家经验大的不同在于,人工经验可以有一个比较初步的方向,供水温度该往上提提,冷却频率该降一降,具体降多少没有办法像数据这样7×24小时监控得到非常精准的值,这是AI能够做到的。有了这个之后预测未来采用这个方案之后PUE的走向怎样,从图中可以看到右侧两条曲线变化,下面更低的PUE曲线是采用节能方案的PUE走向是怎样的。

这套方案在腾讯内部数据中心已经验证过了,能够得到比较理想幅度的降低,我可以想象出来在数据中心行业里与这些数据相结合提供智能认证的方案有很多,比如设备预测等等。

我也做个小广告,我现在和百度的伟民做《数据中心自动化运营白皮书》,可以借鉴大家的宝贵经验知识一起讨论,看看数据中心自动化运营未来可以走向何方。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-01-09 16:53:00
市场情报 中兴通讯分布式存储+ DPU,加速数据中心转型
存储技术在不断地创新、完善、加速演进,以更好地满足业务的存储需求,但同时也使得存储协议和文件系统越来越繁重。 <详情>
2023-12-19 09:51:27
国内资讯 腾讯科技Hi Tech Day 暨 2023 数字开物大会隆重召开
经过过去一段时间的发展,企业在大模型方向的探索已经度过了“尝鲜期”,“产业落地”成为评估大模型价值的重要标准。 <详情>