京东智联云副总裁周健：京东数据中心智能运维分享_IDC运维管理

中国IDC圈讯，开放数据中心峰会（ODCC2020）在北京召开，峰会围绕数据中心新基建为主题，有数据中心领域及相关行业的众多专家与会。在9月16日智能监控与管理分论坛上，京东智联云副总裁周健做了以《京东数据中心智能运维》为主题的精彩演讲。

非常高兴有机会分享京东智联云在数据中心智能运维方向的实践与思考。首先简单介绍一下京东智联云。京东智联云是京东集团旗下云计算技术、产品与解决方案的全栈服务提供商。京东集团拥有全球大规模容器云平台，是云原生基金会的金牌会员。京东智联云的产品和技术，源自京东集团多年来致力于智能供应链的产业积淀和经验积累，也是京东技术、京东人工智能在电商、物流、数科、地产以及数字经济等领域的深度应用。京东智联云是本届服贸会的官方技术服务提供商，我们的愿景，是做懂产业的数字经济技术服务提供商。

下面，我分三个角度进行介绍：第一，京东数据中心运维概况，第二，京东数据中心运维平台，第三，京东数据中心智能运维探索。

一、京东数据中心运维概况

京东数据中心运维管控的是相对复杂大规模互联网在线系统和基础设施。我们在全球拥有30个左右大的数据中心，包含自营节点和租用数据中心，还有全球分布的近400个CDN和pop点，支撑京东零售、物流、数科、公有云、私有云、行业云等相关业务。京东智联云在全国提供四个服务区域，数据中心相关基础设施以及IT侧的运维平台都由我们团队在做。

二、京东数据中心运维平台

和前面几位同行类似，京东数据中心运维也是二级管理体系，包括总部远程运维管控，以及驻地现场运维管控。我们通过部署在驻地结点的边缘管理系统，把驻地数据中心垂直设备设施系统已有的动环、BA和我们的边缘系统打通，把数据采集对接上来，并在我们能触达的数据中心，加装自研传感器以支撑相对应智能分析。我们团队管理着京东几十万台服务器，相应的每日监控数据达到百亿条，因此需要在京东集团大数据平台上部署相应实时算力和大数据分析算力，以实时处理相应的海量数据，并通过后台算法、后台分析和相应逻辑推送到不同业务部门。京东集团的二/三级业务部门有近千个，各自需求不同。每个业务部门都可以实时拿到数据中心、服务器相应的监控数据，进而对它自身业务做支撑。尤其是在618或者双十一大促时间，所有京东数据中心和服务器的运维管理可以在特定时间把特定指标提升到秒级或毫秒级做监控，这些监控数据会实时返回到数据中心指挥现场或者总部指挥现场做决策分析。

上图显示的是我们的智能运维平台的几个能力，我们的运维平台管理的不仅仅是基础设施，还包括服务器。我们把底层的配置信息管理称为超级CMDB，除了IT侧也有基础设施侧，IT侧管理粒度可以到云资源，包括容器、虚拟机，基础设施侧包含相应的机柜、机电设备、动力设施等等。CMDB采集和维护的设备监控数据体量太大了，我们在上面构建了一个运维大数据平台，这个平台海量处理能力、海量存储能力能够支撑这么大业务系统的运转。

在这个基础数据平台之上，我们提供了四大运维管理能力：第一，集成监控，从服务器角度包含服务器利用率、服务器故障、告警等等，服务器采集信息涵盖带内带外部署的相应信息。第二，在集中监控基础之上，我们提供了面向集团的统一服务平台，提供IT侧和IDC侧运维工单、报表、以及相应资源容量管理等，都在统一服务平台上做相应处理。第三，由于我们追求自动化运维程度，所以有单独部署的自动运维平台。因为我们服务器和数据中心在第三方甚至在异地，如果每个上架或每一个迁移都需要现场工作人员做运维，所产生的成本是受不了的，所以我们必须要提高自动化运维的能力和所覆盖运维工作的程度。

第四，数据展现。数据展现对运维、运营和管理决策都是非常重要的。左上角大图是我们在618、双十一给决策层看到的最重要数据中心基础设施和IT侧设备设施的运行状态，比如618晚上零时零分服务器带宽直接打到预定范围的节点，在当时非常重要，支撑现场很多业务决策。

三、京东数据中心智能运维探索

数据中心智能运维最终追求的是“绿色运营”，包含低的PUE、设备的可预测性维护等很多降本增效手段，但要达到这个目标，需要切分成好几个环节，通过每一步环节，在未来支撑“绿色运营”。

第一步，从基础运维角度增加全面感知。今天会议主题是“智能监控”，这是最重要的第一个步骤。全面感知不是抛开原始监控的内容，而是我们在有效利用现有动环、现有系统基础之上能够更加面向未来AIOPS、未来绿色运营把数据提炼上来，把没有的数据通过AIOT来补上来。全面感知产生的数据要比原始数据中心做动环、做系统监控的数据维度和密度高很多。

第二步是数字孪生。全面感知所产生的数据，我们认为消费它的第一步并不是马上丢给机器和算法，因为机器和算法需要人去训练和设计。我们的下一步是用数字孪生方式呈现给运维管理甚至运营管理团队能看到的状态，只有它实时把基础设施监控甚至IT侧设备监控在数字孪生平台有效呈现时，才会产生关于业务管理、智能运维的真实需求。

第三步，是提供智能分析工具。我们推崇通过低代码工具使得运维管理人员在不用编程甚至少编程的方式，用低代码的方式、拖拽方式实现运维逻辑的自动化、智能化。只有做到这些以后，我们才能说可以为数据中心提供绿色运营的能力。

下面，我将分别阐述这三个内容。

——全面感知，全面感知并不是对现有的动环、现有的BA不认可，我们非常认可！甚至认为现有基础设施监控也许在当年数据中心建设甚至运维管控时的数据颗粒度、数据使用程度没有用到极致。所以我们做数据中心全面感知的第一步，是把数据中心现有的动环系统、现有的BA、所有的IT侧或者IoT侧的数据做全面分析，挖掘里面更大维度的数据体量、更快更高效的数据实效。

在此基础上，由于之前的数据中心基础设施设计建设时，往往并没有考虑到未来AIOPS需要的数据支撑，举个例子，机柜高密的温度场，没有考虑PUE或者有AI算法介入能力时，那个需求场景下并不需要在机房布很多温度测点，在每个机柜布一个立体的温度测点。今天来可，只有把机柜和机房的温度测点拿来以后，在有高密温度场分析算法支撑前提下，提高房间制冷效率的需求才产生。而存量数据中心建设时往往并没有考虑这点。类似的需求还有很多，比如蓄电池全生命周期的管理等等。

因为有这些，今天面对AIOps样的需求，我们团队通过自研或者合作方式开发低成本物联网感知装置，这个“低成本”是低部署成本和低运维管控成本，为什么这么讲？举个例子，京东物流园区在全国有大好几百个，如果我们把物流园区机房做统一物联网监控，物联网设备设施部署、管理、维护都需要人去出差，那这个项目就废掉了，因为项目金额并不会很大。所以，我们一定是把设备部署成本、运维管控成本降到最低，甚至比智能家居的传感器还容易部署时，我们才认为可以借助驻地现场工程师，通过简单的培训把这些传感器部署上，目的是为了降低一开始的建设成本。

这些数据全面上来以后，并不仅仅是测点增加或者数据绑定，我们还要在数据采集端做大量的测点的数据厘清工作。相信这里做数据中心运维的同事都有这个痛点，一个中心是几万、十几万测点，测点数据的真实性、有效性有待一个个去梳理，如果它没有梳理清楚，对上层的算法分析几乎是一个灾难。

——数字孪生。我们做了数据中心的全面感知之后，才会提供低代码的数字孪生工具。数字孪生建设的目的，不是让系统开发工程师一次性把我们基础设施映射成数字孪生体。它是跟着物理设施持续生长的，物理设施的每个变化必须实时反映到每个数字孪生体里。我们并能让研发人员去驻地现场跟踪每一个物理变化，而是提供给驻地运维人员低代码的数字孪生工具，甚至可以在手机侧通过简单的识别和绑定的工具，来实现数据中心现场基础设施数字孪生体的二维、三维开发，以及和测点数据、现场指挥大屏的绑定。这个绑定在京东数据中心，完全可以做到由运维人员自己去做。

刚才中国电信的同事介绍电气系统的故障管理系统开发，在京东角度，这完全可以由运维工程师在现场根据自己业务管理逻辑制作可视化电气拓扑设计，并实现测点数据绑定。为什么我们要强调这点？因为这点非常重要！现场系统管理很复杂，它也在不断迭代，随着我们管理逻辑、运维逻辑变化而变化。当时电气系统设计，过一段时间发生变化了。如果把电气系统管理视图跟厂家做几个月的沟通再去开发，这是非常痛的，不足以有效支撑运维人员的实时管理，精细化管理。所以我们一定要把这个工具给到现场，让运维工程师自己去做、自己去用。

因此，我们在数字孪生平台展开了好几个层次，有做园区数字孪生平台，有做建筑的数字孪生平台，有做机房或机电设备的数字孪生平台，也有面向电气/暖通等系统拓扑的数字孪生平台。通过这些平台不同组合，在全面监控已经提供的感知数据能力之上，可以把整个系统串起来，让物理世界在手机、PC、大屏上呈现出它应该有的状态。以上是我们数据中心数字孪生系统在大屏和在手机侧的一些效果。

——智能告警。我们对智能运维的认知并不是完全用现有的AI能力去处理，二十年前的AI更多讲的是规则系统、专家系统。我们智能运维涵盖两块：一块是如何通过低代码和工具支撑现场运维工程师把他的管理逻辑、他的规则直接映射到管理系统里，成为可以感知、可以自动处理的智能运维能力。在数据中心的现场，运维工程师可以通过正则表达式、以及简单的拖拽，形成在数据中心指定的管理逻辑下规则自动处理的系统，从而可以形成事件并推送到指定管理责任人的手机侧或者PC。

——智能分析。另外一块才是现在的AI技术。这并不是说规则系统和现有的机器学习是冲突的，它其实是两个维度。虽然数据中心的运维管理逻辑用规则系统已经可以充分表达了，但是还有一类对数据的分析，对数据单维度或者复合维度趋势预测，异常检测，今天机器学习算法已经做得比人好。但比人好并不代表给人下达指令，而是提供更充分的运维优化建议。在我们数据中心里做的智能分析更多是把大体量数据、高密度数据、高质量检测的数据丢给机器学习处理平台，逻辑系统是可以允许运维工程师+研发人员的能力，提出对功耗、对利用率场景的一些需求，我们可以通过运维工程师帮助调试算法，对产生异常检测和综合判断做辅助性支撑，一是符合不符合他的需求，二是能不能在某种程度变成自动化手段，如果这些都达到了就把它变成线上能力，让它固化变成系统运维智能的元素。

以上是我们对数据中心智能运维的三个实践步骤，“绿色运营”这个话题很大，希望把这个话题开放给各位同行，我们希望通过提供各种底层能力和技术手段，未来与业界全体同行齐心协力，绿色运营才会结出灿烂的果实。

以上是我介绍的内容，谢谢大家！