2020年12月8日-10日,第十五届中国IDC产业年度大典在北京国家会议中心正式召开。作为数据中心云计算产业内知名的盛会以及IDC企业、电信运营商、互联网、金融、政府和厂商等产业上下游的高效沟通平台,与会嘉宾包括政府领导,行业专家和企业代表数千人。主论坛下午场上,京东数字科技集团资深售前专家厚福佳为我们分享了《机器人在数据中心运维的应用与展望》内容。
非常感谢大家,下午好!我是京东数字科技集团的厚福佳,今天非常高兴有这个机会可以为大家分享京东数字科技在把AI机器人技术应用在机房巡检领域过程中所产生的经验和思考。
一、简单为大家介绍京东数字集团
京东数科是一家全球领先的数字科技公司,目前公司主要业务板块分为四大类,分别是:AI与机器人、金融科技、智慧营销、智慧城市。大家可能对于金融科技白条小金库比较熟悉,机器人产品部隶属于京东数科的AI与机器人部门。
京东数科目前主要服务客户是金融机构、商户与企业、政府与事业单位。目前我们是基于机器人、AI、区块链、云计算、大数据这样一些基础数据数字科技技术,为我们的客户提供全方位的从科技到产品、到生态的具体解决方案。
目前公司已经有大概1万多名员工,其中接近70%都是研发人员,而且每年持续研发投入占比可以达到16%左右,这个数字已经可以与全球大部分的互联网公司的科技巨头持平,甚至更高,这也体现了京东数科以研发为主的研发导向战略。
“从数字中来,到实体中去,与产业共进。”这一句话是京东数科的主要发展目标,我们希望把自身数字科技积累的技术,持续向产业以产品化形式输出,与我们的产业共进。
今年以来,大家可以感受到,尤其是在今年疫情大背景下,数字经济在我国甚至在世界经济规模占比中是越来越高的。根据我国信通院统计来看,我国由2015年的2.6万亿元增加至2019年的35.8万元,而且数字经济在GDP中占比由2015年的14.2%,增加到2019年的36.2%。
数字经济中数字基础设施建设是非常重要的一环,IDC投资建设作为国家重点投资方向之一,2016年每新增1美元ICT基础设施投资能够拉动3美元GDP增长,这个数字到2020年将提高到3.7美元,2025年将提高到5美元。这些数字基础设施在数字经济增长扮演中扮演越来越重要的角色,每次这些基础设施出现问题和故障对经济的影响都是非常惨重的。根据美国波耐蒙研究所统计,由于数据中心停机造成的平均损失接近每分钟8000美元。
目前IDC主流监控思路分为:带内管理、带外管理、人工管理这三种。1、带内管理是依靠设备厂商提供的原生插件预装在我们服务器设备里,设备厂商对于设备的关注点更多是在于一些功能性组件是否运行正常,它对于一些基础设施硬件的参数采集是不完全的,而且这些数据是需要通过生产网络进行反馈,如果我们生产网络或者设备本身出现一些故障的话,就没有办法对设备进行全方位监控,所以目前绝大部分IDC都会采用带外管理的形式,带外管理的本质是一个第三方的独立网管,这个网管通过独立网管的网络与设备接口进行联通,对我们的数据参数进行采集。带外管理的方式有几个优势,首先,它把管理数据和我们的生产数据进行隔离,即使在生产网络出现了故障,我们的管理网络也可以对设备进行全方位管理。
无论是带内管理还是带外管理,客观上把管理人员和实际情况分隔开,IDC管理人员只能通过屏幕整合参数、告警或者日志信息,拼凑出设备和环境的真实运行情况,无法做到对设备真实工作状态和环境做全方位管理。所以目前绝大部分数据中心仍然会采用人工管理的管理方案。由于数据连续性和SLA要求比较高的客户,比如三级等保要求的机房百分之百采用人工管理,而且也是政策需求。
人工管理在近年来遇到许多挑战,接下来,我们通过四个真实案例,简单为大家剖析目前人工巡检都遇到哪些实际问题:
第一个案例,来自于我们的一个客户,是一个头部的证券交易所,证券交易所规定,在工作日的9点到15点之内严格禁止任何人员出入机房。客户有这个考虑的主要原因在于,他们认为部分巡检人员的素质和专业性难以把控,有可能会在我们的交易时间段出现一些误操作。事实上,交易时间段内是设备故障的高发期,但是为了避免这种误操作情况是严格禁止人员出入机房的,这是人工巡检面临的第一个挑战。
第二个案例,来自于我们一个兄弟单位,IDC的建设方,这个建设方的项目经理对新建的数据中心进行巡检过程中,在动力机房里一块动力电池发生了裂缝,喷出了高温的酸性蒸气将巡检经理烫伤了是非常可怕的安全生产事故。这个事故说明机房的低温、噪声、高辐射、高温环境对巡检人员有很大的安全隐患,这是人工巡检面临的第二大问题。
第三个案例,某发展性区域性银行,这家客户目前高达3000设备服务器设备运行中,但是巡检人员只有5个员工,高速增长数字化业务对于数据中心规模带来巨大压力。
京东数科推出了巡检AI机器人,分为旗舰版和专业版,简单为大家介绍产品结构,我们可以把机房巡检机器人按照巡和检两大部分理解,巡是机器人使用的通用地盘,检是机器人所使用的工作台。底层包含了激光雷达、电池、高精度探头等传感器,保证机器人在机房无轨进行自动导航、自动规划、自动巡检。在巡方面机器人整合很多高精度传感器,使用热成像相机等等对机房环境设备情况进行检测。
具体到产品功能,目前我们的产品分为四大功能:分别是设备巡检、环境监测、资产管理、人员管控:
第一个功能,设备巡检。设备巡检依赖于设备巡检的工作台,可以对设备平险故障灯、二维码、热成像云图,包括基础设施里面的空调或者配电柜电源灯、仪表读数、空气开关位置和仪表指针进行检测。机器人可以通过内置环境传感器进行检测,比如机器人支持对温湿度、粉尘、烟雾、易燃气体、风速等进行检测,我们可以根据实际需求选配新的传感器,比如客户有其他需要监测的环境指标可以加装传感器,体现了京东数科研发能力的强大性。
第三点,IDC资产管理做盘点,实现对我们机房内设备的自动管理和自动盘点,可以减轻盘点工作量,增加盘点频次。
第四点,人脸识别算法和其他外挂设备,实现对人员管能力,比如施工监测场景,可以把监控人员解放出来,让他们投入于更有价值的工作里面去。
另外,京东数科与市面巡检机器人相比有哪些竞争优势?第一大优势,我们的产品是全部自研的,硬件、软件、爱财如命、工业设计,我们的产品全部自研,以京东数科研发导向型发展思路。我们的通用地盘可以最全面的阐释自主研发的战略,这个产品已经采用了京东数科自研的高精度自适应导航系统,它可以针对机房环境和通道的宽度自主选择通过性策略来提高机房通过性,可以与门禁系统联动扩大机器人巡检范围,通过自适应导航系统减少机器人在机房内部署施工量,机器人通过激光雷达在里面建好地图可以自动巡检,实现快速部署和快速实施。
第二大优势,京东数科是首家将人工学习算法应用,它比古典方法相比有哪些优势?古典1对1比对需要采集一张机柜底图加实拍图片进行色值比对进行指示灯或者故障告警。人工学习算法可以针对特征进行识别,举例来说,如果机柜从22U位移到25U位,古典方法需要重新采样。但是用现在方法,都可以根据巡检目标进行实时检测,减少后续运维的工作量。
此外,对于安全层面来说,这也是很多客户需要关心的话题,我们的产品是机房内的用电设备。关于用电安全,我们机器人支持防反充、防过放、防打火、防短路、防过热等安全设计。在网络安全,机器人通过无线WiFi、4G、5G、全面传输,符合三级等保要求。此外,我们可以通过人脸识别、密码鉴权等形式保障设备使用安全,不会被违法人员进行操作。并且,我们的产品通过权威检测认证,CR、CE认证、EMC认证,体现了产品合规的全面能力。基于展望来说,我们机器人实现了初级应用的大部分应用,未来会往哪个方向演化?与机房内的动环系统等进行联动,实现集约化管理,对机房内各种各样的问题和环境的变化做出实时处置和响应,提高机房的整体运维化程度。未来,希望我们的机房巡检机器人可以进化成一个运维机器人,运维需要机器人通过它的机器臂,实现跳线、开关门操作等等,把机房巡检人员解放出来,让他们投身更有价值的工作,这是我们机器人未来产品演进的具体规划。
除了机器人产品规划,京东数科在认真的思考究竟什么样的机房可以更适合部署乙方巡检机器人产品,什么样的机房可以与机房巡检机器人更好结合,达到更高规模、更标准化、更智慧化的效果。所以京东数科也正在启动“机器人友好机房设计指引白皮书计划”,这个计划由中国电子工业标准化协会信息技术服务会,DCMG数据中心运营管理工作组,发布《机器人友好机房设计指引白皮书》,这个《白皮书》对想要部署机器人巡检的机房,从机房的设计、到规划、到建设、到运维提出全方位系统化建议,确保机器人与环境更好的适应,让环境与机器人更好的结合,全面提高标准化、智慧化巡检水平。
这个《白皮书》预计在明年1月前后发布,这张是白皮书编委会成员展示,欢迎更多行业客户和专家到白皮书编撰计划里,让我们的产品更新更就。
回到开篇的话题来说,京东数科的使命是”从数字中来,到实体中去,与产业共进“,目前我们的产品在许多头部企业,包括金融行业、能源行业、轨道交通行业实现案例落地,希望我们的机器人巡检产品惠及更多行业客户,更多行业伙伴与我们一道加入机房巡检革命中来,实现技术与产业的融合、升级、促进和共赢。
根据今天产品的介绍就是这些,非常感谢大家的时间,欢迎大家到京东数科的展位进行交流。