7月23日,“面向未来的数据中心智能运维线下沙龙”正式在京召开,本次沙龙由中国通信工业协会数据中心委员会主办,中国 IDC 圈、中国 IDC 圈企业俱乐部承办。来自阿里云、数讯信息、中联云港、腾讯、江天数据、数据港、鹏博士大数据、科华数据、中关村软件园、有孚网络、普平数据、易华录、汇天网络、西门子、中经云等知名企业、产业园区的20多位业内大咖齐聚一堂,就数据中心运维中遇到的问题和挑战,目前的解决方案、未来发展趋势等发表了主题演讲,并进行了细致探讨。

智能运维

伴随高速发展 数据中心运维迎来更多挑战

在数字经济快速发展大背景下,数据中心得到了长足的发展。但随之而来的是,数据中心运维也遇到了越来越多的挑战。以TO B业务为例,目前TO B业务增量加快,数据中心规模越来越大,并且新一代模块化数据中心逐步推广,新技术的迭代也越来越快,这导致数据中心建设、运维过程中将面临资源交付、总体成本、运维管理等诸多方面的新问题。

此外,如果数据中心运维方从To C转型到To B模式,用户对运维诉求除了要保障数据中心可靠运行外,还有各类服务交付和服务管理需求。

运维体系需要如何调整,人员怎样做到有效利用,怎么避免数据误导等成为目前业内关注的话题。腾讯北京数据中心经理栗权以“乘风破浪-腾讯运维体系与智维平台新融合”为题发表了演讲,以腾讯在数据中心运维方面的实践来回应相关问题。

腾讯北京数据中心经理栗权

图:腾讯北京数据中心经理栗权

栗权指出,转向To B模式后,面临的挑战要求腾讯数据中心必须要有标准化并且以服务为导向的运维体系。腾讯结合Uptime M&O、ITIL、DCOS等行业内运维体系及服务交付理念,完成了这一目标,最终呈现出七大业务模块,覆盖了管人、管事、管系统、保障质量等方面的支撑和管理。

以人员管理为例,新的数据中心投产运维人员配备多少是合理的,行业内没有统一的人力模型来计算,此前更多的是利用同规模机房的经验。对此,腾讯数据中心通过计算和量化工时来配备人员,首先对所有的设备类型、维保频次、设备数量和每台设备等做维保的耗时进行统计,并计算出整体需要消耗的工时;其次计算工作人员完成维保、维修等工作的可用工时,最后将二者进行比较分析,以此来更加合理的安排人员。

据栗权介绍,智维系统平台已将上述大部分流程和流程开放到线上,通过核心的配置数据库实现了数据共享、流程之间的关联关系,减少数据误导的出现,并已经形成管人、管物、服务、资源四个子系统,撑起起了腾讯运维体系的落地。

运维的痛点在于“人” 智能化是发展趋势

相对于腾讯的智维系统平台的全面,北京艾瑞维克科技有限公司冯晓雨的分享更加聚焦。她以运维案例为例分享了北京艾瑞维克科技有限公司的运维情况,主要分为三方面,即日常维护、预防性维护和应急管理。

北京艾瑞维克科技有限公司的冯晓雨

图:北京艾瑞维克科技有限公司冯晓雨

其中,日常维护是指及时发现设备故障而进行的设备状态监控和日常巡视等维护行为;预防性维护是在故障形成之前预先采取的主动维护操作,包括一般性警告信息核查、易耗易坏部件定期更换等;应急管理则包含应急处理、应急预案、应急演练等。

也因为对于应急管理的重视,在河南极端降雨天气中,北京艾瑞维克科技有限公司凭借充足的抗洪物资保证了客户数据中心的正常运作。北京艾瑞维克科技有限公司冯克强表示,在应对自然灾害方面,就是要做更加充分的准备,比如准备沙袋以及相关资源保证在极端天气下不断网、不断电。

谈及目前运维中的问题,北京艾瑞维克科技有限公司的冯晓雨直言,运维的痛点是人,70%的宕机事故是人为失误造成的,想要解决这一问题,就需要更多的专业人员,并进行智能化的运维,这也是目前数据中心发展的重要趋势。

智能机器人目前只能简单巡查工作 大规模推广仍有问题

运维的智能化发展方向已经是业内共识,智能机器人的使用也越来越多,但目前智能机器人的大规模推广仍然存在较多问题。

腾讯数据中心华北区负责人韩建军表示,从目前现状来看,智能机器人的功能还不完善,只能进行比较简单的巡检工作,目前无法代替人做到比较核心的作用;同时,智能机器人成本比较高,大范围商业应用还不现实,要进一步研究和推进。

天津江天数据科技有限公司运维电气工程师邓鹏程也直言,目前很多数据中心都在尝试智能机器人,但智能机器人的应用成本高,应用场景相对少,还需要结合人工。

汇天网络科技有限公司运维总经理刘涛认为,机器人是智能设备的一种,属于前端,机器人可以代替简单的巡检工作,但复杂的操作过程机器人无法进行代替工作人员;后端智能大脑也是智能设备的一种,相较而言,负责对数据进行运用、分析的智能大脑更加重要。

机器人的推广需在成本、应用场景等方面着手

那么,如何让机器人更具普及性,并在数据中心运维中发挥更强的作用?

中联云港数据科技股份有限公司基础设施运维总监武铁军表示,人和设备是数据中心无法绕开的话题,数据中心的发展必然是人机合一、相辅相成,通过训练的方式让所有的人员具备良好的意识,以此将人与机器的作用发挥到更大。

阿里云基础设施产品专家王智超进一步指出,人力成本越来越高,智能化、机器人是未来的必然发展,但数据中心的构造不同,在不同场景应用比较困难,智能机器人想要进一步发展,需要实现机房的标准化,让应用场景简单化。

太极计算机股份有限公司运维部技术部包明则认为,机器人目前依旧只能作为辅助,并且机器人的发展应该与管理平台做结合起来,以预测性的解决故障问题。

栗权进一步指出,科技发展有两条脉络,获取更多能量和信息,在当前信息和能量没有上升到新台阶前,以尽可能少的的能量获得更多信息也是一种发展。机器人的应用是趋势,但想要成为主流,必须要满足更少的能量来换取更多的信息。这就需要扩大机器人的应用场景或者降低成本。

数据中心密度不断提高 但不会无限进行下去

智能化之外,降低能耗也是数据中心发展的另一大趋势,加上数据中心对更大效益的追逐,数据中心的密度不断提高,这也让数据中心出现了新的挑战。

北京易华录信息技术股份有限公司区域销售总监潘红伟表示,节能减排、碳中和是数据中心的趋势,大趋势下数据中心相关企业各有各的方向,易华录专注在存储领域。未来服务器储存居多,对于易华录来讲,降低功耗简单来看就是降低服务器存储的功耗。而在高密度下,最明显的就是机房承重问题。

上海普平数据服务有限公司设计部总监郭震认为,高密度机柜的发展没有那么迅猛,高密度单位面积的算力也没有太大提升。这是因为高密度机柜下配套设施的面积也增多了,在总面积相同的情况下,IT功率相差不大。因此,数据中心不会无限度的高密度下去。

数据中心安全、节能并非矛盾体

除了对智能化、数据中心高密高电等进行讨论,与会专家还对数据中心的安全节能进行了探讨。

韩建军表示,安全、节能肯定是需要平衡的,运维安全是节能的前提。包明进一步指出,安全与节能不是矛盾体,节能主要的目的是降低成本,不是损害数据中心的安全性,节能应该将光伏等新能源的使用结合起来,以降低整个数据中心的能耗。

刘涛表示,数据中心的节能、安全,一方面是设计之前就要考虑进去,如对设备选型、现场规划等综合考量;另一方面,在运维阶段,运维人员要摸索每台设备的状况保证数据中心安全性。还有就是通过巡检增强安全性,刘涛以汇天网络为例,指出巡检可以分成三类,除了一线人员巡检查询明显设备问题;二线巡检人员进行预测性推断;第三类人则是运维经理和专家运维人员,检测客户托管在机房的设备是否有变化,公共区域的新增物品是否合理。

太极计算机股份有限公司运维部技术部盛雪认为,可以通过IT设备的优化做节能,PUE和IT过载是正相关,通过调度计算负载,平衡计算负载,计算出最佳负载区间,在此区间就能更好的实现节能。

本次活动,行业专家就数据中心在智能运维上的问题和未来发展进行了讨论,对于智能运维的优化将起到良好的借鉴作用和启发。

这也是中国IDC圈企业俱乐部创办的重要目的和愿景,为企业提供技术推广与交流、资源合作、品牌营销、供需对接及资本服务。8月下旬,中国IDC圈企业俱乐部还将举办“数据中心碳中和之绿电产业创新应用”活动,诚邀更多企业加入,一同探讨数据中心在绿电使用上的问题、突破和解决方案,共同助力数据中心碳中和的实现。

详情请咨询:郁向飞

电话:18001335019

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-01-09 16:53:00
市场情报 中兴通讯分布式存储+ DPU,加速数据中心转型
存储技术在不断地创新、完善、加速演进,以更好地满足业务的存储需求,但同时也使得存储协议和文件系统越来越繁重。 <详情>
2023-11-27 13:51:23
国内资讯 AI这么厉害,又能为数据中心做什么?
ChatGPT 3.5版本的横空出世及惊艳表现,让所有人认识到了AI的潜力。 <详情>