数据中心运维整体发展趋势分析

12

全球数据中心发展重心正从规模化建设向精细化运营转变。随着亚马逊、微软、阿里、腾讯、华为、中国移动、中国电信等巨头的进入,国内云服务市场竞争加剧,各云服务商在市场拓展的同时会持续降低运营成本。

华为云&大数据产品线总裁马力在《智能运维,云数据中心运维的未来之路》一文中指出,未来的云数据中心运维必须:

提高运维效率虚拟化技术和众多开源技术的引入使得运维变得越来越复杂,传统人工运维模式处理速度慢、出错概率高。此外,传统人均50~100台设备的维护效率,在大规模云化环境下,需要投入大量人力。

保持低运营成本传统IT的资源使用率通常小于20%,在云化后资源使用率有所提升,但是个性化、按需弹性需求导致资源碎片化、负载不平衡以及扩容规划不精准,可能会造成整体资源利用率并没有达到规划目标,运维成本居高不下。

硬件即插即用,定期下线随着数据中心规模的增长,手工为主的硬件识别与安装方案将无法支撑资源的快速上线、扩容与下线。通过即插即用技术,只需要使用低技能人员将设备上架、上网和上电,运维系统就会根据该硬件的预期状态自动化完成端到端硬件系统的部署和上线;与此同时,通过云化隔离技术,硬件出现故障时也不再需要立即解决,只需让低技能人员定期替换即可。

数据中心运维技术发展的历史与现状

阻碍数据中心运维技术快速发展的历史原因

尽管数据中心的运维如此重要,但长期以来,相关运维的技术和手段仍然比较落后,“重建设,轻运维”成为行业普遍现状。甚至在很多人眼中,运维=酷炫的UI界面+超大拼接屏。数据中心的运维,尤其是基础设施运维长期以来之所以未能得到大规模的普及,笔者分析主要以下原因:

技术落后:早期基础设施运维软件多来自UPS、空调等设备厂家,他们采用动环(动力设备和机房环境)管理的理念。厂家大多对IT类设备缺乏了解,相关技术也主要来自运营商对通信机房的运维要求,明显滞后于IT技术的发展;

观念落后:早期IDC管理脱胎于电信运营商的“机房维护”思路,偏重于设备安全和日常维护,对资产(ROI)的价值认识不足,做不到精细化运营与管理;

需求不明显:早期机房数量规模较小,人工维护成本低,运营管理团队采用自动化管理方式的意愿不强烈;早期机房设备种类不多,运行业务简单,管理的复杂程度不高;早期数据中心本身并未成为社会生产与生活的核心,故障后造成的损失也较低;

系统架构简单:早期IT系统,普遍采用“烟囱式”架构,底层硬件与运行业务深度耦合,业务逻辑和物理逻辑有对应关系,故障后容易查找,定位简单,可以快速进行维修;

除此之外,还有国内长期以来对软件价值的低估,用户需求不明确带来的设计变更附加成本等。正是因为以上这些原因,在大型云数据中心出现之前的“互联网1.0”时代,智能运维技术和实践一直未得到用户普遍的重视。

目前的现状:数据中心数字化、精细化、自动化运营已形成行业共识

随着大型数据中心的增多,云计算相关技术的成熟,数据中心运维技术也日益受到大家的重视。究其原因可以归纳如下:CT机房互联网/物联化趋势受互联网影响,“数据中心云化”“软件定义数据中心”成为主流技术发展趋势。而传统CT的维护理念,也逐渐向物联网化的运营理念转变,精细化、自动化、智能化管理成为新需求。如某运营商对运维机器人的引入、互联网自建数据中心对人工智能技术的引入、对U位级资产管理技术的实践等。

市场需求快速增长:近年来的数据中心逐渐呈现“两极分化”趋势:即中型数据中心快速减少,一方面超大规模数据中心不断出现(云数据中心需求),一方面微型数据中心快速增长(边缘计算需求)。对于超大型数据中心,服务器规模动辄数万甚至数十万台,人工方式的资产管理已无法满足实际需求,急需自动化的管理方案;对于小微型数据中心(多是企业分支机构、连锁商超等行业用户),又大多缺乏专业运维人员,对易安装、已维护、可实现远程无人化管理的运维技术也有迫切需求。

云数据中心架构变化带来的影响:云计算技术的出现,使得传统的“烟囱式”IT架构被打破,计算、存储、网络统统变成了资源池,上层应用和IT硬件实现了解耦。弹性获取,随需扩容、灵活应用成为业务层面对IT资源的主要诉求。

这对IT硬件的影响主要有两方面:IT硬件的重要性下降(数据有备份),更换升级等操作更加频繁(坏了就换)。在数据中心的全生命周期内,IT硬件资产管理的工作量大幅提升(同一U位可能不同时间段安装不同设备运行不同程序),依赖人工已经很难管理;AI、机器深度学习等技术的发展,也需要打破企业各部门之间的传统物理壁垒,对数据进行融合处理与应用(如智慧城市工程,对目标对象的人脸识别,可能需要拉通交通、户籍、刑侦、市政等多套系统),数据层面拉通的同时也会带动跨领域、跨组织的物理资产的统一管理,必然需要统一的标准和规范来进行物理资产的统计和变更记录。

人力成本快速升高:据统计,中国60岁以上人口已超过2.41亿人,我国已全面进入老年化社会,劳动力成本上升是所有企业都要面对的问题。而数据中心的运维工作责任重大,通常涉及到多个领域学科知识,对人员技能和素质要求都比较高。

“人力成本太高”(一线城市)、“招不到人”(二三线城市)成了很多运维主管头疼的问题。其他因素,比如电信运营商利润下滑,传统IDC大户对能够降低运营成本(维护人力、电费等)的技术兴趣浓厚;各设备厂家的持续发力,对智能化基础设施的概念推广(主要体现在自动化运维、U位级精细化资产管理等方面);全行业数据安全意识的提升,导致越来越多用户(尤其是高端用户)对其IT资产安全的更加重视(自主可控、去IOE、国产化等要求),IT设备的变更、定期盘点、自动告警受到重视。

从“运维”到“运营”的观念转变

如上所述,数据中心的运维工作日益受到业界的重视,各种新技术也层出不穷,那么什么样的运维技术才是好技术,如何进行评判呢?笔者认为,只有真正能为用户创造价值的技术才能获得认可并实现规模化应用。换言之,能省钱(甚至赚钱)的技术就是好技术。笔者认为,从运维(核心是可靠不出错)到运营(核心是可靠还省钱/赚钱)的变化,是在数据中心从“企业成本中心”向“企业生产中心”转变的过程中,运维人员必须经历的观念转变过程。

那么,什么样的数据中心才是好(可靠又省钱)的数据中心呢?抛开“风火水电”等基础设施的架构不谈,仅从运营的层面来看,笔者认为需要考虑以下问题:

1、资产盘点问题:资产繁多、管理复杂

数据中心涉及多种产品和设备,对运维人员技能要求较高。同时资产管理和盘点工作浪费运维人员大量时间,造成数据中心运维人力开支居高不下。

2、容量管理问题:管理粗放、盈利困难

对很多运营型数据中心来说,因规模较大,人工管理方式难以根据用户的设备数量、功耗、制冷等要求及时查询到合适的安装位置,造成业务不能及时上线,为企业带来重大损失。数据中心租赁市场竞争日趋激烈,粗放的管理模式造成运营成本过高,市场竞争力下降,侵蚀投资者利益。

3、故障定位问题:故障定位、维护困难

随着数据中心重要性的上升,由数据中心故障带来的企业损失也逐渐升高,所以故障恢复时间变得至关重要。但传统数据中心,采用人工管理方式,一旦出现故障需要花费大量时间进行排查(大型数据中心服务器规模高达数十万台)。运维人员80%时间都花费在定位故障上面,效率十分低下。

4、资产安全问题:U位级物理安全难以保障

因数据安全等因素,很多行业都对数据中心安全级别有严格要求。同时据Uptime报告显示,数据中心超过70%的故障是由于人为操作失误造成。所以对运维人员的分级、分区、分域授权至关重要。按空间划分,数据中心资产的物理安全等级可分为机房级、模块级(微模块)、机柜级、U位级(见图)。大多数的数据中心可以做到机房级物理安全(机房门禁),少部分可以做到机柜级物理安全(物理或电子门锁等形式)。只有极少数数据中心可以做到U位级的物理安全保障,在维护人员对机柜内部等某一台IT设备操作时及时给出安全告警信息。

机柜容量管理:实时监控机柜空间容量信息,提升空间利用率(减少机柜租金);设备变更自动化:资产变动信息自动上报(降低人工开支);数据准确性:资产数据100%准确(减少人工排查开支);资产盘点自动化:大规模资产设备快速自动化盘点,无需人工(节省运维人力);快速定位:可以快速准确找到故障设备(减少故障排查时间);更精确的资产保护:提升U位级资产物理安全,非法事件自动告警(资产和数据安全)。

物联网技术在数据中心的部分应用

笔者认为,相比AI、大数据等技术,物联网技术或许将首先在数据中心的运营工作中得到规模化应用。比如很多人都知道,谷歌的数据中心应用了神经网络等AI技术来实现能耗管理,但到底是如何实现的,效果如何,能否推广,却鲜有资料流出。不可否认,大型高科技公司和互联网公司本身技术和人才积累雄厚,可以在AI、大数据等方面进行尝试和创新应用。但对大多数的数据中心用户来说,物联网技术可能会更早成熟并进入实际应用阶段。

1、物联网在资产安全方面的应用

通过传感器对机房基础设施进行监控,如电池、UPS、空调等。通过对设备状态的监控对生命周期进行预测,甚至在故障发生前做到提前预警。

通过资产电子标签对IT设备进行管理,可以精确定位到每台设备所处的区域甚至U位,在未授权的设备下架或将标签破坏的情况下,可以在现场和后台系统发出报警提醒。

2、物联网在容量和能耗方面的应用

通过传感器实时监控机柜U位物理空间利用率,自动监控IT设备上架、下架与迁移,帮助用户提高机柜空间利用率;

通过传感器实时监控数据中心的能耗、温度、制冷等信息,帮助用户合理规划设备部署,降低数据中心的整体能耗;

甚至通过更精确的U位级设备管理,可以实现机柜内部微环境的监控。

3、物联网在自动化运维方面的应用

机房大量设备的上架信息录入占用大量人力。利用手持终端可以对设备二维码或芯片进行扫描,自动录入设备信息,信息自动上传到后台,代替大量重复性手工录入工作,解放运维人力;

当设备发生故障时,往往发生连锁反应,产生大量告警,而后台很难判断实际故障设备。利用物联网技术,可以做到自动定位故障设备,维护人员可以准确获取故障设备所在区域、机柜、甚至U位。

相关阅读:

人工智能将会为数据中心基础设施人员带来哪些影响?

如何为数据中心构建人工智能的能力?

又一银行发生重大火灾,面对机房老化应该如何处理?

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-01-09 16:53:00
市场情报 中兴通讯分布式存储+ DPU,加速数据中心转型
存储技术在不断地创新、完善、加速演进,以更好地满足业务的存储需求,但同时也使得存储协议和文件系统越来越繁重。 <详情>
2023-11-17 10:35:56