1

数据中心的软件智能化已成为共识,但背后的IT运维到底要进化到何种程度?现实情况是,一方面随着企业所面临的运维数据在时间、空间、架构、规模等方面越来越复杂,另一方面新旧业务之间的平滑对接对传统IT流程也是不小的考验,如果运维的AI化落后于数据中心的AI,无疑会拖累数字化的进程。

如果按照字面意思,AIOps即Artificial Intelligence for IT Operations,不过Gartner对它的解释是AlgorithmicIT Operations,也就是基于AI算法去解决IT运维流程中的问题,例如性能监控、可用性分析、关联事件、自动化,以及日志、应用状态等运维数据信息。这一过程中,并不涉及人为的干扰因素。

调查显示,全球有超过3000名CIO将数字化业务列为工作重点,预计AIOps的全球部署率会从2017年的10%升至2020年的50%,所覆盖的行业将涉及金融、电力、医疗、航天、通信、HPC等领域。其背后的挑战可以从几个方面来看,首先是规模倍增,设备端可能有数十万台主机需要监控至少数千个运行状态,所处理的数据量日均也是T4B级,而且还是实时的。

其次,IT运维对连续性的高要求使得持续的交付、集成、调度成为首选,再加上海量的数据,对已有的运维成本存在较大挑战,例如当前IT业务中充斥着公私混的云环境,以及第三方的SaaS类应用,传统的管理办法再弹性环境中难以适应,而借助人工去监督、统计、追踪、分析是很大的工作量,情况只会越来越糟。

此外,更多的感知行为正在向网络边缘移动,使得云基础架构成为了IT解决方案部署的首选平台,从而让开发人员获得了较以往更大的权力,IT人员还要在IT Ops的层面承担更多责任,例如了解业务是如何在服务和底层架构之间进行交互的。

从脚本运维到工具运维,再到智能运维,特点可以体现以下方面:数据源搜集、大数据分析、规则及模式识别、域算法、AI算法、自动化。需要注意的是,AIOps并没有改变AI应用本身,而是强调对流程、规则的AI化。例如,AIOps可以从无到有先对单点进行击破,然后形成局部方案以此类推到面,由多个单点模块组成完整的AIOps流程。其优势是,可知悉、可重用、可升级。

与此同时,运维团队的角色也在转变,要加入数据工程师、开发工程师甚至是AI工程师,除了继续承担质量、成本、效率方面的工作,还要在AIOps的实施过程中变身为需求的发起方和结果收验方。其中,运维AI工程师也要学会利用机器学习对运维产生的数据、经验进行整理和分析,最终让数据发挥应用的价值。

当然要想具备运维AI的技能并不容易,对TensorFlow、Caffe、CUDA这些框架要有基础,还要对交叉验证、验证曲线等模型评估有基本的判断。要知道在基础运维平台中,除了在运维时要提供标准化的运维数据和操作,在AIOps时的一些接口仍需要同时支持人工和自动数据获取和运维操作。

无论多么智能,AIOps的核心还是Ops,这就决定了其会是跨领域的技术理念,因此在企业内部开发者智能运维的时候,要结合业务特点来制定AI机制,不排除做二次开发的可能。如果运维不能AI化,那数据中心再怎么智能也只会停留在表层。

相关阅读:

数据基础设施的未来

两大错误要避免,边缘计算才会好

智能运维开启数据中心运维的智能时代

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2019-07-31 13:38:58
国际资讯 微软加大可再生能源投资 亚利桑那州新数据中心将主要使用太阳能
为了减少数据中心的碳足迹,微软正在加大对太阳能的投资。2023 年的时候,其数据中心有望使用 70% 的可再生能源。亚利桑那数据中心的可持续发展项目,一直受到很多人的关注 <详情>
2019-07-31 09:41:00
国际资讯 英特尔公布Q2财报:数据中心压力陡增,物联网业务实现较大增长
日前,英特尔公布了 2019 年第二季度的盈利报告,实现营收 165 亿美元,同比下降3%;净利润为 42 亿美元,同比下降 17%。报告称,下降主要出现在数据中心业务,而在客户计 <详情>
2019-07-30 15:08:00
国内资讯 投资6亿美元 谷歌在德克萨斯州建第二个数据中心
谷歌在德克萨斯投资的第一个数据中心获得批准,该数据中心目前已开始施工。 <详情>
2019-07-30 13:12:04
机房建设 数据中心机器学习如何优化运营
机器学习和人工智能是当今IT专业人员的热门话题,而在企业的数据中心,它们拥有真正的前景。 <详情>
2019-07-29 20:36:30
UPS电力 发电机组和UPS电源之间的配合问题
近年大型的数据中心的建设得到迅猛增长,将应用越来越多的大功率UPS,由于要控制UPS所用蓄电池数量,大功率UPS的后备时间基本上都是15-30分钟,这样就需要匹配发电机组,为 <详情>