AIOps(用于IT运营的人工智能)是一个相对较新的行业术语,越来越多地与新一代IT管理供应商联系在一起。但是,几乎所有AIOps公司从一开始就没有从完全成熟的人工智能功能开始,而它们都是从网络监控、应用程序监控、服务台或基础设施监控发展而来的。

8

打破神话   要了解AIOps如何在IT环境中发挥作用及其真正价值,必须首先澄清误解和区别。很多企业在人工智能方面进行了营销和炒作。与云计算的情况一样,人工智能和机器学习技术在2018年被推广为IT的下一个法宝,但一些企业很快意识到人工智能不是一夜之间的解决方案,而是为取代现有系统而开发的。实际上,实施人工智能行为的机器学习(基本上检查和比较指标和日志数据,寻找通用模式)是获得人工智能好处的关键。   为了成功实现机器学习,必须处理大量数据集,这需要花费大量时间(数年的数据收集、模拟和场景收集),以允许实际学习发生。这正是潜在客户应该正确验证在其营销策略中声称具有相应能力的供应商的原因。  

自动化数据中心的未来   对于那些声称具有基于机器学习这一能力的厂商来说,在实际生产的过程中,其行业发展前景是广阔的。当今世界上人工智能提供价值的好例子之一是通过在数据中心内采用AIOps。数字化转型对很多企业来说是一个梦想,但现实是由新系统组成的,这些新系统通常是在传统体系结构之上分层,从而导致混合IT基础设施环境中的复杂性增加,因此许多组织都在努力实施。在利用新技术升级和改造组织运营和流程的过程中,很明显AIOps是全面管理和关联大量移动和相互依赖元素的性能的最有效方式。AIOps是实现自动化数据中心的基础。  

AIOps的价值   当人工智能应用于数据中心内的IT运营时,它可以在所有基础设施管理工具中提供共享场景,揭示应用程序及其基础资源的趋势和行为。AIOps的价值在于,它能够在许多不相连的系统之间充当核心和大脑,收集、关联、同步大量信息,将自我学习结合起来形成有意义的模式和联系。随着时间的推移,通过机器学习获得的这种智能可以提供对基础设施性能的准确实时的洞察,其中包括健康、利用率、可用性。  

如今的混合IT环境非常复杂。随着系统和组件的互连、新采购和过度供应的不断发生,不断出现不良影响或噪音邻接效应,而这将影响整体基础设施性能,并影响最终用户的体验。在成本昂贵的新系统中获得的预期收益可能取决于互操作性问题,实际上适得其反,在IT基础设施生态系统中将会产生性能问题。然后,首席信息官如何证明在未按预期执行的新部署上获得投资回报?更糟糕的是,当被问及原因时,IT团队所在的一些场景并没有更接近问题的根源。IT管理员和运营团队都有自己的工作,他们很难随时掌握最新情况。随着停机事件屡见不鲜,表明清晰地了解基础设施内部正在发生的事情不再是一件简单的事情。  

AIOps的真正好处   根据调研机构Gartner 公司的调查,这个新领域的核心有两个主要组成部分:大数据和机器学习。这些系统涉及监控、服务台、自动化等技术,可以持续深入了解IT系统的性能,并为业务提供数据和报告。AIOps的前提是让管理层了解IT如何支持业务。   该领域中的管理产品虽然重叠但不一定相互冲突。它们可以一起部署和集成,以便为用户、应用程序、IT基础设施提供可见性和控制,以实现自动化。  

就目前而言,大多数大型企业通常使用数十种管理和监控工具,例如应用程序性能监控(APM)、网络性能监控(NPM),以及大量特定于存储器的基础设施监控工具的组合。在大多数情况下,服务管理和变更管理工具运行良好,但监控方面是一个主要问题,因为这些工具之间并不相关,而且基本上不兼容。一些组织已经实施了专用的AIOps工具,只需收集和分析警报或分析来自其他产品的日志。这些警报和日志聚合工具有助于故障排除,但它们都是“事后”解决方案,不能用于实时性能监控或主动预防问题。大多数监控工具也是特定于孤岛的,没有进行集成,不提供跨孤岛的关联,并且缺乏对应用程序的理解或场景。这意味着它们主要是反应性工具。换句话说,它们能更快地发现事件现场,但不能阻止事件的发生。  

应用程序的历程:基础设施性能优化的关键   为了真正受益于AIOps,需要一种新的、非孤立的、以应用程序为中心的方法。AIOps平台不应独立地查看用户、应用程序和基础设施,而应该遵循应用程序从最终用户到IT基础设施的过程,然后再次退出。企业对部署的技术(向云平台的迁移证明了这一点)不感兴趣,他们想知道的是,运行其业务的一个或多个应用程序是否正在按预期运行。   最近发生了许多关键应用程序无法使用并且损害业务及其声誉的事件。2019年4月,美国一家主要的航空公司发生系统性故障,造成航班延误。今年3月,谷歌公司的Gmail和云端硬盘遭遇全球中断,影响了澳大利亚、美国、欧洲和亚洲的用户;而Facebook公司经历了被称为“史诗般的中断”,导致其在美国和欧洲的服务中断超过14小时。这些事件不仅影响大量用户,还影响广告厂商在Facebook公司平台上花费大量资金对于潜在客户发布的广告。   Gartner 公司指出,“用于IT运营的人工智能(AIOps)平台是结合大数据和人工智能或机器学习功能的软件系统,以增强和部分取代广泛的IT运营流程和任务,包括可用性和性能监控、事件关联和分析、IT服务管理和自动化。”   这个领域的所有参与者似乎都提供端到端的可视性和实时和单一的视图。现实情况非常不同,取决于所部署的技术。有些技术整理日志文件,并从历史角度来查看基础设施的运行情况。大多数技术收集来自多个来源的数据,并整理成一个整体视图,但这些数据来自代理,并且由于它们将负载放在实时系统上,因此仅限于几分钟内的结果。在经历数字化转型的网络世界中,这还不够准确。人们需要的是一个来自应用程序、虚拟机、主机、结构和存储的实时报告,这实际上是一个实时、端到端、单一的整体视图。  

AIOps的关键要素是:  

(1)自动发现:自动识别已安装的基础设施设备,并映射IT基础设施的拓扑结构,以对应用程序使用的元素、共享资源的位置和可能存在争用的位置进行单一视图的呈现。  

(2)数据摄取:数据实时从应用程序性能监视器、服务管理工具和IT基础设施内的所有元素中摄取。处理的数据的容量和粒度对于真实验证应用程序及其支持的基础设施的性能至关重要。  

(3)关联性:将IT基础设施和机器数据与服务台和应用程序性能监视器结合在一起,生成一个单一的、易于识别的实时报告。  

(4)应用智能:利用经验建议如何通过建议的行动方案优化IT基础设施,以确保和提高应用程序性能。  

(5)基于人工智能的机器学习:了解应用程序活动的正常模式,确保只有当应用程序使用的元素超出其正常活动范围时才会发出警报。它还将建议采取什么行动。  

(6)可视化:提供易于理解的应用程序和基础设施视图,可根据管理者的要求进行定制,从简单的红色、黄色、绿色管理仪表盘到组件、IO度量和容量的全面深入分析。  

真正的AIOps是一种实时、端到端的视图,组织可以通过其了解运营业务的关键应用程序的运行情况,以及如何优化支持它们的不断增长的IT基础设施。

【凡本网注明来源非中国IDC圈的作品,均转载自其它媒体,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。】

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-01-09 16:53:00
市场情报 中兴通讯分布式存储+ DPU,加速数据中心转型
存储技术在不断地创新、完善、加速演进,以更好地满足业务的存储需求,但同时也使得存储协议和文件系统越来越繁重。 <详情>
2023-11-17 10:35:56