随着越来越多的企业将应用系统迁移到各类云计算平台上,带来了应用系统开发和部署架构的变化,使得传统以网络、主机、数据库、中间件等基础设施和独立IT组件为核心的监控系统已经无法满足对应用系统性能、业务连续性和最终用户体验等方面的管理需求,IT运行维护模式需要适应新的变化。
公有云由于它的自身特点就是为其他企业提供云计算服务,所以必然决定了它的体量一定是巨大的,并且公有云运维和传统运维有个非常大的不同,传统运维都是自有业务,可以和业务部门协调变更、停机窗口,而公有云全部都是客户的业务,很难去判断用户行为,所以要求是绝对的稳定,变更中断都要求是无感知的,这些都增加了公有云的运维难度。所以公有云运维和一般运维比起来,技术难度更大,需要更强的运营能力以及技术前瞻性。
人工智能作为当下最火爆的前沿技术,是计算机科学最值得期待的一个分支,目的是研制出模仿人类思考逻辑和行动的智能化机器。科研人员尝试用各种方式让机器人替代人类从事不同类型的工作,从最开始的重体力劳动到繁复的精密加工到未来替代人类进行逻辑思考。智能化将大大减轻人的劳动,以最少的人工干预完成复杂的工作。
众所周知,在运维发展的过程中,最早出现的是手工运维,在大量的自动化脚本产生后,就有了自动化的运维,后来又出现了 DevOps 和智能运维。在运维的过程中,其本质而言,涉及到的步骤无非是:产生海量的监测日志,进行分析决策,并通过自动化的脚本进行控制。
过去,企业为了实现系统运维不得不借助技术牛人来看管整个系统。而要做到对上述如此复杂环境中应用问题的追踪、定位,则将是更为复杂。依靠人力的方式已很难做到。而人工智能技术的引入则为这一难题的解决提供了千载难逢的契机。通过人工智能技术的引入可以做到自动化的监控,可以很快的发现各个应用之间的逻辑关系,并快速定位问题、寻找问题根源。而借助各种人工智能的模型,则可以对问题实现自动化的解决处理。
最突出的一点就是,通过离散数据关联关系的分析将运维数据进行人工智能分析,实现系统性能的智能展现、系统智能预警分析、故障的智能分析。将工程师的经验和分析思路转换为系统人工智能的分析过程,将以往知识库内的信息转化为人工智能网络,成为系统的分析能力。从而达到智能、动态知识库体系。
智能动态知识库是人工智能运维系统的核心。知识库中存储了智能预测分析模型、历史问题处理方案、运维经验教训、智能监控结果等。可以对历史及新增知识自动分析管理、归类保存,并依据现有知识库的内容对日常监控中发现的问题进行实时智能分析、出具解决方案并对变更效果进行评估预测。
以睿至大数据的智能运维平台为例,其充分利用全景分析试图、动态感知的业务分析知识图谱、基于人工智能技术的根源分析技术以及利用机器学习和智能分析进行异常诊断与风险洞察来帮助睿至大数据的用户顺利的从传统“稳”态运维模式逐渐融合演进到新型“敏”态运维模式。
人工智能将成为未来网路世界必不可少的一项工具。在IT运维领域,我们期待着人工智能的不断突破,让憋屈的运维人好好缓口气!