随着银行业务的快速发展,银行业迈入转型创新关键期,如何对银行关键系统实现自主可控显得至关重要。与此同时,以云计算、大数据为代表的新兴技术快速发展,更给数据中心运维工作带来全新挑战。
当前,工商银行的大型主机系统日均承载交易量达到5亿笔,系统稳定运行的压力巨大。此外,IT运行的基本目标是稳定和安全,核心目的是为业务服务,如何改变大型主机传统的运维模式,结合分布式、大数据、人工智能等新兴技术的应用,提升主机运维的自动化、智能化水平,是大型主机运维人员的着重发力点。
近几年,工商银行数据中心(上海)大型主机运维团队在运维自动化、智能化方面做了一些尝试。希望借助新技术逐步夯实运维基础,提升运维的自主可控水平,寻找保障业务安全稳定的有效路径。
一、夯实基础,积极布局智能运维平台
随着系统架构的不断演变升级,不论是系统环境的数量还是整体系统架构复杂度,相较以往都有较大幅的增长。以往的主机自动化工具开发及运维方式,与当前庞大复杂系统架构下的运维管理需求相比,匹配度正在逐年下降,疲态渐显,缺点渐露,这主要体现在可维护性差、复用程度低、主机配置自动化率低、各工具间缺乏有效联动等,过多地依赖于技术人员特别是有着丰富经验的技术人员的专业素质。为了改变这个局面,中国工商银行数据中心(上海)大型主机运维团队展开了多维度多方面的基础性探索和改造。
二、运维数据标准化
第一步:对各类性能、监控、运行数据的梳理、整合、入库,标准化处理
将原本分散的性能类事件、监控报警、运行状态数据等内容整合,实现数据统一规划与存储。然后对相似的指标进行标准化处理,对齐时间片,规范数据单位,统一格式,易于管理与抽取。
第二步:建立大数据平台,为分析挖掘建立基础
2016年通过搭建主机大数据平台,完成了主机大数据池建设。结合大数据分析思维,着重对各种关联关系的分析和挖掘,对交易进行实时分析,研究故障规律,完成了主机资源智能监控和主机系统健康模型的研究。通过多角度分析主机监控、性能、业务等方面历史数据,充分发挥这些数据在安全生产以及支撑业务等方面的价值。
第三步:数据可视化展示
通过建立统一的运维门户,在PC端将各类监控、报表、信息查询等操作统一了入口,向运维人员提供可定制化的栏目。同时利用数据可视化技术,将原先的一些报表内容展现为界面友好、可视化程度较高的图标,用于全方位地了解生产运行态势。
三、监控体系智能化
监控系统对于关键系统的运维工作至关重要,工商银行于2006年开始搭建统一的集中监控体系,该体系涵盖了性能监控、事件报警、统计报表等内容,在日常运维中发挥了巨大作用,但随着业务负载的复杂性、突发性以及系统架构的日益复杂等因素,传统的集中监控体系的不足日益凸显,主要表现为:监控阈值相对固定单一,报警覆盖面较广但误报较多,无进一步处置建议等问题。
而对于监控体系的智能化改造,主要从三方面展开。
1.对关键监控对象采用动态阈值监控
主要目标是要对各个系统关键指标的合理区间进行预估,利用预测区间可以较好的判定指标当前运行是否处于正常范围。因传统ARIMA模型对于预测大量数据以及周期性数据上的局限性,我们对这个模型进行了改造。改造后的模型可以提前24小时预测次日所有时点的指标区间。整体预测有效性达到95%以上,高峰期预测误差下降至4.3%,每日峰值预测误差下降至3.98%,取得了不错的效果。
通过引入大数据和机器学习技术,监控系统有效地提升系统自动化判断异常的能力。通过选取随机森林、线性回归、XGBoost、深度学习ANN等模型,根据指标的历史数据,自动给出当前系统状态下各指标的合理值,利用合理值与实时值的差别量化系统异常。目前该模型已经对部分重要的地址空间运行状态上线生产,并取得了良好的成效。
2.对报警事件的分析压降
通过实施监控信息与性能指标多维度组合、动态阀值设置、取消冗余监控、信息折叠等优化措施,实现报警压降从月均2371条下降到1361条,降幅43%。夜间报警量从2017年12月的221条下降到月均141条,成效显著,报警总量得到了控制,减轻了日常运维人员的压力。受益于模型的引入,对一些原本被漏报的事件也能够准确报出,报警有效性得到提升。
3.监控和应急有效联动
再结合实时获取的系统事件,监控系统能够及时准确地提示系统隐患,自动提示问题发生的可能原因,进一步关联至对应的应急预案,为问题处理提供快速有效的应急措施。
四、日常操作自动化
主机运维工作沉重而繁琐,稍有不慎,便会导致不可估量的损失。究其原因,人工操作仍然是主要运维方式,知识和技能也主要依赖经验积累与传承。因此,迫切需要打破固有的主机运维方式,将传统的人工运维转变成自动化运维,用机器替换人工,减少人为出错的概率。
我们研发了每日健康检查、问题跟踪、故障诊断、一键式报表生成、知识共享平台等模块功能,实现了每日数千项性能指标的自动化检查、基于大数据技术的海量日志分析、故障辅助诊断、问题的自动化管理和报表的快速定制及一键式生成的,有力提升了主机专业线的生产风险控制能力。为主机运维人员设计了高效、便捷、实用的知识共享模块,将主机运维的经验和技能固化成模式,并利用前沿技术为主机运维人员提供一个简单、高效的事件处理和知识共享平台,提升主机运维的自动化水平。
通过变更流程规范化、变更分类梳理,合理安排变更实施步骤和顺序,在主机侧实现部分变更自动化提交和实施,截至2018年上半年,变更自动化率已达到35%。
在上述基础性改造之上,我们面向主机一线运维需求,规划设计统一的主机智能运维平台,采用了业界主流开发技术,旨在从数据标准化、系统间联动和智能化应用三个角度出发,结合主机日常维护和一线生产需求,实现主机监控智能化、应急变更自动化和性能容量可视化,并引入大数据、机器学习等先进技术,实现交易实时分析和日志挖掘,从而不断提升主机运维工作的标准化、自动化、智能化和可视化水平。
主机智能运维平台自上线以来,不断优化、不断创新,实现了一系列具有主机系统专业特色的亮点功能,包括:自动化分析交易毛刺、生产告警信息的辅助处理及历史事件自动关联、一键式生成性能报告、极简式搜索性能指标、知识库全文搜索、一屏式监控,问题跟踪、一键式PTF、交易预估等。为提升主机生产运维的自动化和智能化水平,我们不断加强运维团队的生产风险控制能力,为主机系统的稳定运行提供了强有力保障。
五、合纵连横,探索主机智能运维未来
实现智能化运维,除了关注技术范畴,也要兼顾业务视角,将先进技术和生产主机系统技术指标以及银行的业务指标进行融合。将创新思路积累和开发运维经验固化为有利模式,形成迭代式的开发和优化机制,持续优化已有策略并不断完善,与此同时,积极与开放平台、网络专业协同联动,并整合人工智能、机器学习、AIOps等新兴技术,形成新的思路,不断向“让银行大型主机的运维、银行数据中心整体运维实现智能化”的目标迈进。
六、主机调用服务化
大型主机在高性能、高可用、高稳定性上有明显的优势,但在开放性和与其他平台的交互方面历来是短板。在全面云化的趋势下,为将主机资源、主机世界纳入全数据中心的灵活纳管体系下,我们一方面积极推动主机平台产品的开放性改造,另一方面也通过自主研发:一是单一功能模块化封装,将主机的常用功能实现原子化服务化改造,改造成可对外披露的API;二是自主研发面向主机的流程引擎组件,实现面向场景化的灵活流程的组装调度,并支持支持跨多个SYSPLEX、高并发等特性,并能其他开放平台进行实时交互、敏捷联动,不仅提升了主机运维工作的管理集约化、智能化水平,更可实现数据中心层面运维的高效联动。
七、监控指标精微化
监控指标的精细化和分级化是运维精细化的基础。需要审视现有的监控指标,对指标进行分类,微观宏观指标两者要齐头并举。
首先对大型主机健康指数指标进行优化,利用唯一性的指标,实时发布并展示大型主机系统当前的业务支撑能力与对外服务水平。该指标准确性与实时性的好坏将对运维人员的判断产生决定性影响,所以首先要对所有原子指标的准确性进行优化,然后利用经验权重对原子指标进行实时计算,最终获得具有实际指导意义的主机健康指数。该指数分为主机系统级、子系统级、原子指标级,每一级都是下一等级指标的加权平均,分级指标可以轻松地实现钻取以及寻找异常区域。
八、应急操作智能化
准确判断故障根因,并第一时间采取应急措施,在最快的时间内恢复生产,是一线生产运维的目标。为此,我们需要从业务视角对系统和外围进行全盘监控,基于大数据分析对系统进行画像建模,并在第一时间捕获异动,自动识别故障类型,完成应急处置,将问题解决在萌芽状态,防止其扩大化。
2018年年底,我们将在主机智能运维平台上部署自动化变更系统和智能巡检系统。前者旨在通过标准化变更流程,可视化展示变更实施的进度和状态,自动统计自动化变更的占比、正确率及长期趋势,在平台侧对主机变更进行可视化全流程管理和一键式实施,助力提升变更自动化率。后者旨在通过基于专家规则与机器学习相结合的智能巡检、系统健康评估、报警聚合压缩等举措,实现主机运维工作从被动响应到主动服务,故障定位从人工分析到智能分析,应急操作从主机端到平台侧一键式交互的转型。这两个系统的投产应用,必将主机智能运维平台的应用推向新高度。
九、积极布局移动端
除在传统运维采用ECC集中管控的模式之外,随着移动互联网的迅猛发展,我们也积极拓展面向移动端的运维管理渠道。通过借助移动端监控页面,让运维人员能够7×24小时了解生产运行态势。运维团队将传统PC端监控页面逐步迁移至移动端。在数据从主机实时下传后,数据处理加工、模型调用、推送展示的全过程在平台端实现,所有和展示相关的内容实现了主机资源零消耗的目标。
2018年,建成移动端的“掌上运维”门户,将交易、业务分布、大型主机系统运行指标等内容进行实时展现。上线一个月访问达3000余人次,在出现生产问题的时候,可以在任何地方第一时间关注到各系统的指标状况。将来,我们会加大在移动端的建设力度,展示更全面的监控信息,并将机器学习相关内容融入到各页面之间,让智能化运维的成果在移动端得以展现。
十、大型主机智能化运维的未来
2018年4月13日在深圳召开的GOPS全球运维大会上,清华大学裴丹博士曾说过一句话,“通过“心脑眼手”四位一体地协作,AIOps能为业务带来“稳、省、快”的价值,极大提升运维生产力;我们相信:AIOps发展的终极形态将是无人值守运维,而智能监控就是眼、机器学习是未来的大脑,而面向服务的运维管理就是那双灵活的机械手。”大型主机的运维应当不断学习互联网公司的前沿技术,不断汲取营养,为运维的智能化服务。