数据中心的正常运转离不开运维,运维在数据中心中扮演的角色越来越重要。很多人也在探讨新的运维技术,以便可以通过技术更新来进一步提升运维水平。传统的运维绝大部分都是被动式地处理问题,即将系统建好,设备上线之后,就守着这些设备,确保不出问题,真出了问题快速响应去解决,这种运维方式,工作量体现在出现问题之后,解决问题的能力是运维能力的重要体现方面。但是,亡羊补牢,很多时候悔之晚矣,损失已经发生,再怎么挽回也只能是尽量减少损失、止损。新运维的技术都倡导将运维的工作提前,要未雨绸缪、防患于未然,状态运维就是其中一种。所谓的状态运维技术,是一种预防性的运维方式,以设备实时运行状态和技术参数为依据,对设备健康情况和所处的状态进行评价,随后制定相应运维的行动计划。状态运维是根据设备日常运行情况记录、周期性检查记录和在线状态监测等提供设备当前和历史信息资料,通过对这些信息资料进行分析处理,来判断设备是否处于健康的运行状态和可能发生的变化趋势,及时发现故障特征,在事故发生前采取合理的运维行动,防止故障突然发生,保证设备一直处于健康的运行状态。
状态运维是将运维的工作做在了故障发生前,通过其故障前的一系列表现,提前发现问题。这就像是地震预测,虽说地震预测技术还不够准确,但不少时候已经可以提前一定时间发现哪里有可能会发生地震,这样就可以在地震来之前,将人员和物品转移走,避免人员伤亡。大数据和人工智能是状态运维必不可少的技术,若不是这两种技术的出现和火热,也不可能出现状态运维的概念。状态运维的技术要依靠大量的历史数据,这包括设备之前运行的所有状态,发生过的所有故障,一台设备的各种日志信息、告警、故障表现、特性等数据都不少,要将数据中心所有设备的这些信息都集中起来,那必然是海量数据,还要从这些海量数据找到一定的必然规律,这就需要借助大数据技术分析,得出一些有总结的东西出来。比如:当设备出现内部端口DOWN告警,就知道会影响到网络转发流量,就需要将这台设备隔离,让网络流量不流经这台设备;比如发现设备CPU高,设备的状态效率就会降低,在设备瘫了之前,就要找到导致CPU高的原因,将CPU降下来,避免故障的发生,通过大数据技术让状态运维可以做到预防运维。状态的运维还要依仗人工智能进行一定的预判,分析设备未来的工作状态,比如设备内部温度每升高一度,状态效率就要下降20%,类似这样的预测分析。俗话说“冰冻三尺,非一日之寒”,任何事物都是由量变到质变的发展过程,在故障发生之前,设备多多少少都会有一些异常表现。有人可能会说,设备若发生硬件故障,怎么预测,天知道明天会有哪台设备会出现硬件故障。其实依然有手段可以监测,从而做到预判,只不过现在的监测技术还比较初级,不够深入。若将设备CPU的时钟、Catch内存、指令运算这些过程都监控起来,那么只要CPU运行有偏差,就会发现,任何一个CPU故障都有一个过程,不可能一下子所有的模块部件都不灵光了,在其CPU彻底死掉之前,抓到异常信息即可,这样瞬间将业务迁移到其它设备上去,将这台设备隔离,从而避免等到CPU彻底死掉,业务挂掉再去处理,通过人工智能技术让状态运维可以做到预知运维。
状态运维不仅可以保障设备持续健康运行,减少失效时间,提高生产率,还大大降低了大型设备由于故障停机造成数据中心的财产损失和设备的运维成本,改善库存和供应链,对增加数据中心利润,改善数据中心经济效益具有切实重要的指导意义。现在,状态运维受到越来越多人的重视,数据中心已经不允许随意中断业务,很多技术专家都在绞尽脑汁为数据中心的稳定运行出谋划策,状态运维是数据中心要走的必由之路。不过,现在的数据中心运维水平差距有点大,能够做到预防运维的翎毛凤角,能做到预知运维的恐怕还没有,不然怎么那么多大型数据中心时不时的还在发生一些影响业务的故障呢,连亚马逊、阿里云这类的技术型巨头企业都避免不了。所以,基于状态运维的发展方向没错,但还需要努力,需要大量的历史有效数据,而不是无用的垃圾数据;需要先进的适合数据中心环境的人工智能技术,而不是随便拿来人工智能技术硬往数据中心的设备上套,那预知结果很可能会事与愿违,反而成了开展运维工作的绊脚石,最怕不出故障时天天预报,真出了故障又不报,这样的技术不用也罢。
状态运维作为未来数据中心运维的发展方向,必将为数据中心带来无限好处。其实,早在二十年前1998年,美国军方就提出故障预测与健康管理PHM这一概念,对设备由定期运维转变成预知性的运维,只不过当时的计算机技术还不够发达,计算能力也较低,很多想法没有技术可以实现。现如今,云计算、大数据、人工智能计等新技术扑面而来,计算能力也得到急速提升,就算单机的计算速度有限,也可以通过云计算将多台设备联合起来同时计算,这样就不存在计算能力限制的问题。状态运维呼之欲出,再次来到人们面前。虽很多技术仍需完善,数据中心的基础水平也可能不够,但并不妨碍这一技术的发展,为数据中心的运维添砖加瓦。
相关阅读: