数据中心是信息处理的重要场所,里面的设备承载着很多重要的业务,对连续稳定运行都有很高要求。可是业务的运行还是要靠成千上万台的电子设备稳定运行来保证,为了确保这些设备运行不出问题,或者出了问题也让业务层面感知不到,数据中心运维的技术人员想了很多办法,有些还逐渐成为了行业运维的标准,很多数据中心都效仿和执行。其实,有时技术人员做这些不成文的规定也是实属无奈,根本目的还是为了保证数据中心业务的连续稳定运行。业务中断对于数据中心都是天大的事儿,业务中断的损失很多都是以秒来计费,所有的规定都是为数据中心服务的。那我们就来看看,运维的工作都有哪些好玩的不成文规定。
重大节假日必封网
每逢重大节假日来临,各大网络运营商,重要行业企业等的数据中心纷纷进行封网。所谓封网,就是停止一切对数据中心的人为操作和业务变更,让设备自己运行,不进行人工干预。封网并不是减少人员的值班,而是要加强人员的值守,确保数据中心运行不出问题,若出问题也及时处理和消除。此时封网可以减少一些人为故障,要知道百分之八十的故障都是人为操作产生的,不去动它反而是最安全的。谁也不想在关键时刻自己的数据中心掉链子,出风头,就像马上要召开的十九大,现在所有主流的数据中心都已经封网,不再允许做任何的网络变更操作(设备出现故障的除外),有的数据中心机房甚至已经上锁,无人可以进得去。这项制度也是数据中心在运维的工作中摸索出来的,从以往的历史经验看,只要减少人为干预,让设备自己运行,出现问题概率会大大下降,所以在关键时期坚决不做任何变更操作,就让数据中心自行运行,发生故障的概率最低。
定期重启设备
我们的手机如果用久了速度会变慢,如果重启一下再用会发现好很多。其实对于数据中心里的设备也是这样,数据中心里的设备常年不中断运行,运行时间久了,各种内存垃圾,各种软件BUG就容易暴露出来,设备出问题的风险随之增加,定期对设备进行重启,将有助于减少故障的发生,延长设备使用寿命。如果设备上业务没有备份,重启设备可能对业务造成影响。所以,在重启设备前要做好评估,避免主动重启给业务造成影响。如果重启一次设备对业务造成的中断时间可以接受,那么可以定期,比如半年或一年对设备主动进行一次重启,如果设备使用的软件版本较老,也可以借此进行软件升级,不要认为重启了设备就是一件很丢人的事情。这就像马拉车,走的时间久了,马也需要休息一下。有的数据中心每年都做一两次的故障模拟演练,这其中就包括对设备的重启,来检查数据中心系统的稳定性和冗余性,有这个演练就很好,不仅可以让设备临时休息一下,也可以及时发现数据中心运行的漏洞,进行修补。千万不要被动等出了严重问题时,再考虑重启设备恢复,这时往往会给业务造成严重损失。
加强对设备操作管理
数据中心里有很多设备,不同的设备来自不同的厂家,使用的功能也不同,对这些设备的操作人员要进行严格管理。避免不熟悉设备的人误操作设备,这些人为故障数不胜数。所以一定要对访问设备的权限做控制,不同的设备由不同的人来管理,由最熟悉它的人来控制。对于一些设备变更操作,要提前做评估,配置是否符合规范,是否有已知风险,让设备厂商也参与到变更操作中来,以防出现变更未达预期的情况出现。数据中心对登录设备管理非常严格,对不同的人员都有不同的权限要求,如果需要申请相应更高访问权,需要到高级领导那里去申请,并且将操作的理由和原因说清楚,这是数据中心运维管理工作的重要组成部分。
隔离/离线/重启三把斧
数据中心运行过程中出现故障,第一时间就是恢复业务,定位故障原因是其次,所以运维人员处理故障时,首先要明确故障位置,如果短时间内无法完全明确,也要尝试进行恢复业务的操作,这时常用的就是这三把斧:隔离、离线、重启。这三把斧都是针对具体设备的,因为数据中心故障都是来自具体设备,稳定运行过程中出了故障基本都是其中某个或某些设备出问题了。隔离就是只根据业务故障的范围,对故障的设备端口、VLAN或流量进行切换,切换到其它正常的通道上来,如果故障范围无法明确这些细,就考虑对设备尽心离线,即将设备下线,整个设备的业务切换到其它设备上来,比如某个服务器业务异常了,将这个服务器上的虚拟机迁移到其它服务器上来,尽快恢复业务。有时,设备之间没有备份无法进行离线处理,比如一些核心的网络设备,离线需要做大量的业务切换工作,这时就考虑对设备进行重启了,看重启能否恢复,一般运行异常的设备通过重启基本都能恢复,在短时间内继续正常运行,这样为分析问题原因赢得了宝贵时间。一方面继续分析原因,一方面让数据中心业务正常运行下去,找到问题原因后,再将隐患补救。
数据中心运维人员在日常的工作中逐渐摸索出了很多经验,这些都是一个个血的教训换来的,是数据中心的宝贵财富。有些规定虽然没有太深的技术支撑,但却非常实用,这些也是运维人员面对数据中心故障时想到的办法。俗话说“话糙理不糙”,这些不成文的规定看似简陋,关键时刻却非常管用。