数据中心运维里的那些不成文的规定_IDC运维管理

数据中心4

数据中心是信息处理的重要场所，里面的设备承载着很多重要的业务，对连续稳定运行都有很高要求。可是业务的运行还是要靠成千上万台的电子设备稳定运行来保证，为了确保这些设备运行不出问题，或者出了问题也让业务层面感知不到，数据中心运维的技术人员想了很多办法，有些还逐渐成为了行业运维的标准，很多数据中心都效仿和执行。其实，有时技术人员做这些不成文的规定也是实属无奈，根本目的还是为了保证数据中心业务的连续稳定运行。业务中断对于数据中心都是天大的事儿，业务中断的损失很多都是以秒来计费，所有的规定都是为数据中心服务的。那我们就来看看，运维的工作都有哪些好玩的不成文规定。

重大节假日必封网

每逢重大节假日来临，各大网络运营商，重要行业企业等的数据中心纷纷进行封网。所谓封网，就是停止一切对数据中心的人为操作和业务变更，让设备自己运行，不进行人工干预。封网并不是减少人员的值班，而是要加强人员的值守，确保数据中心运行不出问题，若出问题也及时处理和消除。此时封网可以减少一些人为故障，要知道百分之八十的故障都是人为操作产生的，不去动它反而是最安全的。谁也不想在关键时刻自己的数据中心掉链子，出风头，就像马上要召开的十九大，现在所有主流的数据中心都已经封网，不再允许做任何的网络变更操作（设备出现故障的除外），有的数据中心机房甚至已经上锁，无人可以进得去。这项制度也是数据中心在运维的工作中摸索出来的，从以往的历史经验看，只要减少人为干预，让设备自己运行，出现问题概率会大大下降，所以在关键时期坚决不做任何变更操作，就让数据中心自行运行，发生故障的概率最低。

定期重启设备

我们的手机如果用久了速度会变慢，如果重启一下再用会发现好很多。其实对于数据中心里的设备也是这样，数据中心里的设备常年不中断运行，运行时间久了，各种内存垃圾，各种软件BUG就容易暴露出来，设备出问题的风险随之增加，定期对设备进行重启，将有助于减少故障的发生，延长设备使用寿命。如果设备上业务没有备份，重启设备可能对业务造成影响。所以，在重启设备前要做好评估，避免主动重启给业务造成影响。如果重启一次设备对业务造成的中断时间可以接受，那么可以定期，比如半年或一年对设备主动进行一次重启，如果设备使用的软件版本较老，也可以借此进行软件升级，不要认为重启了设备就是一件很丢人的事情。这就像马拉车，走的时间久了，马也需要休息一下。有的数据中心每年都做一两次的故障模拟演练，这其中就包括对设备的重启，来检查数据中心系统的稳定性和冗余性，有这个演练就很好，不仅可以让设备临时休息一下，也可以及时发现数据中心运行的漏洞，进行修补。千万不要被动等出了严重问题时，再考虑重启设备恢复，这时往往会给业务造成严重损失。

加强对设备操作管理

数据中心里有很多设备，不同的设备来自不同的厂家，使用的功能也不同，对这些设备的操作人员要进行严格管理。避免不熟悉设备的人误操作设备，这些人为故障数不胜数。所以一定要对访问设备的权限做控制，不同的设备由不同的人来管理，由最熟悉它的人来控制。对于一些设备变更操作，要提前做评估，配置是否符合规范，是否有已知风险，让设备厂商也参与到变更操作中来，以防出现变更未达预期的情况出现。数据中心对登录设备管理非常严格，对不同的人员都有不同的权限要求，如果需要申请相应更高访问权，需要到高级领导那里去申请，并且将操作的理由和原因说清楚，这是数据中心运维管理工作的重要组成部分。

隔离/离线/重启三把斧

数据中心运行过程中出现故障，第一时间就是恢复业务，定位故障原因是其次，所以运维人员处理故障时，首先要明确故障位置，如果短时间内无法完全明确，也要尝试进行恢复业务的操作，这时常用的就是这三把斧：隔离、离线、重启。这三把斧都是针对具体设备的，因为数据中心故障都是来自具体设备，稳定运行过程中出了故障基本都是其中某个或某些设备出问题了。隔离就是只根据业务故障的范围，对故障的设备端口、VLAN或流量进行切换，切换到其它正常的通道上来，如果故障范围无法明确这些细，就考虑对设备尽心离线，即将设备下线，整个设备的业务切换到其它设备上来，比如某个服务器业务异常了，将这个服务器上的虚拟机迁移到其它服务器上来，尽快恢复业务。有时，设备之间没有备份无法进行离线处理，比如一些核心的网络设备，离线需要做大量的业务切换工作，这时就考虑对设备进行重启了，看重启能否恢复，一般运行异常的设备通过重启基本都能恢复，在短时间内继续正常运行，这样为分析问题原因赢得了宝贵时间。一方面继续分析原因，一方面让数据中心业务正常运行下去，找到问题原因后，再将隐患补救。

数据中心运维人员在日常的工作中逐渐摸索出了很多经验，这些都是一个个血的教训换来的，是数据中心的宝贵财富。有些规定虽然没有太深的技术支撑，但却非常实用，这些也是运维人员面对数据中心故障时想到的办法。俗话说“话糙理不糙”，这些不成文的规定看似简陋，关键时刻却非常管用。