数据中心4

数据中心是信息处理的重要场所,里面的设备承载着很多重要的业务,对连续稳定运行都有很高要求。可是业务的运行还是要靠成千上万台的电子设备稳定运行来保证,为了确保这些设备运行不出问题,或者出了问题也让业务层面感知不到,数据中心运维的技术人员想了很多办法,有些还逐渐成为了行业运维的标准,很多数据中心都效仿和执行。其实,有时技术人员做这些不成文的规定也是实属无奈,根本目的还是为了保证数据中心业务的连续稳定运行。业务中断对于数据中心都是天大的事儿,业务中断的损失很多都是以秒来计费,所有的规定都是为数据中心服务的。那我们就来看看,运维的工作都有哪些好玩的不成文规定。

重大节假日必封网

每逢重大节假日来临,各大网络运营商,重要行业企业等的数据中心纷纷进行封网。所谓封网,就是停止一切对数据中心的人为操作和业务变更,让设备自己运行,不进行人工干预。封网并不是减少人员的值班,而是要加强人员的值守,确保数据中心运行不出问题,若出问题也及时处理和消除。此时封网可以减少一些人为故障,要知道百分之八十的故障都是人为操作产生的,不去动它反而是最安全的。谁也不想在关键时刻自己的数据中心掉链子,出风头,就像马上要召开的十九大,现在所有主流的数据中心都已经封网,不再允许做任何的网络变更操作(设备出现故障的除外),有的数据中心机房甚至已经上锁,无人可以进得去。这项制度也是数据中心在运维的工作中摸索出来的,从以往的历史经验看,只要减少人为干预,让设备自己运行,出现问题概率会大大下降,所以在关键时期坚决不做任何变更操作,就让数据中心自行运行,发生故障的概率最低。

定期重启设备

我们的手机如果用久了速度会变慢,如果重启一下再用会发现好很多。其实对于数据中心里的设备也是这样,数据中心里的设备常年不中断运行,运行时间久了,各种内存垃圾,各种软件BUG就容易暴露出来,设备出问题的风险随之增加,定期对设备进行重启,将有助于减少故障的发生,延长设备使用寿命。如果设备上业务没有备份,重启设备可能对业务造成影响。所以,在重启设备前要做好评估,避免主动重启给业务造成影响。如果重启一次设备对业务造成的中断时间可以接受,那么可以定期,比如半年或一年对设备主动进行一次重启,如果设备使用的软件版本较老,也可以借此进行软件升级,不要认为重启了设备就是一件很丢人的事情。这就像马拉车,走的时间久了,马也需要休息一下。有的数据中心每年都做一两次的故障模拟演练,这其中就包括对设备的重启,来检查数据中心系统的稳定性和冗余性,有这个演练就很好,不仅可以让设备临时休息一下,也可以及时发现数据中心运行的漏洞,进行修补。千万不要被动等出了严重问题时,再考虑重启设备恢复,这时往往会给业务造成严重损失。

加强对设备操作管理

数据中心里有很多设备,不同的设备来自不同的厂家,使用的功能也不同,对这些设备的操作人员要进行严格管理。避免不熟悉设备的人误操作设备,这些人为故障数不胜数。所以一定要对访问设备的权限做控制,不同的设备由不同的人来管理,由最熟悉它的人来控制。对于一些设备变更操作,要提前做评估,配置是否符合规范,是否有已知风险,让设备厂商也参与到变更操作中来,以防出现变更未达预期的情况出现。数据中心对登录设备管理非常严格,对不同的人员都有不同的权限要求,如果需要申请相应更高访问权,需要到高级领导那里去申请,并且将操作的理由和原因说清楚,这是数据中心运维管理工作的重要组成部分。

隔离/离线/重启三把斧

数据中心运行过程中出现故障,第一时间就是恢复业务,定位故障原因是其次,所以运维人员处理故障时,首先要明确故障位置,如果短时间内无法完全明确,也要尝试进行恢复业务的操作,这时常用的就是这三把斧:隔离、离线、重启。这三把斧都是针对具体设备的,因为数据中心故障都是来自具体设备,稳定运行过程中出了故障基本都是其中某个或某些设备出问题了。隔离就是只根据业务故障的范围,对故障的设备端口、VLAN或流量进行切换,切换到其它正常的通道上来,如果故障范围无法明确这些细,就考虑对设备尽心离线,即将设备下线,整个设备的业务切换到其它设备上来,比如某个服务器业务异常了,将这个服务器上的虚拟机迁移到其它服务器上来,尽快恢复业务。有时,设备之间没有备份无法进行离线处理,比如一些核心的网络设备,离线需要做大量的业务切换工作,这时就考虑对设备进行重启了,看重启能否恢复,一般运行异常的设备通过重启基本都能恢复,在短时间内继续正常运行,这样为分析问题原因赢得了宝贵时间。一方面继续分析原因,一方面让数据中心业务正常运行下去,找到问题原因后,再将隐患补救。

数据中心运维人员在日常的工作中逐渐摸索出了很多经验,这些都是一个个血的教训换来的,是数据中心的宝贵财富。有些规定虽然没有太深的技术支撑,但却非常实用,这些也是运维人员面对数据中心故障时想到的办法。俗话说“话糙理不糙”,这些不成文的规定看似简陋,关键时刻却非常管用。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-11-16 09:24:00
国内资讯 京东11·11:撬动数据中心的支点——京东阿基米德
今年11.11,京东数据中心操作系统(JDOS)阿基米德已经全面接管了应用资源调度。每日调度百万台容器实例运转,每日为离线计算提供了多达3000万核。小时的计算资源,SLA履约 <详情>
2017-11-15 18:32:00
国内资讯 【"攻城狮"大赛】来自首届冠军大连华信的祝福
随着市场需求的猛增,数据中心市场规模年增长率超过30%,持续保持着高速增长的态势。另一方面,在国家和行业的共同努力下,国内数据中心正发生“由量向质”转变,并且朝着 <详情>
2017-11-15 09:59:00
交换存储 什么是数据中心的双层存储系统?
大多数数据中心至少拥有五到六个不同供应商的不同存储系统,这既提高了存储成本,又加大了管理复杂性。而一个潜在的解决方案是全闪存数据中心,其中所有数据都移动到一个单 <详情>
2017-11-15 09:40:37
机房建设 数据中心从芯出发
数据中心是信息处理的集中场所,是由大量服务器、网络和存储等设备搭建起来的强大数据处理系统。虽然现在云计算、大数据、人工智能等这些软件虚拟化的技术在数据中心里大行 <详情>
2017-11-15 09:33:00
国内资讯 阿里云+思科,构建下一代数据中心
中国最大的公有云服务提供商阿里云的目标是在2019年之前达到或超越AWS的公有云市场规模,为此阿里云即将在北京建立的数据中心将会采用思科的技术来实现。 <详情>