长期稳定高效运转是所有数据中心追求的永恒目标,但要达到全年无休,无故障不间断运转是非常难的一件事,这是因为数据中心涉及的技术太多,包含各种复杂的系统,各式各样的电子设备,电子设备的可靠性本身就不是很高,要达到业务的稳定运行,就需要增加很多监控手段,当发现危险隐患时,及时纠正,避免给业务带来无法挽回的损失。提到数据中心监控,这又是一门包含诸多学科交叉的技术,本文将以独特的视角来讲述数据中心的监控,看如何为数据中心增加一双明眸亮眼。
数据中心的监控可以分为三大部分。第一部分是应用业务的监控,这部分最重要也最为复杂,数据中心能否长期稳定运行,能否及时发现一些系统运行隐患,出现故障时能否及时找到问题原因并排除,所有这些问题都需要通过监控技术来解决。对应用业务的监控,实际上就是对各种设备运行状态的监控,从服务器、储存、网络甚至到防火墙等等设备都需要监控,不同设备的监控信息并不相同,根据设备厂家提供的日志信息,在数据中心部署一套或多套监控服务器,周期性地到设备上采集日志信息,以便在发现隐患时及时发出告警,所以日志服务器是数据中心常用必备的“良药”。当然,如果您认为只要有日志服务器监控业务就万事大吉了,那您就错了。更多的时候,业务故障并不都能从日志信息反馈出来,尤其是系统级的问题,单单看每个设备运行都是良好的,但是将业务部署到这些设备上时,就会有问题,这些问题往往通过日志无法反映出来,这样就需要网络管理工具、数据分析工具、PING工具等等,这样一系列不同层面的丰富手段来监控。既然叫监控,就有两层含义,一个含义是监视的意思,另外一个含义是控制的意思。不仅要对数据中心业务进行监控,还要在发现异常的时候,自动采取一些控制措施,也就是监控不仅能发现问题,还能够具备解决问题的能力。这样在数据中心业务监控中,要把握好控制的力度,不能没有也不能执行过猛。比如:在网络设备上经常部署NQA功能,就是用PING、TCP等报文探测网络连通性,当出现异常时执行一定的动作,这时就要考虑探测要多久,多久中断是业务层面能够忍受的,还有就是一旦探测失败,执行何种级别的恢复动作,是切换路由还是重启设备,是DOWN掉异常端口还是改变转发路径等等,这些都是数据中心需要慎重考虑的事情。数据中心业务层面的监控包罗万象,涉及到数据中心内的所有设备,也可以说监控属于运维范畴,要知道数据中心运维市场是非常大的,很多数据中心厂商都视这一块为肥肉,都想能尽量多分一杯羹。
第二部分是对环境的监控。数据中心里的设备要长期稳定运行,需要一个良好的环境,要知道这里的很多设备都是非常精密和昂贵的,对周围环境要求条件也较为苛刻。早期的数据中心多采用人为周期性检查的方式来完成对环境的监控,如今基本实现了自动监控,这通过在数据中心机房里安装各种的传感设备,实时将内部的环境参数传递到监控中心,由计算机软件分析判断是否正常,如果发现有超过设定阀值的时候,自动发出告警,通知到相关运维技术人员,以便及时采取措施。除了监控环境,还可以监控供电、放火、漏水等,通过对数据中心环境的监控,为数据中心里的设备提供良好的运行环境。
第三部分是对人的监控,人是数据中心里最为重要的一环,即便是无人值守的数据中心,长期运行也离不开人。俗话说“成也萧何,败也萧何”,数据中心离不开人,但是往往又是人给数据中心带来了极大的麻烦。经统计,以往发生过的数据中心故障,75%左右的都是人为操作事故,规模越大,越复杂的数据中心,人为故障越多。为了减少人为故障,就必须对人进行监控。这包括对出入数据中心的人员进行严格管理,必须经过数据中心主要领导批准后,才准进入;进入数据中心人员必须得穿戴防静电衣帽,戴防静电的手套才能触碰设备;制定详细的人为行为规范,对数据中心所有人员行为进行管理,形成良好的工作制度;访问设备对不同级别的人开放不同的权限,每次访问设备时,都要做好操作记录,以便日后进行复查;在数据中心里的各个部分都要部署监控设备,掌握到所有在里面活动的人员,一旦发现异常行为,及时进行制止。与此同时,还要对进出数据中心的设备、物品进行严格检查,避免出现丢失,一个100G的光模块就价值数万,要通过监控避免盗窃行为的发生。做好对人的监控,往往可以消除掉一半以上的数据中心故障,大大提升了数据中心运行的稳定性。
监控就是给数据中心一双明亮的双眼,对数据中心运行的各个环节进行全面监视,及早发现问题,并最终解决问题,这就是监控存在的意义。做好数据中心的监视,能够有效减少故障的发生,减少数据中心的业务损失。不过,监控是要数据中心投入大量资金的,越完善的监控系统,所要花费的资金越多,有很多数据中心运行良好,认为没有必要将过多的资金投入到监控中来,这样做短时间内是节省了不少的资金开支,但一旦发生故障带来的损失很可能是灾难性的,如果有完备的监控系统,就很可能在故障之前就发现问题了,从而及时解决掉,避免小问题最终演变成为大故障。为您的数据中心增加一双监控明眸吧!