数据中心机房是企业信息数据汇集、转发的重要场所。企业的协同办公系统、财务系统、营销系统、等重要系统的服务器都集中在机房,所以企业对计算机机房的稳定性、可靠性、安全性要求较高。一但电力系统、网络系统、服务器等出了故障,造成业务终端,造成的经济损失是不可估计的。
part 1:维护机房的目的
保障机房设备正常运行,对机房环境支撑系统、电力系统、监控设备、计算机主机设备定期检测、维护和保养,保障机房设备运行稳定,降低故障率。确保机房在突发事故导致硬件设备故障,影响机房正常运作情况下,可及时得到设备供应商或机房服务维护人员的产品维修和技术支持,并快速解决故障。保障机房设备稳定运行,并通过保养延长设备生命周期,降低故障率,下面将服务器机房的维护方法与大家分享。
part 2:维护内容
1. 机房主机设备维护管理:计算机服务器(包括PC服务器及存储服务器);网络设备(交换路由设备等)。
2. 机房监控设备维护管理:供配电监测系统、温度环境检测系统、门禁设备系统、保安监控设备。
3. 机房空调与配电设备维护管理:空调设备、新风设备、UPS电池、主配电箱。
4. 机房消防设备维护管理:烟感热感探测器、手动报警按钮和报警控制器、灭火器的控制装置。
5. 机房供水水路、电路及照明维护管理:水电路管线及接口的检查维护。
6. 机房基础维护管理:机柜线路的整理、标签检查更换、机房除尘清洁、防火地板、墙面、吊顶、门窗及相关配套的维护管理。
part 3:数据中心机房的维护方法
1. 机房除尘及环境要求:定期对设备进行除尘处理,清理,调整安保摄像头清晰度,防止由于机器运转、静电等因素将尘土吸入监控设备内部。同时检查机房通风、散热、净尘、供电、架空防静电地板等设施。机房室内温度应控制在 5℃~ 35℃,相对湿度应控制在30%~85%.
2. 机房空调及新风维护:检查空调运行是否正常,换风设备运转是否正常。从视镜观察制冷剂液面,看是否缺少制冷剂。检查空调压缩机高、低压保护开关、干燥过滤器及其他附件。
3. UPS及电池维护:根据实际情况进行电池核对性容量测试;进行电池组充放电维护及调整充电电流,确保电池组正常工作;检查记录输出波形、谐波含量、零地电压;查清各参数是否配置正确;定期进行UPS功能测试,如UPS同市电的切换试验。
4. 消防设备维护:检查火警探测器、手动报警按钮、火灾警报装置外观及试验报警功能;检查火灾警报控制器的自检、消音、复位功能及主备用电源切换功能。
5. 电路及照明电路维护:镇流器、灯管及时更换,开关更换;线头氧化处理,标签巡查更换;供电线路绝缘检查,防止意外短路。
6. 机房基础维护:静电地板清洗清洁,地面除尘;缝隙调整,损坏更换;接地电阻测试;主接地点除锈、接头紧固;防雷器检查;接地线触点防氧化加固。
7. 机房运维管理体系:完善机房运维规范,优化机房运维管理体系。维护人员24小时及时响应。
part 4:机房服务器日常维护步骤
1. 开机顺序
一般地说,系统开关机应严格遵循以下步骤:打开总电源-> 打开计算机机柜电源-> 打开外部设备电源(如磁盘阵列,磁带库等)-> 待外部设备自检完成后,最后打开主机电源。
2. 关机顺序
进行操作系统的关闭(shutdown -h -y 0)-> 关闭主机电源。-> 关闭外设电源。(如磁盘阵列,磁带库等)-> 关闭其他设备电源和机柜电源;-> 最后关闭总电源。
3. 电缆连接注意事项
在进行电缆连接(插拔)时,最重要的一点是,通过该电缆连接(或将要连接)的设备应当是没有加电的,即应当先将设备的电源关掉,然后再进行电缆连接(插拔)操作。否则,如果带电进行电缆连接,会造成对设备无法预料的损坏。
4. 硬件故障诊断
(1)电缆连接
注意计算机及各外设之间连线接触良好,不要无故拔插电缆;如果发生计算机不能识别某个设备,有可能是电缆的接触问题。
(2)硬件状态指示灯
如果发现系统工作不正常,可以观察硬件状态指示灯的情况。开机后系统将自动完成自测试,诊断及引导启动代码。
检测顺序大致为:高速缓存,中央处理器,总线,内存,I/O设备。当检测到相关的硬件时,对应的显示灯会亮。
硬盘,软盘,磁带机及光盘驱动器自检时,能从前面板上看到相应的灯亮一下,表明系统已经识别到上述设备。相反,如果某驱动器的自检灯没亮,很可能是该设备有问题。
另外,主机背后的SCSI接口卡及网络接口卡上的自检指示灯亮为正常状态。否则,可能该接口卡有问题。如果发现这种问题,请马上与HP联系,考虑更换备件。
(3)错误代码
每次开机后,系统都会进行硬件自检及初始化,假如系统出现硬件故障,一般都不能正常启动,并在液晶显示屏及控制台上相应的显示出错误代码及出错信息。
若屏幕上出现ERROR且液晶显示上出现FLT,表明有故障发生,应根据上述提示确定故障点。
绝大部分硬件错误都能在自检时暴露出来,在液晶显示及控制台的左下角都有四位错误代码:FLT xxxx.
分析这四位代码可以进一步检测出故障。发现这种问题,请马上与HP联系,分析相应的故障原因。
part 5:机房维护需要注意的内容
数据中心是全球性的特定网络,主要作用是传递、加速、展示、计算和存储Internet上的数据信息的。数据中心的服务器数量可以有很多,但是它又不仅仅只是包含了很多的服务器,它还包含了各种各样的数据通信存储、各种监控和安全设备等,内部是比较复杂的。
数据中心后期的维护是很重要的,对环境的要求也是很严格的,当然这些设备需要适应相同的环境,这样维护起来会更方便。
(1)首先是一定要远离腐蚀性气体和易燃易爆物体,因为这些气体会随着机房的通风口进入,不管是对工作人员还是对机器设备都很不利,还会造成一些滤网的污染。
(2)其次就是温度和湿度一定要控制好,严格控制在规定的标准范围内。干球温度计要在20℃到25℃(68F~77F)之间,相对湿度要在40%到50%之间。
(3)另外一个因素是噪声和照度。主机房中心的噪声保持在65dB(A)以下是正常的一个范围,照度是距地0.8米处应该高于300lx,辅助房间的要大于200lx.
(4)还有一个因素是需要我们注意的,那就是无线电和磁场的干扰场强,这个在设置的时候要根据规定的大小。
数据中心的机器比较多,散热问题需要注意,要有制冷系统来稳定机房内的温度。当然,要想维护好数据中心,还有很多的小细节需要我们注意,以上几点是我们比较常见的,我们在工作过程中可以根据自己的情况,做好其他的小细节。
part 6:数据中心机房维护计划
1. 周维护主要内容:
清洁机架内外、设备面板和监视器、显示器屏幕;
检查个切换开关功能键、监测报警系统的功能及各设备指示状态;
检查机房供配电系统;
检查机房空调和照明设备。
2. 月维护主要内容:
周维护所有内容;
整理各机架设备连接线;
检查服务器配置情况;
检查交换机各个端口工作状态;
检查服务器运行状态并记录;
检查各光发射、接收设备的工作状态。
3. 季维护主要内容:
周、月维护所有内容;
清洁机房空调的过滤网,检查空调运行情况,必要时补充制冷剂;
按操作规程对蓄电池进行完全的充放电维护;
对接收天线进行全面性能检查和维护。
4. 年维护主要内容:
周、月、季维护所有内容;
清洁各设备的电路板和接插件;
清洁各监视器和计算机内部;
检查调整信号源和设备测试口的电平及性能指标;
检查调整各监测、报警系统的门限阀值。