数据中心监控系统通常会关注计算机本身,比如监控系统系能、跟踪虚拟负载,对不可避免的服务器警告做出反应等等。但是现代数据中心需要更具全局的监控策略,以考虑环境温度和湿度等环境因素--不只局限在室内--而且还监控机架和服务器这样更细微的地方。现在我们来谈谈对环境有哪些关键的监控点,再讲讲环境监控有关的问题。
数据中心环境监控的几个角度
很多数据中心使用复杂的管理工具,但是很多工具不能检查环境内细微的情况,甚至有的管理者根本不管这些工具提供的数据。局部问题是有多种问题组成的。不可能用一个工具同时来检测所有系统的电压、风扇速度、温度、湿度等等。再其他情况,环境传感器的放置和可用性也可能不适合监控。还有一个问题是缺乏计划和协调性--IT管理员对数据中心环境缺乏应有的忧虑感。
如果你要把数据中心的监控系统延伸到整个环境,那就花点时间看看下面的内容:
1、监控温度。数据中心成长之后大的问题就是热能密度。这使得设备级别的温度管理更加难办,因为机架密度(和相关机架热量)各有不同。结果我们发现,一块地方出现热点的同时,另一块地方出现冷点。安装网络连接的温度传感器能帮助管理员找到这些点,确保所有设备安全运行,早些知道哪些地方出问题,以便让管理员降温并转移负载。
遵照旧版本的ASHRAE推荐的温度范围(64.4到80.6华氏度),或者新版本在TC9.9提出的标准都比较好。数据中心最佳实践中还推荐至少在每个机架上放一个传感器。如果环境中有冷/热通道配置,还可以在每个“热”的机架或一整行上放一个传感器。如果温度在提升,好把传感器放得靠近机架顶部,因为那里温度普遍高。还有一个建议是在一行的末端放置传感器,这样就可以检查溢出情况,防止热通道的热空气进入冷通道。
2、对制冷的精确控制。大型企业的数据中心必须维护现有的制冷级别和空调。配置智能控制(通常这会把制冷和监控系统整合在一起),能帮助数据中心有效运行。只能控制的目标是让多种大型系统相互协调而非竞争。拿大型数据中心的湿度控制为例,我们假定因为某种原因,某个部件的传感器报告说湿度高,没有只能系统,该部件可能自己就执行补救进程。但是有了智能制冷系统,数据中心监控工具会先询问其他部件的湿度状态,如果其他部件在范围内,就检查整体情况看看级别有没有变正常。另外,它会警告管理员或者展开预设好的补救措施。
3、液体和湿度检查。一个制冷机如果泄露进数据中心,可能会造成上千上万的损失,如果它对数据中心和关键业务硬件造成损害的话。会给企业的功能和生产能力带来损害。使用检查泄露传感器,可以检查泄露情况,发出警报来预防问题。建议泄露传感器安装在数据中心内任何能看到液体的地方。根据数据中心环境,传感器可以当做独立系统或者链接中心监控系统以简化管理。在大型环境中,冷区无处不在,传感器可以检查出冷凝区域和过度的试读。你的机架传感器阵列中如果有了有了湿度传感器,就能维持湿度控制的标准级别。盛液盘和液体径流的指定区域能抑制泄露的危险。
湿度检查也能查过度干燥的地方,防止静电。干燥空气通常发生在自由空气侧冷却技术被数据中心采用。
在文章的下半部分,我们会讲到另外三个数据中心监控的注意点,同时还会传授数据中心监控的最佳实践。欢迎各位读者持续关注!