对于服务器来说热点可不是好事情。在本文中,主要探讨了它们如何发生,如何通过监控数据中心温度和冷却性能来预防其发生。

冷却故障和服务器温度过高造成的结果往往比绝大多数关键任务数据中心断电还糟糕。好的持续的不间断电力供给能够在发电机启动、恢复供电或有序关闭时仍能维持服务器正常运转。然而在如今高密度硬件和一再升高的运行温度情况下,一次制冷故障(即便是多余的空气调节)也会导致服务器在几秒内崩溃。如果数据中心热点没有被及时识别,早期会导致硬件故障,以及无法解释的数据错误。

QQ图片20161104174813

  数据中心热点是如何发生的?

热点是非常邪恶的,它们悄悄接近你直至设备开始出现故障或是开始出现奇怪的数据异常。如果在没有了解到机房里冷却能力的情况下添加或移除设备,热点就会发生。几乎在每个数据中心中,冷却能力都会因处在机房的不同位置以及机架的不同高度而有所不同。通常热点发生缓慢,因而在事情恶化前很难被识别出来。

  合理监控,找出数据中心热点

找出数据中心热点最简单、最省钱的方法就是使用温度指示消隐板(temperature-indicating blanking panel)。板上的多色彩带是热敏感的,能提供一个关于入口空气温度的可视化的指示。将它们安装在每个机架的顶部、中部和底部,或至少在每个机架上都进行安装。也可以在硬件前端安装温度探头,靠近机架的顶部、中部和底部。如果你只能承担得起每个机架安装一个,那么将其置于最弱的硬件前端,一般来说该硬件都是机架中温度高的那台服务器。

数据中心温度和湿度探头可作为智能机架配电单元的附加组件,也可以作为单独的无线设备和一些数据中心基础设施管理系统的一部分。上述三种方案都能对机房内温度状况做实时的图像展示。最后,你应将这些读数与计算流体动力学(CFD)空气流动模型相结合,以在安装新设备前验证是否有足够的冷却能力。

很多数据中心对冗余冷却单元进行了投资,然而事实上并不具备冗余的冷却,有些设计的相当简陋。一些机房空气调节组对空气是如何在数据中心中流动的并不具备足够的了解,从而导致了更糟糕的冷却状况。现代设计中,冗余配件和正常配件同时工作,不过速度相对较低,因而你往往意识不到增加的服务器正在消耗冗余的冷却能力,直至故障发生,其被迫关闭用以维修。

所幸的是,服务器能够忍受高温运行几天而几乎没有什么负面影响。ASHRAE的允许热包络在紧急情况下可上升至32摄氏度或华氏89.6度,不过边缘冗余加之缺少计划的增加计算硬件会在冷却配件关闭后极短的时间内造成严重的过热和热关机。

  预防数据中心冷却故障

一些人认为在凸起的版面设计中于正常制冷器旁放置冗余制冷器是一个解决办法,不过这不太可靠。当空气来自不同的地方,在正常或冗余配件或二者同时运行时的空气流动模式会有不同。这看似细小的差异会导致数据中心温度的变化,常导致明显的热点。

热指标是良好的一个开始,不过每次硬件改变时都关闭冷却配件来观察哪里过热是不现实的。解决问题好的方法是以CFD建立冷却模型,生成数据中心的一个3D模型,包括特定的冷却系统和机架热负荷,这对冗余设计来说特别适用。该程序使用这些信息以处理成千上万复杂的偏微分方程,形成对空气流动的分析。该模型提供彩色编码的图形和数据表以显示机房每个点上的空气量、速度、温度和压力,附加板下安装。其很容易观察出哪里有额外的冷却能力,并在那里添加新设备。同时,在该模型下重新设计冷却也是容易的,也能够看出冗余设备运作情况如何。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-01-09 16:53:00
市场情报 中兴通讯分布式存储+ DPU,加速数据中心转型
存储技术在不断地创新、完善、加速演进,以更好地满足业务的存储需求,但同时也使得存储协议和文件系统越来越繁重。 <详情>
2023-11-17 10:35:56