当前,在计算机技术领域的最新进展以及高性能CPU和GPU的日益普及使得企业用户们能够在计算机分析方面达到新的高度,包括使用大数据分析、人工智能、高频交易、石油和天然气研究以及网络规模化商业模式。对于这些技术普及采用的快速增长已经超过了大多数主机托管和企业基础设施大规模冷却这些高度密集的服务器机架的能力。
虽然许多基础设施均承诺能够以每平方英尺一瓦特为基础,以便能够为高于标准服务器机架密度的计算机系统提供冷却的能力,但是许多基础设施(如果不是全部的话)均无法大规模地实现对于如此高密度的新的计算机系统的有效管理。故而主机托管和企业数据中心必须考虑这些新的计算机如何在数据中心环境中进行交互,了解可用于冷却这些密集服务器的各种解决方案,并构建可支持当前和未来使用的最新计算机机架的基础架构。
随着当前的IT企业组织对于高密度计算机使用的不断增加,运行这些先进系统的要求也在相应提升。推动更高效的数据中心是与数据中心建筑物的电源使用效率(PUE)密切相关的主题,而后者的定义计算公式为:(数据中心总设备能耗)/(IT设备的能耗)。对于高性能计算(HPC)集群和高密度计算机架而言,其每台机架的功率密度高达100 kW,有时甚至更高,每台机架的平均密度估计为35 kW。
故而当前的建筑物业主、主机托管设施、企业数据中心、Web规模化企业、政府机构、大学和国家级的研究实验室都在积极努力的升级其冷却基础设施,以便不仅能够为这些新的计算机系统所产生的热量提供冷却散热,并且与此同时还要尽可能的减少或消除它们对建筑的能源消耗量或PUE的影响。
当前在石油和天然气勘探研究、金融交易机构、网络营销等行业中对于“大数据分析”技术的快速采用进一步突显了对数据中心高效冷却的需求。这是因为世界上大多数的计算机服务器机房和数据中心都没有配备或准备好处理当前和下一代服务器计算机所产生的大量热负荷。如果我们假设由高密度计算机所消耗的功率都100%的转换为热能的话,那么也就很容易理解“为什么当下的企业数据中心必须要以有效且高效的方式去除这些热量”这一议题会成为业界广泛关注的焦点了。
研究高密度计算机系统的冷却解决方案
1、浸没式冷却方案
新的超高性能计算机芯片能够让HPC系统的设计人员们开发出每台机架可达100 kW的特殊集群,并且几乎可以超越目前所有可用的服务器冷却方法。浸没式冷却系统提供填充有特殊设计的非导电介电液体的槽,允许整个服务器浸没在液体中,而不会跨计算机电路产生电导的风险。这些高效系统可以消除高密度计算机系统产生的热量高达100%。一旦这些热量被转移到介电流体中,然后就可以通过热交换器,泵和闭环冷却系统很容易地移除了。
通常,传统的企业数据中心为了能够顺利部署采用新的浸没式冷却系统,都需要进行翻新。包括CRAC、高架地板和垂直服务器机架等传统的冷却设备都将被浸没式的液体槽和更新的闭环温水冷却系统所取代。这些液体槽水平安置在地板上,为IT人员提供了一大新的优势,但却是以占据了每平方英尺高成本的数据中心占地面积空间为代价的。服务器由其所有者或第三方通过移除可能受到电介质流体负面影响的组件被修改——例如硬盘驱动器和原始设备制造商(OEM)可能无法保证的其他组件。考虑到对于相关基础设施所实施的这些巨大改变将极大地限制企业未来的OEM服务器选项,并且仅限于具有专用浸入式冷却技术的服务器机房使用,故而企业数据中心应该专门考虑未来的服务器更新选项。
虽然浸入式冷却为世界上最极端的HPC系统提供了极高的效率,但这种HPC系统的普遍稀缺性及其所需的对于基础设施升级和维护方面的挑战是目前市场广泛对其普及接受的一大难题。
图一:浸没式冷却
2、直接到冷却芯片,片上冷却方案
最近,直接冷却到芯片或片上冷却技术在HPC行业取得了重大进展。小型散热器被直接连接到计算机的CPU和GPU,从而创建了高效的紧密耦合服务器散热。来自服务器的高达70%的散热将由直接到芯片的散热器收集,并通过小型的毛细管系统传输到冷却液分配单元(CDU)。然后,CDU将热量传递到单独的闭环冷却系统,以排出来自计算机房的热量。其热平衡使得30%或更多的热量被拒绝进入到现有的服务器房间冷却基础设施。
通常用于直接到芯片冷却的温水冷却系统一般被认为是不使用制冷设备的冷却系统,例如闭环干式冷却器(类似于大型散热器)和冷却塔,并且最近由美国供暖制冷与空调工程师协会(ASHRAE)进行了量化。以生产“W-3或W-4”水温或介乎2°C - 46°C(36°F-115°F)的水温。与典型的冷藏冷却系统相比,这些系统所消耗的能量显著减少,并为直接到芯片的冷却系统提供了足够的散热,因为它们可以在W3-W4范围内的冷却水供应温度下保持运行。
如果重新利用和恰当的使用能够有助于提高数据中心整体建筑的效率和PUE的话,直接芯片冷却解决方案也可用于回收低等级的水热。这种形式的热回收的优点会受到该建筑物的采暖、通风和空气调节(HVAC)系统功能的限制。HVAC建筑设计在世界各地是不同的。由于大多数建筑物中都普遍使用基于水的终端设备,因此欧洲的许多地方都可以从低等级的热回收中受益。相比之下,大多数北美地区的HVAC建筑设计使用具有电子再热终端盒的中央强制空气加热和冷却系统,故而很少使用从直接到芯片或片上冷却系统的低等级热回收。分配再生温水的可行性也应在使用建筑水力基础设施之前一起进行研究。
根据最近由欧内斯特·劳伦斯伯克利国家实验室所进行的一项名为“电子设备的直接液体冷却”的研究得出结论:在优化的实验室条件下,市场领先的直接芯片冷却系统所达到的最佳冷却性能为70%。这对于这样的系统留下了有趣且可能适得其反的结果,因为来自计算机系统的大量热量仍然必须禁止进入到周围的房间,然后必须通过诸如计算机房空调(CRAC)或计算机室空气处理器(CRAH)等更传统、效率更低的装置来冷却。(如下图二)。
为了更好地了解部署直接或片上冷却系统的新效果,必须将HPC集群视为整体建筑能耗的一部分,然后可以直接与建筑物PUE相连。考虑到具有直接芯片冷却功能的35 kW机架将至少拒绝10.5 kW(占30%)的热量散发到计算机房,平均一台HPC群集包括6台机架式计算机(不包括高密度存储阵列),直接到芯片或片上冷却系统将在既定空间内排出至少60kW的热负荷。利用CRAC或CRAH排除这种余热的最常用方法会导致原始效率增益的显著下降。
在采用片上冷却系统时,还需要考虑数据中心内部实际基础设施的需求,以及更重要的服务器机架内部的需求所提出其他方面的挑战。为了使温水冷却到芯片水平,必须通过许多小软管将水输送到机架内部,然后这些软管又将直接输送到芯片热交换器/泵。虽然这些安装的规模很小,但是需要IT人员来管理装满大量软管的机架背面,以及用于连接冷却系统入口和出水的分配头。
直接芯片冷却系统直接连接到HPC集群的主板,设计或多或少是永久性的。通常根据需求或预算,HPC群集平均每3到5年需要进行更新(或替换)。考虑到这一点,如果在托管环境中使用,则每次实施更新或客户端重定位都需要为冷却系统基础结构的更改准备好设施规划。
直接芯片冷却在高效冷却当今高密度计算机集群方面取得了显着进步,但是一旦进入更大的计算机房或建筑物环境,就必须考虑整体的建筑性能,基础设施成本影响和在其整个使用寿命周期内总的投资回报率了。
图二:直接片上冷却方案
3、具备密封容器系统的机架行级冷却方案
在2000年代初,冷却开始向数据中心内的服务器机架靠近,主要是由于服务器热负荷的快速增加,以及传统CRAC和CRAH空调系统无法推动足够的冷空气来满足服务器的冷却散热需求。早期推出的方案之一便是机架行级冷却(In-Row Cooler)技术,其是传统CRAC和CRAH的变体,但重新设计了不同的外形,夹在相邻的服务器机架之间。
机架行级冷却方案为较高密度服务器机架提供了却管理冷能力,只需将冷却部件放置在靠近热源的位置即可。来自热通道(服务器机架后部)的暖空气通过机架行级冷却器吸入,由冷水或制冷剂冷却,然后排放到冷通道(服务器机架前部)。通常,服务器的热负荷决定了两种最常用的机架行内冷却器的尺寸分别为12英寸宽或24英寸宽。机架密度越高,服务器机架和行内冷却器之间的比例就越接近。每台5x服务器机架的低密度数据中心可以使用1x 12英寸规格的机架行内冷却器,而对于其他服务器机架的更高密度系统,可能需要1x 24英寸规格的机架行内冷却器。
尽管将机架行内冷却器定位在服务器机架附近可以实现冷却效率的提高,但是曾经占据数据中心周边空间的大型CRAC或CRAH单元则需要被转移到服务器机架之间的可能更有价值的空间。
对于主机托管设施而言,其机架空间与企业的净利润直接相关,因此这种进行成本的权衡变得至关重要。许多大型企业和托管设施还在可重复的网格模式上加载空白区域,从而允许在IT和基础设施设计布局上逐步扩展和统一。如果按规模化部署,可以以这种方式管理机架行内的系统,但是如果用作高密度区域的补充冷却技术,或者在集合的情况下用于支持本地化高密度客户端的冷却,则机架行内系统可能会破坏整个空白区域的一致性,并为负责部署的MEP站点团队带来额外的挑战。
图三:具有热通道密封遏制方案的行内冷却器
密封遏制系统,无论其是热通道还是冷通道,都为行内冷却策略增添了另一种巧妙的方案。热通道密封系统最常用于热通道,旨在将热空气夹在服务器机架后部的过道中。关于设施基础设施所面临的挑战的讨论将被排除在该讨论之外,许多企业已成功克服这些挑战。与本文所探讨的更相关的是热通道密封系统对更高密度IT设备的性能影响,这是经常被企业数据中心管理人员们所疏忽的重大问题。
从热力学的角度来看,密封遏制的热通道有助于实现热通道中的热空气温度的大化,从而使得在机架行内系统进入行内热交换器的热空气与冷水或制冷剂之间具有更大的ITD(初始温差),以便用来去除热量。这增加了机架行内冷却器系统的性能和效率。然而,这种策略未能解决当今最新的密集型IT设备的极其重要的气流要求。每千瓦计算功率的空气流量可以从80cfm到130cfm不等,这不仅仅是由于计算机制造商的不同,而且还会因CPU和GPU制造商的不同而变化。目前可用的大多数(如果不是全部的话)行内冷却器在这些情况下均会存在气流不足的情况。
通常,在部署完成之后所发现的问题往往是热通道中的热空气的热堆叠效应。看到热通道的目的是捕获热空气似乎是很明显的。然而,更重要的关键点则是行内系统必须能够移动服务器排放到热痛到的相同流量的空气。任何不足都会导致服务器风扇的背压,以前称为堆叠。热堆叠往往会在服务器风扇上产生过多的工作负载,尽管更有问题的情况是芯片级产生的过热。热堆叠迫使CPU和GPU退回,限制了计算级别的性能,实际上会破坏计算机的设计性能。即使安装后的纠正不是不可能的,这种情况也会相当困难。在高密度IT设备上部署带有密封系统的行内冷却器之前,企业数据中心的MEP团队,IT运营团队和客户(如果适用的话)应共享设计成功的行内冷却策略所需的相关数据。
背板换热器
在制造和使用HPC集群和高密度服务器机架的过程中,背板换热器(Active Rear Door Heat Exchangers,ARDH)越来越受欢迎。ARDH能够在几乎没有基础设施变化的情况下从服务器机架中移除100%的热量,从而提高系统效率和便利性。这些系统通常与机架无关,并能够取代任何行业标准服务器机架的后门背板。他们利用一系列高效风扇和冷却水来消除计算机系统的热量。电子换向(EC)风扇用于匹配CFM中的服务器空气流量,以确保从服务器中移除所有热量。
一款ARDH在57F-75F之间使用清洁水或乙二醇混合物,这在大多数数据中心通常都很容易获得,如果没有的话,可以利用冷冻水厂,闭式冷却系统如冷却塔,干式冷却器或这些系统的组合来生产。利用ARDH允许将高密度服务器机架安装在现有计算机房中,例如主机托管设施或传统数据中心,并且几乎不需要改变基础设施,对周围的计算机机架也没有任何影响。
背板换热器可以为每台计算机架移除高达75 kW的功率,并能够随着集群经历多个更新周期,为企业用户提供大量的扩展功能。这些系统一旦部署,通过监控内部服务器机架温度和外部室温,为数据中心所有者提供相应的优势,确保维持热中性环境。
最近,服务器制造商的实验室测试发现,添加ARDH实际上降低了机架内计算机的风扇功耗,而并未抵消ARDH风扇阵列的最小功耗。虽然这初略看上去是违反直觉的,但深入研究表明,即使在高密度工作负载下,ARDH风扇有助于使得服务器的风扇消耗更少的能量,并且性能更好。测试还表明了硬件性能提高,从而延长了服务器的预期寿命。
ARDH提供对机架后部的完全访问,可以安装在顶部和底部供水配置中,提供进一步的灵活性,无论是否使用高架活动地板,都可以集成到新的或现有的设施中。大多数主机托管机构都希望吸引广泛的潜在客户,这使得ARDH成为数据中心冷却的一个方便且具有战略重要性的选择。冷却方案可以根据需要随时随地的快速部署,而不会影响周围的机架或相邻客户。ARDH可以在整个数据中心或更高密度区域进行规模化部署。
图四:位于俄勒冈州波特兰的Infomart数据中心的LinkedIn服务器上所部署的机架冷却系统
结论
企业数据中心已经成为当前许多大型财富500强乃至100强企业运营的支柱,特别是当考虑到当下最为火爆的网络规模化商业模式的情况下。大型主机托管设施已经大大超越了过去那些仅仅只是为客户提供简单的服务器管理的传统商业模式,其现在通常作为外部投资者的复杂金融工具。对于企业和主机托管数据中心而言,应注重特别设计方面的考虑,这些数据中心现在在推动企业利润方面发挥着不可或缺的作用,同时还希望能够更进一步的降低操作风险。这些曾用于分析金融投资的财务条款,但现在在描述新的数据中心建设所将涉及到的风险回报时也经常听到。
当前,CPU和GPU芯片技术的演变大约已经经历了18个月了,这意味着计算机性能升级和密度还将增加。在考虑更新之前,主机托管和企业基础设施通常预计有10到15年的使用寿命周期。由于这两条趋势线很少相互交叉,因此数据中心设计团队必须考虑能够与其所需的相关IT设备相媲美的计算机冷却系统。最近在这些关键设施中,每平方英尺的建筑设计轮廓的总瓦数方面得到了太多关注。每平方英尺所消耗的瓦特数的计算和模拟计算流体动力学(CFD)设计很少考虑高密度IT设备的大规模部署,限制了这些机架在彼此靠近和相邻的低密度IT设备上按比例的安排。每台机架级别25kW及以上的服务器机架的普及程度很容易超过传统冷却技术的成就,并且暴露了大量数据中心的准备不足,而这些数据中心无法很好的管理当今最新计算机的冷却要求和许多主机托管客户的要求。
目前有几种可靠的技术可用于冷却当今的高密度服务器,而企业数据中心必须选择一种高效实用的系统,该系统可匹配相关建筑的冷却基础设施,以及未来的更新策略和预算顺利运行。冷却这些高级计算机的工程和设计计划应该在选择采购相关计算机系统之前或同时进行,因为现在的企业经常利用冷却系统本身来确保最佳和有保证的计算机性能,以及确保对于所签署的SLA协议的遵守。