如今,机器学习的兴起导致数据中心的功率密度越来越高,在部署了大量服务器的数据中心中,每个机架的功率密度达到了30kW到50kW,这促使一些数据中心运营商转向液体冷却而不再采用空气冷却技术。
虽然一些数据中心运营商使用液体冷却来提高其设施的效率,但其主要原因是需要冷却更高功率密度的机架。
但是从空气冷却到液体冷却的转换并不简单。以下是在数据中心采用液体冷却技术所遇到的一些主要障碍:
1.需要采用两种冷却系统
欧洲托管数据中心巨头Interxion公司数据中心首席技术程官Lex Coors表示,对于现有的数据中心来说,一次性转换为液体冷却几乎没有意义,而很多数据中心设施的运维团队将不得不管理和运营两种冷却系统,而不是一种。
这使得液体冷却成为新建数据中心或需要进行重大改造的数据中心的更好选择。
但总有例外,对于超大规模制造商来说尤其如此,其独特的数据中心基础设施问题往往需要独特的解决方案。
例如,谷歌公司目前正将其许多现有数据中心的空气冷却系统转换为液体冷却系统,以应对其最新机器学习的TPU 3.0处理器的功率密度。
2. 缺乏行业标准
缺乏液体冷却的行业标准是该技术很难广泛采用的主要障碍。
“客户首先必须配备自己的IT设备,以便进行液体冷却。”Coors说,“而且液体冷却技术的标准化并没有完善,组织不能简单地采用并让它运行。”
Coors表示,Interxion公司的客户目前都没有采用液体冷却技术,但如果有必要,Interxion公司准备为此提供支持。
3. 触电危险
许多液体冷却解决方案主要依赖于介电液体,其介质应该不导电并且不存在触电危险。但有些组织可能会使用冷水或温水进行冷却。
Coors说:“如果工作人员恰巧在液体泄漏那一刻触碰的话,那么有可能就会触电造成伤亡,但是有很多方法可以解决它。”
4.腐蚀
与任何涉及液体管道的系统一样,腐蚀是液体冷却技术面临的一个主要问题。
“管道的腐蚀是一个大问题,这是人们需要解决的问题之一。”Coors说。液体冷却制造商正在改进管道以降低泄漏风险,并在发生泄漏时自动密封管道。
他补充说,“同时,机架本身也需要实现容器化。如果发生泄漏,只是将液体洒在机架上,这样没有太大的危害。”
5.运营的复杂性
Markley Group公司执行副总裁Jeff Flanagan表示,采用液体冷却的大风险可能是运营复杂性增加,该公司计划在明年年初在高性能云计算数据中心推出液体冷却服务。
他表示,“作为数据中心运营商,我们更喜欢简单的技术,而拥有的组件越多,就越有可能失败。当采用液体冷却技术为芯片冷却时,液体流经服务器中的每个CPU或GPU,就需要为冷却过程添加很多组件,这增加了失败的可能性。”
而在运营数据中心时,还存在另外一种复杂因素,那就是将服务器浸没在介电流体中,这对绝缘技术要求较高。