相信大多数进过数据中心机房的人都会对里面嗡嗡作响的设备留下深刻印象,吵是风冷数据中心的一个共同特点,因为风冷需要借助风扇带动气流,气体流动会发出声响,令人厌烦但也无可奈何。而在浸没式液冷数据中心里却是非常安静的。除了安静外,液冷其实还有很多好处,比如能效更高、更可靠等,代表了数据中心行业的最新发展趋势。
与风冷相比,液冷是一种革命性技术,才刚刚开始应用,特别是如何规模化部署和应用还缺少经验可循。阿里巴巴是第一个吃螃蟹的,2018年阿里巴巴在其张北数据中心部署了全球首个浸没式液冷服务器集群,将这项技术真正带到了生产环境。经过一年多的运行,阿里将这些经验进行了总结并对外公开。
1月6日,阿里巴巴宣布将《浸没式液冷数据中心技术规范》向社会开放。这项规范用一套标准流程为下一代绿色基地型数据中心的建设提供设计依据,通过液冷技术的普及,降低全社会的能耗水平。如果全国的数据中心都采用液冷技术,一年可节省上千亿度电。
再大的风也无法吹凉滚烫的“芯”
随着云计算、移动化和物联网等技术的广泛普及,数据中心产业迎来了高速成长。在中国,数据中心市场的增速高达30%以上,远高于全球(10%左右)。数据中心行业的高速发展意味着不断增长的电能消耗。数据显示,数据中心行业每年的用电量已经超过了三峡大坝的年发电总量。
与此同时,我国数据中心的低能效也日益凸显出来。根据中国信通院的统计数据,全国超大型数据中心平均PUE值1.63,大型数据中心平均PUE值1.54。为了提高能效,国家和各个地方政府陆续出台了不少鼓励建立绿色数据中心的相关政策,对PUE的要求越来越高,比如,北京和深圳都要求新建数据中心PUE值低于1.4,上海要求PUE值低于1.3。
事实上,数据中心PUE值要降到1.5以下,对于传统风冷数据中心是非常困难的,不借助其他技术手段(比如自然风、水冷)很难达到。而液冷技术可以显著改善PUE值,浸没式液冷技术可以让PUE值达到1.1,甚至接近于1,就是说几乎没有致冷方面的用电消耗。
另一方面,随着大数据和人工智能的大规模使用,对算力的需求有了大幅提高。更大的算力意味着更大的能耗,也就意味着需要更高的致冷需求。比如,传统机架的功率密度一般不超过8KW,刀片服务器让一个机架很容易超过10KW,而一个部署了多个GPU卡的机架功率密度可能高达20KW,甚至30KW,这么高的功率密度已经超出了风冷技术的制冷能力(100W/每立方英寸)。面对这种高计算密度的应用,以液冷取代传统风冷是必然之选。
阿里巴巴吃“螃蟹”
液冷技术大体可以细分为冷板式和浸没式,相对而言,浸没式液冷技术能解决高计算密度的散热问题,还取消了空调和风扇,无需考虑风流的组织,土建也更为简单,机房噪声也得以解决,具有一定优势,因而受到更多关注。
为了改进阿里巴巴数据中心的能源利用效率,阿里巴巴很早就投入液冷技术的研究,并于2016年推出了全球首台浸没式液冷服务器,此后一直持续不断改进和完善,最终于2018年将这项技术正式投入生产,在阿里巴巴张北数据中心中建成了全球首个上千台机柜规模的浸没式液冷服务器集群。该集群支撑了阿里巴巴几乎所有主流的业务,包括连续两年的“双11”,阿里云部分业务也跑在这个液冷集群上。
一年多的运营,浸没式液冷具有的高能效、高密度、高可用、高可靠等诸多优点得到了充分展现。比如,阿里张北数据中心采用浸没式液冷技术制冷的机柜功率密度为30KW,如果需要提升到60KW或者100KW也完全不是问题。而传统风冷机房机柜功率密度超过10KW的都不多见。
“由于液冷的热传导效率比传统的风冷要高百倍,因此能突破传统风冷致冷能力的瓶颈,得以让单机柜功率密度提升了3倍。”阿里巴巴基础设施事业部首席架构师&IDC总经理高山渊表示。
更高效的制冷还带来设备的较低温度运行,这有助于提高设备高可靠性,再加上取消风扇后没有了震动进一步提升了设备可靠性,浸没式液冷技术让设备故障率下降了50%。另外,浸没式液冷的机柜具有更高的功率密度意味着能容纳更多的设备,加之少了空调,因此浸没式液冷数据中心相比传统风冷数据中心空间也要更节约。这些都为阿里巴巴降低运维成本,更好地支持业务提供了很好的基础。
“如今云成为IT技术创新中心,浸没式液冷则是数据中心支撑云计算创新的发动机之一。”高山渊评价说。
高山渊透露,接下来阿里巴巴会用3-5年的时间继续完善液冷技术和产业生态,使液冷能与风冷互相替换,也就是在能够部署风冷的区域都可以部署液冷。而最终的目标是,淘汰风冷技术,把液冷变成默认配置。
对外开放,普惠社会
虽然液冷的优势显而易见,但真正应用的企业却是凤毛麟角,即使那些在数据中心领域有非常大技术投资的互联网巨头也并没有真正规模化应用这项技术。背后的原因在于,浸没式液冷用液体取代空气进行换热,和风冷技术相比,是革命性的变化,不只是散热方式的变化,涉及到数据中心的整体设计和如何高效利用液冷,怎样才能大限度释放技术红利,无论是技术还是产业生态都面临非常多的挑战。
“要真正规模化应用液冷技术有诸多问题要解决。比如,不导电的液体有很多种,哪种液体合适长期使用呢?IT设备放到液体中是否能长期稳定的工作?甚至如何运维等,都需要我们长期的测试和研究。”阿里巴巴基础设施事业部资深技术专家钟杨帆在接受采访时表示。
为了让这项技术落地,阿里巴巴做了大量工作。“这其中大挑战就是这个领域几乎空白,没有标准可以借鉴。”钟杨帆表示。
由于没有任何标准,也就没有生态,市场上就没有能浸没液冷环境下的IT设备出售,包括服务器、网络设备、存储、光模块以及电源等无一不需要阿里巴巴和供应商们一起共同摸索,中间经历很多波折。
“我们踩过的坑希望其他人就不要踩了。”钟杨帆说。如今这些经验都汇集在向社会开源的《浸没式液冷数据中心规范》之中,可供参考和借鉴。该规范涵盖了浸没式液冷数据中心的设计、施工、部署、运维等各个环节,包括机柜接口标准、出线方式、电源标准、冷却液的安全、稳定性、电性能要求等,甚至用于运维的移动吊臂也在其中。参考阿里巴巴的这个规范,通过一体化设计和合理规划,能有效降低部署成本,提升稳定性,从而早日让数据中心走上高效、清洁、集约的绿色发展道路。
“对阿里巴巴来说这是把我们的看家本领开放给业界,我们希望大家一起共建生态,让企业能够更大规模去部署,让整个社会享受到科技普惠的力量,来共同促进绿色数据中心产业壮大,最终实现整个社会的绿色发展。”高山渊表示。
他说,这是阿里巴巴的责任,阿里巴巴有条件、有资源、有责任成为IT创新的担当,向社会分享技术红利。
【凡本网注明来源非中国IDC圈的作品,均转载自其它媒体,目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。】