2021年4月29日-30日,首届湾区数字经济产业发展论坛--暨“技术定义数字基础设施”第十六届中国IDC产业年度大典(深圳站)在深圳隆重召开。本次会议由深圳市工业和信息化局指导,中国通信工业协会数据中心委员会、广东省数据中心产业联盟、深圳市数字经济产业促进会联合主办,中国IDC产业年度大典组委会、中国IDC圈承办。大会吸引了众多数字经济、数据中心产业的主管领导、专家学者,以及众多从业人士参加。同时,大会开通多个线上直播渠道,供无法到达现场的网友同步观看。

大会第二天的“数据中心建设与技术创新论坛”上,阿里云技术有限公司首席散热架构师炽平(钟杨帆)以阿里云的实践为基础,为大会带来题为《数据中心液冷技术创新及产业化》的分享。

阿里云技术有限公司首席散热架构师炽平(钟杨帆)

阿里云技术有限公司首席散热架构师炽平(钟杨帆)

炽平(钟杨帆):大家上午好!谢谢主持人,谢谢大会主委会的邀请,给大家做一个专题分享。接下来我给大家分享的主题是阿里云在数据中心液冷技术的探索和实践以及产业化的推动。主要分为四部分:

首先,我们看一下背景和挑战。我把过去十年多国家在绿色节能数据中心这一块的政策做了大的汇总。国家工信部到地方政府,在数据中心的绿色政策在不断的加强,数据中心作为一个数字底座纳入新基建,对于绿色节能的要求日趋严格。国家发改委最近的政策要求2025年大型数据中心PUE要求小于1.3。北京、上海、深圳陆续推出了相应的政策,所以我们可以看到数据中心未来的发展趋势,节能是重要的前景。以及现在新基建的规模越来越大,国家提出碳中和的要求。

第二,我们看一下全国IDC能效现状。信通院在中国数据中心大平台发布的PUE热力图显示,不同地区采用不同的技术和不同的环境条件,整个PUE差距很大。从数据中心的升级以及下一代的演进来看,我们对于节能这一块还有很多工作要做。

第三,从我们本身数据中心内在的驱动来看,首先是服务器,数据中心主要是承载服务器的稳定工作可靠,从过去40年的趋势来看,服务器性能在不断提升,服务器本身的功耗也在快速增长。如果我们做一个推演,一个传统机柜42U,放满1U的服务器,一般功率15千瓦,满载的时差不多达到25千瓦。随着服务器的快速演进,其功耗密度在不断增长,未来在某些应用场景下会达到超过40-50千瓦甚至更高。AI应用、大数据对于GPU应用场景的需求,功耗在实际应用超过单机柜的50千瓦以上。机架功率密度快速增长是未来明显的趋势,我们阿里针对不同单机柜功率密度做了不同数据中心的探索和实践。为了满足业务快速的需求,风冷未来难以满足单机柜以及服务器性能快速发展的挑战。尤其是像CPU、GPU等高功耗、高性能,其规格也在不断降低,这是很大的挑战。

数据中心承载服务器的运行,除了服务器的能耗外,还有额外的供电、制冷消耗大量能耗。从工信部的发展指引来看,整个中国的PUE还是很高的。作为学术中心、新基建的基石,它本身的能耗也在快速增长,到2030年预计中国数据中心的能耗规模达到4000亿千瓦时,数据中心的能耗比较大,如何实现优化,这是我们在新技术探索 时面临的一个问题。我们在做下一代数据中心的预算节能方面,不仅仅要考虑解决高功耗的计算问题,还要解决能效问题,同时成本要更低更优化,另外是我们整个系统,包括服务器等都要更加可靠。带着以上四个问题,我们不断在数据中心进行探索。

第二部分是为什么要用液冷?除了能效、节能外,浸没式的解决方案是未来在制冷、能效各方面最终的革命性的解决方案。采用液冷它是空气的1000倍以上,用液体代替空气本质上可以解决服务器内部的高功率、高密度计算环境带来的挑战问题。

服务器液冷本身不是最近几年出现的新技术,最近十几年应该有更多新技术出现,也是百花齐放。简单来说,液冷是通过液体、水代替空气,将我们IDC里的发热器件的热量全部带走。有很多种方式,比如间接的路线,在超算数据中心比较多的,门板式的、风叶式的,我们要探索一项液冷技术要结合实践场景,实现云计算、互联网等高可靠性以及大规模部署。

我们对于未来采用什么样的液冷技术,从2015年开始做了一个实验,做相应的探索和验证。从数据中心制冷架构分析,从空气冷却到板级液冷、局部液冷,从数据中心架构来看是逐步在做减法。从原理来看,相对于风冷,不仅全部浸没在液体中,也可以实现完全没有冷机、没有空调,服务器本身没有风扇,所有跟风扇相关的都全部去除。这里面完全做了极致的减法,可以解决能耗和成本的挑战。

另外,从液冷支持的对比来看,基于我们服务器的配置我们做了三个方案进行验证。传统服务器的组成,里面有很多部件,包括CPU、内存、光模块、硬盘等组件组成,采用空间冷却,所有东西都是通过风扇传递热量,把热量带走。冷板的方式是局部把高功率发热器件带走。浸没液可以把所有的部件通过液体带走,实现高效的热量的传递。

2015-2018年我们在张北液冷数据中心规模化部署之前,做了一个不同冷却技术的实验,从可靠性、液冷支持、散热性能、可维护性、可靠性、性能、能效、噪声等各方面维度进行实验及验证。在实验室里做一个新技术的原始创新可能发现不了问题,只有做大规模部署的时候才能发现一些问题,针对问题做进一步的迭代和演进。一项技术能否大规模部署,主要是能否实现高可靠性。对于我们云计算7x24小时,365天不间断的场景,一定要做到单点冗余,出现故障后大规模的停机、维护,这是最主要的考虑。另外在散热性能上,以及我们的服务器一般是三四年一代,我们数据中心应该运行十年以上。我们服务器的功耗每一代都在快速增长,我们的机房能否支持几代服务器演进,一项技术不仅仅要满足一代,还要考虑未来的可扩展性、可演进性。我们认为浸没实验在云计算数据中心里是比较好的技术创新,是实现高能效、高密度、高可用、高可靠的要求。

一项技术的演进,现在在可靠性方面面临大的瓶颈点,我们针对振动、温度、粉尘和潮湿进行研究,这是目前主要造成环境设备失效的因素。其实大部分失效的部件如机械硬盘,占70%以上,其他的内存卡、模块等也是容易失效的。硬盘零故障率跟温度有比较强的关系,温度越高,硬盘的失效率会迅速增长。未来我们的业务要求可靠性越来越高,就需要减少或者消除这种环境因素,比如温度、振动、粉尘、潮湿。采用全部的液体浸没式方案可以完全隔绝空气,实现温度大幅度降低,因为没有风扇和气体的流动,也可以完全去除振动的影响,再也没有粉尘、灰尘、潮湿的影响,对于IDC长期运行的稳定性来说是大幅提升。

第三部分介绍阿里在这方面的技术创新。作为全新革命性的技术变革,我们在大规模部署时不得不面临四大主要问题:

第一,基础设施。前面谈到不仅仅是某一个方面,单独一个领域做变革或者微小的创新,我们是全局的考虑,把数据中心作为整体考虑,将基础设施和服务器融合在一起,达到现有技术的同等可靠性。

第二,IT设备和以前相比发生很大变化,放在液体中是否长期稳定工作?

第三,我们知道冷却液有很多种形式,是不是不导电就完全可以用,我们需要对冷却液做量化和参数化,满足不同应用和不同业务的需求。

第四,运维。高功耗加上高密度,对于风冷数据中心来说设备变得更重,设备太重以后,我们采用什么方式解决高功耗、高密度的运维?这些是在液冷技术环境下面临的四大技术挑战。

我们针对每一个部分不断创新和优化迭代。

在数据中心里我们不仅仅针对局部优化,而是把数据中心、基础设施、服务器、IT设备网络融合在一起,整合为一个整体全局优化,做极简设计。

在IT设备上我们完全适配液冷使用场景的设备,结合场景设计全新的浸没液设备,包括浸没化电源、浸没设备等。

冷却液,有上千种冷却液,我们围绕其信号完整性、长期可靠性、传热特性做了很多实验验证,做了选型的量化数据,适合我们在未来的数据中心应用里可量化。

在运维上要做到极致便利。像中间的存储设备,几十台存储设备可能达到120公斤,我们传统的运维需要四个人,尤其是很多时候机柜不能上很高的地方,在液冷的话,它不像风冷横着放,它要竖着放。我们设计了可遥控移动机械运维工具,单人通过遥控的方式就可以实现快速高效的设备上架及运维,大幅提高运维的效率和上架速度。我们传统的风冷在运维上效率会更高。

在整个液冷数据中心做了减法后,除了跟风冷数据中心做供电、机房管路外,浓缩起来就像一个浸没液的系统,包括液冷机柜以及相应的设备,没有冷机和空调,形成一个极简的方案。

最后是产业化。我们回顾一下过去阿里作为移动互联网企业,在冷却技术方面的探索。从2000年小机房时代到大型水冷,2015年我们在张北建数据中心的时候采用新的技术直接新风,2020年部署液冷数据中心的大规模使用,不断挑战数据中心节能,进行整体考虑以及最优化。风冷和液冷是并存的,液冷会进入更大规模的应用。基于我们的应用场景来看,液冷技术是未来的大势所趋,接下来几年内进入并存的发展时代。

这是阿里云数据中心在液冷技术的发展旅程。从2015年从做小规模实验室做PoC探索,2018年有首个液冷IDC建成,几千台服务器的建成,2020年几万台规模的拓展,不断的技术演进、迭代,探索目前更大规模面临的挑战和问题,探索适合云计算发展的需求。

2018年张北部署数据中心机房的要求,除了机柜外没有其他的空调、风冷都没有了,做到极简。

我们去年在仁和部署的整栋楼的数据中心,获得首家5A级数据中心绿色等级,做到2、3万台的规模。通过2018年的商业化使用,至今接近三年,我们对于三年的运行数据不断监控和对比,发现液冷技术在数据中心里大规模部署有四个最主要的价值:

第一,高密度。前面谈到我们通过液冷技术打破空气冷却散热的瓶颈和功耗的瓶颈,可以轻松做到100千瓦以上的能力,完全可以解放我们现在对于IT设备集散能力的限制,可以充分发挥计算的潜力。

第二,高可靠。通过实际的运行,我们拿同样的机型在风冷和液冷下的数据整个部件失效率对比,发现液冷的服务器功能部件,失效率比风冷低50%,大幅节省了运维成本,提升业务运行的稳定性。

第三,高能效。我们不仅仅追求PUE的降低,更是站在数据中心和服务器整体的角度上来看如何实现整体能耗降低。PUE里,数据中心的能耗一直是5点几,对比来看,IDC本身没有风扇、没有电源,温度也比较低,从1降到0.9。冷机降低后,整体会降更多,用简单的数字进行对比,用PUE1.63和1.09对比,可以看到整体下降了40%左右的能耗。

第四,高可用。我们以前很多风冷里节能的技术依靠于气象条件,而液冷数据中心可以部署在高温、高湿、灰尘、污染环境,包括海边,都可以无差别布局,能保证长期稳定的工作。很多未来边缘场景也可以大幅广泛应用。

我们在整个生态推动方面更加开放,去年1月份的时候我们联合ODCC,结合阿里在张北长期运行的实验开展了规范发布,我们希望更多的合作伙伴一起和我们加入进来,一起探索和研究,如何在未来使液冷技术在数据中心里实现更广泛应用。

在生态层面我们带头创新,根据创新的经验不断总结,实现规范,然后我们不断扩大规模,在规模中不断扩大整个产业的形态,最终促进产业更大的发展,从而使这项技术在整个行业、全球都能实现普惠。随着阿里在这方面的研究、规划部署,全球的头部企业,如微软、谷歌也在加入这个领域,也在不断跟我们合作,进行探索。

最后,我觉得绿色数据中心是不断持续创新的,它是绿色开放共赢的,不仅仅是某一家,最终是整个行业带来节能以及绿色的价值。我们希望共建液冷产业生态,助力新基建快速的发展。谢谢大家!

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-07-21 09:43:58
2023-07-08 18:35:00
2023-06-30 11:01:00
国内资讯 两大白皮书重磅发布,行业指南深度解读,你不容错过的IDCC2023大湾区论坛
报名参会的从业者将有机会在IDCC 2023大湾区论坛现场免费获得纸质版《粤港澳大湾区(广东)数据中心产业高质量发展指南》《数据中心冷板式液冷测试验证技术白皮书》和《存 <详情>
2023-05-04 17:29:44
市场情报 平台赋能技术创新,阿里云天池持续助力全球顶尖算法大赛
“顶会”“期刊”一直以来都是学术领域最重要的前沿技术分享阵地。在计算机领域,全球顶会也代表着来自世界各地的顶尖算法创新竞赛。 <详情>