为什么这么热

这个话题之所以这么热,无外乎来自这么几个原因。

第一个经济原因,但是谈到PUE也好,空调的电费也好,制冷系统在数据中心里面所占据的能源消耗,所产生的费用是大头的一块,基于这个原因,大家也希望能够把制冷这部分做的更加高效、更加节能,从而降低整个运营成本,这个是经济性的考虑。如果单从整个数据中心的能效提升来讲,其实有很多不同的技术路线,大家也看到从原来的房间空调、列间空调、自然冷却、通道封闭一系列手段都是在提升数据中心制冷效率技术的进步,如果把整个数据中心PUE的目标照1.2左右的水平为优化目标的话,就有相应的一些技术和选择性就没有那么多了。目前看到达到这种水平的,用一些全新风制冷或者完全自然冷源,比如在一些极寒地区、深层湖水等等这些冷源的地区能够达到这样的水平,但这些往往会受地理环境和自然环境的限制。那么真正能够标准化,不受地域环境限制标准化推广化的技术,液冷可能是其中一个趋势之一,所以我想这是为什么液冷在这几年热度这么高的第一个原因。

第二个原因确实是整个的计算单元,CPU、GPU功率密度不断的在提升,现在CPU已经占200W左右,GPU更高,300W左右。前面我们谈的数据中心大的更高效制冷的技术方案,能够解决数据中心整体制冷能效,但是对部件级的热点可能没有办法做到很好的管理和保障工作环境的作用。对于这种特别高热的热点,也需要有一种更突破性的,更有效的热管理的方法,我想这是第二个液冷技术这几年热起来的原因。

第三点整个用户的应用,我们也看到整个IT行业的应用,不断有新的应用在涌现出来,这两年可能特别热的,比如人工智能、大数据、深度学习等等,但是也有相互关联的,这些是目前最热的应用,甚至IT企业你要不说自己做人工智能都不意思说自己是IT企业了。这些应用当中,拿深度学习举例,最典型的案例,阿尔法狗具备了三天之内从完全没有围棋知识的一台机器,具备了能够打败人类强围棋手的能力,这个过程是一个深度学习的过程,这个过程需要大量运用GPU的计算力,在这些应用当中,除了GPU、CPU本身的功率很大,同时很多应用场景会大量、高密度应用GPU、CPU,所以这个带来了,所谓热岛也好或者怎么样也好,已经没有一个更有效的制冷方式去解决的话,已经阻碍了这些应用系统的运转,所以这个时候我想液冷技术发展,近几年新兴起来特别受到关注的第三个原因。

液冷技术发展的现状

接下来跟大家讨论一下液冷技术发展的现状,实际上在去年我们也在讨论,但更多是分享了一些理论方面的东西,今年我们看到是市场产业化进展的方向,所以在液冷分类我们提到很多种分类,今年主要还是按照这两种产品形式分类维度往下开展我们的话题,第一个在分类里面提到叫冷板式,冷媒跟元器件产生换热,冷媒跟元器件并不接触,第二是浸没式,直接接触的。这两种制冷模式应该说目前的市场上我们都看到有很多的应用,它的优劣势我简单做个分析。

首先第一个看到市场相对比较多的,已经产业化产品化的叫冷板式的,之所以它最先产业化是因为它对整个服务器系统的变化比较小的,只要是把原来的电子元器件上的散热片通过冷板替代掉就可以实现,但是服务器的结构会做一些小的调整但是并不大。然后变化完以后,比较符合服务器原来风冷系统的操作维护习惯。第二个优点对冷媒要求比较低,因为密封在箱体里面,不与元器件直接接触所以可以有多种冷媒的选择。比如像质优价廉的水都可以作为冷板式液冷服务器冷媒的选择。第三点是它的产业链相对完备,虽然冷板技术应用到大规模商用系统里面是近几年出现的,但冷板自身这个技术在市场已经出现很多年了,所以相应的产业链和技术成熟度相对是高的,但冷板与浸没式相比的缺点,第一它是通过冷板金属板去跟电子器件发生热交换,会中间是有传导热阻,效率会低于浸没式,第二个比较难以解决服务器内部全部的散热。我们会看到有全冷板的模式,其实是会带来用户的维护非常不方便等等其它方面的牺牲,所以绝大多数还是通过冷板式来解决关键部件的散热。整个空间散热想要通过冷板式液冷全部解决,是有一定复杂度的,这也导致用户在机房里面可能有两套系统一套传统的风冷系统,还有通过液冷解决,这是它的缺点。

浸没式最主要的优点第一冷媒和元器件直接发生接触,会有更强的制冷能力,第二它可以相对比较容易一次性把整个服务器全部的热量带走,第三它可以实现超高的高密度的主板设计。以往服务器主板都是根据风冷时代来设计的,就要求高发热部件之间不能挨的太紧,等等一系列的设计规范障碍,包括冷板式也不能很好解决这个问题。但是浸没式更高的制冷能力,可以实现这个主板非常高密度的排布,后面我们看到一些应用,浸没式液冷服务器主板的一些变化。但浸没式液冷的缺点换热机理是比较复杂的,实现技术难度比较大,这也是为什么冷板在2015年已经量产化了,但是浸没式预计在今年可能才实现量产化,另外一个缺点是易维护的特点对设计提出了非常高的要求。

我们先来看一下冷板式的原理图。

微信图片_20190114122538

通过这边的接触板,每家设计不同,但是不管怎么样,一定会有一个板去跟电子元器件进行接触,这是外部冷源,一般采用的是冷塔,外部冷源,整个系统往往也会设计成两个循环,通过分液器分到机柜里面,再分到服务器里面,服务器的热量传递到机柜外,跟二次冷源进行交换,设计体系基本上是这样的系统结构。

冷板服务器发展现状

微信图片_20190114122652

IT和非IT的厂家都先后推出了自己冷板液冷服务器样机或者原理机,绝大多数是在2015年前后,真正实现标准化量产,目前还是比较少的。这是液冷服务器的一些关键技术,为什么元器件出来了,样机出来,为什么不能标准化量产,除了市场原因,还有关键技术的原因,冷板液冷服务器里面最专业的技术,首先是分液技术,包括热插拔技术,在产品设计阶段都要考虑的,但是另外更关键的技术是要对用户未来的应用产生关键影响的两个技术,这个是需要靠相对多的产业化的经验和运维的经验来实现的。第一个是防泄漏技术,我相信一定会有防泄漏系统,但真正的安全等级如何,这需要长时间验证。第二个防腐蚀技术,刚才说对冷媒的要求低,但并不是没有要求,特别是冷板式的,管路非常精细的,这里面可能采用适当的冷媒,甚至采用水是不是有其他的问题,导致管路的一些腐蚀,从而引发管路系统一些问题,这些都是靠比较长时间实验积累才能真正完成产业化。

这个是曙光液冷服务器发展的历程,前面的研发阶段就不用介绍了,实际上在2015年曙光是国内第一个真正推出来了标准化量产冷板液冷服务器,2017年冷板液冷服务器已经升级到第二代,在第一代产品只验证支持去离子水,第二代可以放去离子水和氟化液。

从2015年推出来以后,也是得到了用户的高度关注,并且获得了广泛的应用,从国内来看冷板式液冷服务器绝大部分案例,特别是大规模的,基本上还都是曙光服务器应用比较广泛,其中影响力比较大的,比如像中科院大气所的地球模拟装置原型机,国家气象局的新一代的高性能计算,国家电网的电力仿真等等,这几个里面都是应用很大,大概千台左右级的应用部署,包括金融领域的用户,如建行也已经使用。在2015年发布的时候只有一个案例,今年我们已经有很多新的案例涌现出来。

刚才介绍的冷板液冷服务器,接下来更新的浸没式的,相比冷板式,浸没式它的制冷能力更强,所以应该算是在向更高阶段发展的话,浸没式是下一个阶段制冷高模式。

我们又有分类,大概分类的方式,一种类型是按照制冷的原理,有相变和无相变,虽然都是浸没在那里面,但液体并不蒸发,并不沸腾,我是靠液体的温度提升进行热交换,相变是指液体产生沸腾,通过沸腾把热量带走,这两种来讲,相变的散热能力比温升的散热能力高出了百倍,如果按制冷原理来讲,浸没相变式是液冷制冷最终极的形态。如果按系统模式分的话,主要考虑用户的维护性,可以分成单片浸没和池级浸没,池级浸没里面可能放很多片服务器,从产品形态会有这两大类的分类。目前来讲整个浸没基本还处在研究阶段。

浸没式液冷的发展现状

也有一些厂家纷纷推出自己的产品,我们看到更多是原理验证机,连样机都还没到,右下角这张图在全国来看是真正浸没式液冷服务器跑系统的,这是一个个人用户自己去定制的液冷服务器支持比特币挖矿机。还有intel联合制冷厂家一起做的实验。左下角这是国内某知名互联网企业做的浸没液冷的验证机。

在浸没液冷里面也有一些很关键的技术需要突破,这里面最关键的几个技术。

第一个是冷媒元器件材料兼容性。浸没一两天是看不到变化,但是长期运行,一台服务器使用周期寿命可能是五年,是否会有相溶性的问题?曙光从2012年开始做整个液冷的研究,所以每一种新的材料器件我们要求做到一万小时冷媒和原材料相溶性的实验,新的冷媒和新的元器件的验证。第二信号传输特性,电信号特别是高频信号在液体里面传输信号是不同的,在有的时候想象服务器只要它绝缘,原来怎么工作还怎么工作,确实不是这样,会带来一些信号传输上的失帧,带来性能的偏差,所以这方面我们还要做信号传输变化特性的研究,以及一些优化的设计,做一些针对性的,有些可以做材料的变化,有些不能做材料上的变化,所以在设计这些方面要去做一些优化。易维护的系统结构也是商业化很重要的考量的点,其他都是必然标准要配备的。

曙光浸没式服务器从2012年开始研究,从去年我们已经逐渐从研究阶段进入到了产品化阶段。这是我们自己每年制作的样机、验证机,很多在座的展会上也有人看到过。这是我们最早的一台浸没式的原理验证机,这里面元器件现在已经运行超过五年的时间了,同时也在做材料的验证。这是2015年我们推出来第一台液冷自动维护系统样机。这是2016年做的池级的非相变的原理验证机。从去年开始真正逐步进入到产业化的阶段,2017年推出来了第一台真正交付商用全浸没相变式的液冷服务器,叫I620-M20,这个是国内第一台真正商用化全浸没液冷服务器,应用到华中科大的项目上,实现批量采购冷板式液冷服务器的同时也采购了全浸没相变式应用于其健康大数据项目平台建设中。它目前还是单台应用,真正全系统的浸没式液冷服务器的部署,首先给大家汇报一下进展,实际上大规模的部署百台以上的全浸没相变液冷服务器的部署我们已经完成了,曙光正在研发的,也是国家十三五期间重点的科研课题,下一代超级计算机原型机里面已经部署完毕,整个超过500个节点,这是比较大的批量验证了。然后预计会基于这个原型机的部署,在这个基础之上进行标准的产品化,大概在下半年会让大家看到。我判断这可能是全球第一台可以实现大批量部署浸没变相液冷服务器的标准化产品,谢谢大家。

相关阅读:

浸没式液冷数据中心,你听说过吗?  

液冷数据中心,真好用吗?

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-12-18 17:49:00
市场情报 openEuler Summit 2023:汇聚全球创新力量,共建开源新生态
创新项目是openEuler社区发展的推动力,开发者是社区可持续发展的能源。 <详情>
2023-12-18 09:08:00
国内资讯 共话“算力+金融”探索创新 金融行业算力中心高峰论坛隆重举行
他表示,大模型在金融领域的应用,目前还处于探索试点的初级阶段,仍面临多方面挑战。 <详情>
2023-12-15 15:37:00
市场情报 份额36.8%!欧拉位居中国服务器操作系统市场第一,累计装机量超610万套
欧拉是面向数字基础设施的开源操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景。 <详情>