云计算时代,CSP在实际业务的推动下发展出了迥异于传统数据中心的云数据中心,催生了新形态的整机柜服务器。云数据中心是开放的,OCP、ODCC以及后来的Open19等三大开放社区的发展让云数据中心技术完成了产业化升级。当前,5G、边缘计算、物联网等新一代信息技术开始规模普及,云数据中心面临二次升级挑战,整机柜服务器也不例外。在由浪潮信息和OCP联合主办的OCP China Day上,来自OCP基金会、LinkedIn、百度、Facebook的专家分别介绍了Open19、ODCC天蝎项目、Open Rack 等多种整机柜服务器开放标准最新版本的开发工作。
由浪潮信息和OCP联合主办的OCP China Day
前不久5G运营牌照正式发放,中国正式进入了 5G时代。伴随着技术的升级最明显的变化就是信息服务消费价格的降低,3G时代,1GB流量要1000元,到了4G时代就只有30多元,等5G铺开,可能只要几角钱。流量价格的自由落体式降低,意味着终端接入量的提高,意味着数据中心数据负载还需要承受跨数量级增长的访问压力。
整机柜服务器,一个目标,不同表述
3G和4G时代是云数据中心形成和高速发展的时代,也是整机柜服务器的高光时代,专为云数据中心所设计的整机柜服务器从零起步,几年时间已经成为全球数据中心主要的服务器形态。OCP、ODCC开放计算社区所推出的Open Rack和天蝎开放标准成为整机柜服务器的事实标准,Open19社区发起较晚,所制定的Open19有自己的特色,但是规模仍不能与前两个标准相提并论。
5G时代,移动互联网规模还会进一步膨胀,物联网会迎来真正的大发展,这一切都将推动下一代云数据中心技术的发展,数据中心提高规模还将大幅增长,成本还将大幅降低,尤其是单位负载的处理成本。
在前不久召开的OCP China Day活动上,OCP基金会CTO Bill Carter与百度服务器系统架构师赵杰等系统分析了整机柜服务器未来发展趋势以及三大社区下一代整机柜服务器开放标准的发展情况。
三大开放标准的缘起差异
三个整机柜服务标准技术虽然技术并不复杂,但其中的每一个技术点,都是CSP以及服务器厂商长期技术实践的精华。ODCC成员浪潮在2010年就开发了第一款整机柜服务器,这款产品采用节点竖插设计,集中供电和集中散热,但是没有打开市场,浪潮对产品进行了重新设计,推出了1.5版本以及2.0版本,从竖插变为横插,才形成大规模销售,直到今天,浪潮服务器仍占有天蝎服务器60%的市场份额。
三个标准各有侧重,天蝎和Open Rack都以解决大规模和超大规模CSP数据中心的需求为主要目的,采用了21英寸机柜宽度,两个标准开发和发布时间也十分一致,在此过程中,双方交流密切。因而两个标准的内容一致性较高,所产生的差异主要源于中美的实际需求。丁瑞全说,当时中国机柜供电电流只有12A-16A,远远弱于美国数据中心,中国需要在总功率限制下来提高设备密度,还有,基础建设中美差异也很大,所以Open Rack采用了集中供电,节点内散热,而天蝎则采用了集中供电和风扇墙式的集中散热,风扇墙的方式能够降低风扇功率,而且节省出来的功率可进一步增加设备数量。
Open19试图走出不同于OCP和ODCC的道路,Open19针对传统数据中心用户群体,希望在传统19英寸宽度的基础上,改进设计,让传统机架提高设备密度,所以,Open19标准的普适意义是强的。
高压供电,液冷,打破物理硬墙
现在三大标准在提升设备密度方面已经走到了技术的尽头,现代数据中心机柜供电功率技术上都可以提高到20KW以上,但是这种功耗已经触及到了空气散热的物理上限,要继续提高设备密度,必须引入散热效率更高的液冷方式。OCP China Day大会上,Facebook技术负责人Steve Mills系统讲解了最新的Open Rack 3.0整机柜服务器规范,新的规范在12V供电基础上引入48V AC&DC供电,上一版本仅支持12V供电。新版标准的机柜可以支持的总功率为15KW-33KW,为了支持33KW的高功率,新标准还增加了液冷散热组件,同时机柜高度从41OU增加到44OU,大重量从1400Kg提高到1600kg,这样可以进一步提高数据中心的空间利用率。
Facebook技术负责人Steve Mills
支持EIA 19英寸标准
另外,相比于上一个版本,Open Rack3.0支持了21英寸和19英寸机柜宽度,相应的新标准的设备高度单位也同时采用OU和标准U,此前OCP只使用自己的节点高度单位OU。
此前OCP推出了Open Bridge来解决用户传统19英寸设备的部署问题,帮助用户完成向21英寸的过渡。显然随着OCP市场规模的扩大,越来越多的传统行业用户和中小互联网公司加入进来,这些用户采用的仍然是EIA 19英寸的规范。OCP不得不重新考虑对于EIA 19英寸规范的态度。
数据中心机柜EIA 19英寸规范的历史比计算机产业还要长,ATNT公司在1934年制定了该标准,只是为了放置发报机和收报机,12年以后人类第一台电子计算机ENGIC才被发明出来,这个标准直到今天仍然被大多数数据中心所采用,成为事实标准。相比于IT技术的高速创新,标准升级的速度之慢令人难以置信,这也进一步说明OCP、ODCC、Open19等开放计算社区的价值不可低估。
Open Rack3.0涉及到了液冷 、高压供电等新技术,很多细节仍然待定,所以,该标准仍未正式发布,处于公开征询意见的阶段。
小步快跑的天蝎标准
Open Rack3.0相比于2.0版本,进步是跃升式的,高压供电、液冷以及支持19英寸都是非常大的改进,相比之下,ODCC的天蝎标准升级则是“小步快跑”,2011年1.0版本发布,2013年底,2.0版本发布,2016年底2.5版本发布,2019年,3.0版本发布。
赵杰表示,1.0标准实现了整机柜服务的模块化,包括统一的风扇墙、RMC管理以及PSU供电,2.0版本实现了标准化,包括标准的操作界面、参数以及各种协议等,利于生态系统的发展,3.0版本实现了高弹性和正规化,包括更高的功率密度、改进的供电和散热,更好的兼容性、超大规模的弹性部署等。
浪潮8小时交付万台服务器
百度已累计部署了20000多个Rack的天蝎服务器,相比于机架式服务器,天蝎在能效、密度、整体成本等各方面取得了很好的效果,尤其是部署速度,提升最为明显,提高了百度对于业务突发情况的应对能力。2018年,百度仅用不到1个月时间就紧急采购部署了5万台服务器,来支持春晚红包工程,其中最后1万台天蝎服务器仅用8小时就完成了交付部署,百度与供应商浪潮创造了服务器部署的新纪录。
3.0时代,仍是殊途同归
天蝎3.0标准在整体思路上和Open Rack3.0几乎没有区别,支持了19英寸规范,液冷以及48V供电,因为两个标准面临的材料、技术和应用需求都基本一致,两个标准都是在相同的约束条件下,寻求最优解,最终结果一定会趋同。
天蝎3.0与Open Rack3.0仍然存在着一定差异,比如天蝎3.0的每机柜功率在20-30Kw,而不是15-33KW。两者的差异不仅体现了各自对技术理解的不同,也体现了中国和美国用户在实际业务需求和数据中心环境方面的不同。
独特的Open19
Open19社区成立时,天蝎和Open Rack标准都已经升级到了2.0版本,而且Open19标准的宗旨明显不同于OCP和ODCC,不容易向天蝎和Open Rack标准借力,发展比较慢。但是Open19有着自己独特的优势。该标准将基本组成单元规定为统一的Brick,这种物理结构能够更好地适应恶劣物理环境,而且Open19做了更多的可靠性和冗余措施,从而使得open19在边缘计算场景下具有更大的竞争力。
LinkedIn公司全球数据中心架构首席工程师Yuval Bachar表示,“Open19标准使用服务器中具有完全电源隔离的分类硬件。我们没有在机架上共用配电母线,每个服务器都受到单独电源通道的完全保护、监控和启用。电源通道是隔离的,每个服务器都有用于保护的电子保险丝。”
云数据中心2.0,开放计算加速融合
每个时代都会有特定形态的数据中心,传统互联时代出现了基于电信标准的数据中心,云计算时代出现了云数据中心,5G时代会出现升级版的云数据中心,也就是2.0版本,液冷、高压供电、高功率,以及对于异构加速计算的规模化支持,将是硬件设施方面数据中心升级的重要特征。
OCP CTO Bill Carter
未来随着数据中心的进化,开放计算的融合会进一步加速。在OCP技术峰会上,能够展示其他两个社区的标准,足以说明,三个社区拥有共同的宗旨,并且愿意采取一切形式的合作来推动开放计算的发展。Bill Carter明确表示,对于OCP来讲,ODCC和Open19社区是合作伙伴,不是竞争对手,他们可以交流合作,让开放标准发挥更大的作用。
相关阅读: