中国IDC圈1月7日报道,1月5-7日,第十届中国IDC产业年度大典(IDCC2015)在北京国家会议中心隆重召开。本次大会由中国信息通信研究院、云计算发展与政策论坛、数据中心联盟指导,中国IDC产业年度大典组委会主办,中国IDC圈承办,并受到诸多媒体的大力支持。
中国IDC产业年度大典作为国内云计算和数据中心领域规模大、具影响力的标志性盛会,之前已成功举办过九届,在本届大会无论是规格还是规模都"更上一层楼",引来现场人员爆满,影响力全面覆盖数据中心、互联网、云计算、大数据等多个领域。
中国移动研究院大数据与IT技术研究所副主任研究员、技术经理;ODCC多节点服务器项目经理唐华斌出席IDCC2015大会并在数据中心设施与运营论坛发表主题为《面向新一代数据中心的“天蝎”多节点服务器》的精彩演讲。
中国移动研究院大数据与IT技术研究所副主任研究员、技术经理;ODCC多节点服务器项目经理唐华斌
以下为唐华斌演讲实录:
我这个题目讲服务器,我看了一下ODCC整个议题,跟之前讲的确实有些不一样。我今天是两个身份,一个是ODCC多节点服务器项目经理,一个是中国移动的。我们用大量的服务器,但是我们也不卖服务器,今天也不卖奖品。
既然来到这个讲台,首先还是要谈一下数据中心的。虽然我平时不做数据中心,但是我也会关注数据中心。从我们做上层业务,或者做服务器的角度来说,数据中心我们只是把它看作一个为我们应用,为我们服务器提供的一个运行的环境来支撑我的业务的正常的高效率、低成本的运转。在一个数据中心里面,可能前面谈的更多是怎么把数据中心建好,把供电、智能、机房,一个机房做的有多么好。但是,当它没有摆服务器的时候,我甚至觉得它只能称作一个机房,不能叫一个数据中心。我所理解的数据中心是从一个最底层的基础设施到最上层的应用的协同考虑的一个系统。就是Google一直倡导的Datacenter And computer这么一个概念,对一般公司来说,60%到70%甚至更多的数据中心的成本和功耗都是耗在服务器上面。所以说,很多时候如果我们抓住服务器这个大头,怎么样让服务器更好的去做的高效,做的低成本,实际上对云计算最终效率的实现是一个很大的帮助。
从服务器的角度来说,我们到底需要什么样的云计算?传统的数据中心强调机房的可靠、安全、高标准,但是是由专门的数据中心或者IT数据中心基础设施部门来规划和设计的,它跟IT是相互割裂的。比如举个例子,数据中心机房前面讲到每个机柜应该设计多少千瓦。这个显然你上面放的服务器的数量不一样,你这个供电力度就会不一样。但是,我们之前很多时候是机房先做好了,然后大家说OK,可以放服务器了,三千瓦,甚至更低的,放不了几台就满了。新一代数据中心的一定要跟IT系统做协同,在满足需求的情况下,实现整个数据中心,我刚才讲的整个所谓的全栈的系统的优化。
主要体现在几个方面:第一、可用性与TCO的平衡。刚才有专家说到T1到T4的分级,每一个Tier往上升一级,意味着可靠性非常大的提升。但是同时也意味着成本的更大的提升。我们经常说的一分钱一分货,一毛钱两分货。但是,对于一个数据中心你建好之后,我相信肯定有对可靠性要求很高的业务,比如通信的、金融的。但是,也有很多对可靠性要求不是那么高的业务,比如中国移动的IDC里面,我们看那些客户,比如互联网公司它放服务器就是用一路电源,或者说服务器只用了一个电源,你的双路冗余,来自于不同电网,不同电站对它来说没有意义,对它的业务来说,为了降低他自己的租用成本,或者服务器的成本,只用一个电源。所以,这个方案肯定是不太一样的。
第二、节能。能耗应该是在整个数据中心里除了前面的建设成本以外占比大的一个部分,通常会占1/4甚至以上。所以说,能耗的降低,或者说PUE的降低,以及服务器本身的节能是一个对新一代数据中心非常看中的一点,或者说我们能看到很多的数据中心它宣传一定会提到我的PUE多么多么的接近于1。
第三、灵活、快速的部署。比如模块化的点,模块化的数据中心等等都是快速部署的一种手段。
最后,自动化的运维管理。在现在一个超大规模的数据中心,大家也知道在座有很多数据中心的服务商,一定曾见过是千数万个机架这种超大规模的数据中心,同时里面会放着上万,数十万,应该在中国的单体数据中心的容量可以达上百万,你怎么样去快速的部署自动化运维管理,都是值得考虑的问题。
所以,作为一个数据中心的用户,这么大的数据中心,这么多服务器,我们对于服务器的要求我总结主要是三点。第一、规模越来越大,当我一次的,就是中国大的服务器用户每年的采购量可能在10万以上。每次采购量可能到5万左右,要把这些服务器交到一个数据中心,一般不会采用左边的一台两台去拼,太累了。所以,用整机柜,一个大的机房的交互方式一定会越来越流行,采购部署和运维的基本单元变成了一个机房。也许这个将来可能还会涨,更大规模将来就是一个集装箱,或者一个机房的模块。我觉得趋势应该能看到,随着现在云计算服务的提升,IT越来越向云服务商集中,也许我们看到那种趋势。功耗成为重要的组成部分,就是从服务器,从数据中心角度都要降低功耗,对于服务器来说,共享电源的设计理念会逐渐流行。另外,高密度的数据中心,20千瓦的数据中心每个机柜也都不少,我的服务器要能够适应这么高的密度。还有采用GPU的新的服务器,它的功耗密度比较高。
其实这个标题应该再纠正一下,就是这个不光是说数据中心对服务器的要求,反过来说,服务器和数据中心是一个协同的。服务器的发展也同时会要求,应该说会有越来越多的数据中心朝这个方向示意。
我今天讲的多点服务器也是天蝎的一个系列产品。实际上天蝎大家一定会知道天蝎的整机柜服务器,在天蝎是由百度、阿里、腾讯最早发起的一个整机柜服务器的定制的合作项目。2011年成立,2012年的时候天蝎第一批的整机柜服务器大量投入使用。2012-2014年,就是天蝎1.0到2.0的初期大概用2500个柜子,去年一年就超过之前三年的总和,是3000个柜子,总计大概近20万台的服务器。那么,天蝎使用的效果是非常明显的,就是因为大家都知道像百度、阿里这些公司,它虽然很有钱,但是在数据中心建设方面还是能省就省的,互联网就是传统。在TCO方面他们有一个评估,就是10%到20%的降低。大家不要小看这10%到20%,对于他们这样规模的公司,一年至少几个亿。第二、交付效率大大提升,相比于传统服务器提升10倍以上,每天提升500-5000台左右,这样需要把网络、电源做好就可以了。第三、故障率也下降了很多。总的来说,对于用户来说,带来大量的好处。
所以,天蝎整机柜的普及,我相信对于在座很多数据中心的服务商应该也都跟他们有所接触,包括中国移动,我们现在跟BAT他们接触的时候,他们都会希望我们数据中心你不要把什么东西都做好,或者说你把外围的基础设施做好,但是整个机房的标准都是按照天蝎服务器的各种要求,包括电梯、地板等等,这样能够非常快速的交付。我相信这也是对于数据中心方案的一个促进,毕竟这些都是数据中心的一个很大的租户。
刚才讲整机柜服务器那么多好处,相比来说多节点服务器应该就是,我在ODCC多节点工作组沟通的时候,我个人认为多节点是介于整机柜和原来传统的通用服务器之间的一个产品。之间意味着什么意思呢?就是它的效益应该会比整机柜略差一点,但是通用性和灵活性会比整机柜好一些。比如说,对于不同行业,不同规模的,或者采购部署比较分散的这些客户,它的力度比较小,比较方便去采购,去部署。对于不同的数据中心,各种功率密度,各种机柜尺寸,有机柜的或者没有机柜的,都需要在这方面部署,所以它的灵活性更好。其实在这之前有很多供应商或者客户也都在批量的采用多节点的服务器。
中国移动大概在2014年底的时候在ODCC发起了天蝎多节点服务器的项目,并且我作为项目经理,领导这个产品跟供应商一起沟通,到开发到现在有一些产品在规模的使用。作为ODCC服务器中的两类项目,这两类服务器在设计理念,技术要求等方面也是为了推动产业链一起来完成一个面向行业的开放的标准的一个方案。
后面的参数比较枯燥一点,配置方面是基于英特尔的平台,涉及计算型和存储型两类机型。应该说相对之前比较典型的天蝎服务器的节点来说,我们在有些方面也做了一些加强。比如说硬盘都是支持热插拔,而且有单独的启动盘,有拓展的PCIe插槽,这样从面向更多业务或面向更多企业应用场景的一些高可用的业务来说,它的设计会更好一点。
这是它的形状,跟上一个演讲嘉宾4U的电源的模块是类似的,它也是4U,节点是竖插的形成。存储型4U4个节点,计算型4U8节点。当时做这个机型真的很不容易,已经把面板和机器里面所有部件能抠的都抠了。为什么做4U的高度呢?我们想做更高的示范和运营。太高不是太灵活,所以我们最后确定4U。
既然是一款全新定制的服务器,所以我们最开始统一了对它的要求。比如包括所有指示灯的位置,它的含义,它的颜色,它的量,或者含义,也尽量与天蝎服务器节点保持一致。也就是跟天蝎整机柜服务器一样,虽然供应商有很多家,但是对于用户来说,我买到的符合这个标准的服务器,我的整个的外观,不管现场运维还是远程运维,甚至其他的一些特征都可以做的非常一致,这样可以大大的提高现场运营的效率,降低可能出现的错误。
现场运维方面,比如热插拔,有很多也是通用服务器支持的。稍微讲一点,除了风扇和电源以外其他的操作都在服务器的前面板或者冷通道完成,也就是日常的服务器因为我们会在冷通道来做,这样结合将来数据中心的一些方案可能会做一些优化,比如机房可以做热通道的处理。
功率密度方面,相对通用服务器提升一倍,甚至两倍之多。这个数据是我们最近评测的一个数据,我们采用多节点的设计之后,相对通用服务器到底是不是有我们期望的功耗的降低。发现和传统的1U或者2U的传统服务器相比,计算型大概8%左右,存储型大概超过4%。基本上符合我们之前对于它的一个期望,因为我们实测天津整机柜的服务器高大概13%左右,平均大概能达到10%左右。
所以说,去年一年我们ODCC的项目组一直在这个方面做一些工作,我们通过ODCC的委员会去跟供应商讨论技术方案,征求意见,最终是在去年11月份的峰会上发布,目前技术方案已经成熟,大家左边看到它的照片,目前国内的已经入围在某运营商,同时在国外的金融类公司也已经投入使用。
最后,把整个参与我们这个服务器产品开发的公司都放在上面了,特别感谢BAT,特别是像英特尔公司的大力支持。谢谢大家!