一、关于PUE
在数据中心能效评估领域,PUE(Power Usage Effectiveness)一直是数据中心的效率和绿色节能减排的重要衡量指标。在文中,通过研究和最佳实践来探索更准确衡量数据中心的方法和标准,并希望通过这样的探索,让整个数据中心行业能够对效率有更清晰,更准确的认识,进而推动整个数据中心行业效率的提升。
二、PUE的历史,发展和存在的问题
PUE是由Christian Belady最早提出来的,客观上来看,在PUE这个名词诞生之前,在整个数据中心行业,并没有一个标准,无论这个标准或者衡量尺度是否精确,PUE给数据中心行业带来了一股清凉的绿色之风,让整个数据中心行业都关注节能,PUE所带来的影响和深远意义是毫无质疑的。然而,关于PUE,在实际工作中,也发现存在了一些问题和容易混淆的地方。
首先,从定义开始,PUE = Total Facility Power / IT EquipmentPower .什么是total facility power?首先,举个案例:大概3年前,在对行业中的数据中心PUE指标做调查的时候,在和一个上海的数据中心用户交流中,该数据中心用户自己计算的PUE是1.8,这个数字是在客户的新数据中心运行了一年多以后,负载率已经超过了80%,虽然没有完全满载负荷。其实,这样的数据中心的数据已经很难得了,因为中国的数据中心最缺乏的就是基准点和参照点(benchmark),在2-3年之前,没有太多的数据可以追踪,记录和保存,也很难以进行计算和比对。而根据客户提供的电费账单和RPP(电源列头柜)统计的机柜服务器消耗的电力数据,在进行比对后,发现计算出来的结果和这个PUE=1.8存在偏差,计算结果是PUE=2.0.这是为什么?后来发现二者的计算方法的主要分歧在于对于市电引入的衡量点不一样,该数据中心用户用的是380V低压侧作为总电源输入测量点,而PUE=2.0的测量点在10KV中压侧。这样的案例很多,因为,早期建设的数据中心,相对于现在规划,设计和建设的数据中心而言,电力容量都比较小,基本在380V,而最近几年建设的数据中心,通常容量增大,相当一部分客户是10KV引入,并且10KV的引入完全是为数据中心服务的,不和商业建筑混用。这二者之间的大差距在于电力传输中的损耗,即从10KV降压到380V之间的损耗。基于380V引入的数据中心的衡量点是在380V低压,而现在的大部分案例是基于10KV侧的。但是对于该公式而言,并没有定义该从哪个点进行测量。同时,也一些新的技术的采用,如三联供技术,LNG冷源的应用,而这些并不能用total facility power来准确衡量。
集装箱数据中心的PUE值:不难从集装箱式数据中心生产厂家中拿到PUE的指标,该指标通常很吸引人,但是如果仔细的思索一下,去探讨一下该值的衡量点,也会发现类似于第一个案例中所发现的问题,因为集装箱数据中心的电力引入是380V,而不是10KV,有的案例中,你还会发现,关于集装箱数据中心空调制冷被排除在公式之外,或者被包含在IT equipment power中,用经常说的一句话来说“看上去很美”(备注:本文并不是针对集装箱数据中心的PUE进行质疑,关于集装箱数据中心的未来在中国,可以从另外的一篇文章中有所论述,这里只是用来说明对PUE的公式的理解和存在的偏差)
服务器层面的损耗:在现在的公式中,服务器本身的功耗,如散热风扇和电源转换中的电力损失(通常是指从交流220V到直流12V)被计算到IT equipment power中,但是随着服务器厂商和芯片厂商对于服务器节能的最新设计,已经有了一些全新的设计,诸如针对高压直流的定制服务器,如在一个机柜内,将原本安装在单台服务器的风扇从服务器中分离出来(风扇是12V直流供应),而在整个机柜的背部,采用交流机柜大风扇替代。还可以看到,有些案例,将机柜内的多个单台服务器的电源用集中的、基于机柜作为单位的电源进行替代。在这些案例中发现,如果依然采用该计算方法的时候,虽然这些技术的改进和创新,都是针对节能设计的,并且的确达到了节能的效果,但是当计算PUE的时候,会发现PUE不但没有降低,而且升高了,因为把风扇,电源等从IT equipment power中剥离出来,就像UPS的损耗一样来看待。当人们兴致勃勃的看到创新的节能设计被采用,而PUE值不但不降低,而且升高的时候,大家都迷惑了,意识到单纯用PUE来作为衡量指标的时候,是存在一些不足和缺陷的。
以上提出的问题只是部分内容,事实上,还存在一些其他问题,篇幅所限,不能完全展开。
三、国内外行业专家和用户的部分观点
针对PUE存在的问题,美国亚马逊的Amazon WebService的VP James Hamilton提出tPUe来作为衡量数据中心效率的观点。
tPUE =Total Facility Power / Productive IT Equipment Power
关于Total facility power:
数据中心最常用的是10KV,即电气行业中所说的中压,在中国,虽然从电网的结构上来看,可以从35KV直接降压到380V,但根据数据中心常用的架构和最佳实践,这不是一个最佳的技术方案,而在全国范围内而言,除个别新的地区采用20KV的技术外,10KV到用户是最常用的一种技术解决方案,并且,中压柴油发电机和中压UPS技术的引入都是基于10KV这个等级的,因此,这里total facility power可以理解为10KV,而通常即使涉及到10KV是否专供数据中心还是混用,在今天数据中心的电气设计中,在碰到这种情况下,也是按照变压器进行分离和隔离的,因此,10KV来衡量total facility power是可实现的,也是完全可以计算清楚和准确的,不存在异议和混淆。而从国家电网(或南方电网)的计费方式来看,对于工业或者商业而言,对于10KV都有一个专用的计费标准,对于衡量其他指标等,也是比较清楚的。
关于Productive ITEquipment Power:
这里指的是,服务器中真正用于计算部分的电力消耗,服务器本身的散热风扇,电源损耗被剥离,该部分也借鉴了ServerPUE的一个概念和说法,即基于服务器真正用于计算的那部分功耗。
在实际工作中不难发现,即使对于同样架构,同样配置,同样CPU利用率和负载情况下,不同生产厂家的服务器的耗电指标也不尽相同,甚至差距很大,而在传统的PUE算法和公式中,并没有体现出诸如高温服务器,高效服务器电源和服务器本身的节能技术带来的影响,通过剥离该部分,让用户能更清楚准确的看到不仅仅要关注诸如UPS,空调,照明等系统的节能,也要关注服务器设计上的节能,进而推动整个芯片设计,服务器设计和制造行业的节能技术的推广和应用,进而真正全面达到用户和消费者的关注和期望。
四、PUE的创始人对PUE的反思和新的思考
对于PUE,可以看到Christian Belady也正在试图对PUE进行修订,即DCP = Useful Work / Total FacilityPower,其目的是希望能看到真正有用的工作或者计算被衡量。同时,绿色网格组织也陆续出了其他衡量指标,诸如WUE等。
五、本文的观点,探索和最佳实践
固然useful work的出发点是好的,但是几乎很难衡量和测量,这可能也是制约该公式没有被行业中大量采用的重要原因之一,同时,无论是出于各种原因,useful work的定义也存在一些偏差,容易引起歧义。
实际工作中,发现存在这样的金字塔模型。虽然里面的数据在不同情况下,存在着偏差,不能完全放之四海而皆准,但其逻辑关系是正确的,只是数据和数字在不同场景下是不同的,甚至差距很大。
同时,服务器的发展,路线图和技术细节,包括服务器的能耗等,发现了类似下图的逻辑关系。
备注:上图仅仅是一个参考模型,实际情况,由于配置不同,应用不同等各种因素的影响,存在着偏差。
通过研究和行业专家的研讨,和原厂商的技术交流和联合实验室等活动中,希望能够更精确的找到衡量数据中心的效率,尤其是适应云计算的云计算数据中心。并且这些研究对于高温服务器,定制化服务器,共用服务器散热设计的基于机柜为计算单元的服务器,高压直流服务器提供更准确的衡量,更有利于行业的技术发展,为企业创造更大的价值。
本文所推荐的衡量标准是DCP,即Data Center Productivity,其具体公式如下:Data CenterProductivity =Total Facility Energy / Productive IT Equipment Power
六、DCP的精确定义和理解
Data Center Productivity =TotalFacility Energy / Productive IT Equipment Power
Total Facility Energy的解释:在中国,除了标准的市电引入外,也看到一些数据中心也在尝试新能源的应用,如风力发电,太阳能源,三联供技术等分布式能源技术,还有LNG的一些尝试,国家在倡导节能减排,国家电网(或南方电网)也有关于对于电网传输和客户端的一些新技术和创新。因此单纯用Power来衡量,并不能够完全涵盖这些领域,因此,用能源(Energy)作为数据中心的总输入衡量,会更加准确。
Productive IT Equipment的解释:服务器即使在空闲的时间,即并没有真正提供有价值的计算的时候,其本身也是在耗电的,虽然,相对而言比较低,但是在这个时间段,服务器的耗能其实并没有创造生产力,换句话说,是没有真正价值的。所以,本文希望来衡量真正创造价值,创造生产力的服务器能耗。即关注的是真正在进行计算,真正在创造价值的这部分IT设备所产生的能耗。
七、如何衡量分布式能源数据中心的能效?
在去年的时候,对于分布式能源和数据中心结合的案例在中国并不多,而真正投入使用,并有足够的运行数据和模型支撑的又是寥寥无几。但是今年,有几个分布式能源在数据中心开始投入使用。如果数据中心采用分布式能源和电网相结合的方式,能效指标又该如何衡量呢?
这的确是个困境,对于分布式能源,常用一次能源(Energy)利用率或者年均综合能效作为衡量指标,而目前数据中心基本都是用电(Power)作为衡量指标。电(Power)是二次能源,是通过一次能源转换过来的高级能源。
鉴于中国到目前为止,并没有出台国家级别的关于分布式能源的数据中心单位能耗监测标准或者能效指标,目前,只能借鉴国外行业和地方标准的衡量和测试方法。但相信,不久的未来,伴随着分布式能源和数据中心的结合案例越来越多,必然会出台相关的标准和衡量指标。