如果追根溯源的话,21世纪的数据中心扎根于上世纪六七十年代放置大型机的计算机房。这些大型数据中心牢固又结实,用来放置复杂又昂贵的IT基础设施,而这些基础设施需要复杂的电源和冷却系统。现代数据中心起源于上世纪90年代,当时许多公司内部安装了一排排服务器(常常取代之前计算机房里面的大型机)。随后出现了异地托管数据中心,多家公司将自己的服务器放置在各个地方:比如专用房间、可以上锁的柜子或机架。最后,我们有了现在的专用数据中心大楼,处理、存储和连接系统一应俱全,通常提供某种组合的主机托管、管理主机和(公有云、私有云及/或混合云)云服务。
其中一些数据中心是真正的庞然大物。世界上就可用电源和冷却系统能力而言规模大的数据中心是斯维奇通讯集团(Switch Communications Group)建在拉斯维加斯的SuperNap-7,这个主机托管设施占地面积多达407000平方英尺(37811平方米,即3.78公顷)。由于云计算推动市场需要高密度主机托管,于是斯维奇宣布计划将数据中心场地扩大到220万平方英尺(204387平方米,即20.4公顷),从2013年5月开张的SuperNAP-8入手,随后在2014年破土兴建SuperNAP-9。
斯维奇在拉斯维加斯的SuperNAP设施大楼计划扩大面积,数据中心场地总面积将达到220万平方英尺(204387平方米)。图片来源:斯维奇通讯集团
今日,“数据中心用户”既包括亚马逊和谷歌之类的大型IT基础设和服务提供商,又包括连接到互联网的任何企业用户或消费者。然而,出于本文的需要,典型用户是建有内部数据中心的企业里面的IT管理员――其数据中心同时运行传统企业应用软件和已经在使用一些云服务(最可能是SaaS应用程序)的虚拟化工作负载,该用户正在考虑下一步:是扩增内部容量,将更多的工作负载移到公有云,还是采用混合策略?
由于“云”(即外包和外部的)基础设施、服务和应用程序日益得到使用,数据中心的使用目前正在经历一场巨变。据思科公司声称,到2016年,所有数据中心流量中近三分之二(64%)将在云数据中心,而不是在“传统”(即内部)数据中心加以处理。相比之下,在2011年,61%的流量在传统数据中心加以处理,只有39%在云数据中心处理。
数据中心的设计和构建
典型的数据中心是一幢工业大楼,它为放置IT设备以及所有必要的配电、冷却、布线、消防和物理安全系统提供了所需的场地。数据中心通常建在电力和土地成本较低的地区,但又有足够的人力以便为数据中心配备人手(除非是所谓的“无人值守”数据中心,这类数据中心实现远程管理,几乎不需要现场工作人员。)
根据工作负载,Uptime Institute这家数据中心行业联盟按照四级层次体系对数据中心进行分类,并由电信行业协会(TIA)对数据中心进行认证(TIA-942标准)。该标准为每个层次规定了达到既定可用性级别所需要的架构、安全、机制和电信要求:第一层次是99.671%(每年停运时间不超过28.8小时);第二层次是99.741%(每年停运时间不超过22小时);第三层次是99.982%(每年停运时间不超过1.6小时);第四层次是99.995%(每年停运时间不超过0.4小时)。
与数据中心有关的另一个被广泛引用的数字是PUE,即电力使用效率。PUE由绿色网格联盟(Green Grid)首创,它是指数据中心使用的总电力与IT设备使用的电力之比。理想的PUE比是1.0,实际值从2.5以上到1.1左右不等(见下图)。考虑到其数据中心运营的规模之大,谷歌在电力使用效率方面居于领先不足为奇:这家搜索巨擘声称其所有数据中心的“综合”PUE早在2012年第四季度就达到了1.12(之所以称为“综合”,是由于谷歌计入所有电力开销来源,而且一年到头进行测量)。表达PUE的另一个方式就是使用其倒数,即所谓的数据中心基础设施效率(DCiE)。谷歌在这个度量指标方面的得分是0.893,即89.3%。
为了解数据中心领域的情况,Uptime Institute在2011年就启动了一年一度的调查。其在2012年3月份/4月份开展的《2012年数据中心行业调查》对来自北美(50%)、欧洲(23%)、亚洲(14%)和中美/南美(7%)的1100名数据中心管理员、IT管理员和高层主管进行了调查。
调查的重要发现结果包括:30%的调查对象预计数据中心容量在2012年就用完;大多数计划通过合并服务器和升级数据中心基础设施,让现有的数据中心继续正常运行。与2011年的调查相比,2012年计划新建数据中心的调查对象要少10%,计划将更多的工作负载转移到云端的却多10%。
这项调查发现,促使人们采用云服务的主要驱动因素包括降低成本(27%)、可扩展性(23%)、客户/用户需求(13%)以及部署速度(13%)。阻碍人们采用云服务的主要因素有安全顾虑(64%)、合规/监管问题(27%)、成本(24%)以及企业内部缺少云计算管理专长(20%)。
Uptime Institute还发现,企业组织在2012年对PUE的测量比2011年来得更精确,普遍反映PUE有所下降,处于1.8-1.89这个范围。节电策略主要包括:热通道/冷通道遏制和活动地板进气温度(在IT设备风扇电力和冷却能源之间找到理想的折中点)。
Uptime Institute的《2012年数据中心行业调查》声称,来自其1100名调查对象的PUE(电力使用效率)数值差异很大。只有6%的调查对象声称PUE低于1.3。图片来源:Uptime Institute
该调查指出的其他趋势包括:大家对预制模块化数据中心或部件的兴趣加大(9%已部署,8%计划部署,41%考虑部署);开始部署数据中心基础设施管理(DCIM)工具(下文对这些趋势会有详细介绍)。
有多少数据?
有多少数据流经全球的大小数据中心,这方面趋势又如何?自2011年以来思科的年度全球云指数(GCI)就解答了这个问题。在2012年报告中,思科使用来自10大企业和互联网数据中心的网络数据,预测:到2016年,全球数据中心流量每月将达到554艾字节(EB)。顺便说一下,1艾字节= 1000拍字节(PB)= 1000000太字节(TB)。以年度计,这从2011年的1.8泽字节(ZB)猛增到6.6ZB,年复合增长率达到31%:
预计到2016年数据中心流量增长情况(1泽字节= 1000艾字节)。图片和数据来源:思科全球云指数
所有这些数据来自哪里?思科将数据中心流量(包括企业和消费者)分为三大类:仍在数据中心里面的流量,在数据中心之间传输的流量,以及通过互联网或IP广域网从数据中心传输到用户的流量。据思科声称,大部分流量(76%)是仍在数据中心里面的这种流量。
只有17%的数据中心流量估计从数据中心传输到用户。图片和数据来源:思科全球云指数
如果考虑到服务器的工作负载,向云迁移的势头一目了然,思科估计2016年安装的工作负载会有1.806亿个,部署在云数据中心和传统数据中心的分别是62%和38%;相比之下,在2011年的7110万个工作负载中,部署在云数据中心和传统数据中心的分别是30%和70%。
预计到2016年服务器工作负载的位置(服务器工作负载的定义是服务器为运行应用程序和支持众多用户所处理的任务)。图片和数据来源:思科全球云指数。
云数据中心中每台物理服务器的工作负载平均数量预计会从2011年的4.2个增加到2016年的8.5个;至于传统数据中心中使用效率较低的服务器,2011年和2016年估计和预测的数字分别是1.5个和2个。
思科还预测基于云的工作负载的区域分布会出现“权力交接”:2011年,北美遥遥领先,在2140万个工作负载中占37.8%,亚太地区占31.3%;到2016年,亚太地区预计会在1.121亿个工作负载中占36.2%,而北美退居次席,占26.4%。
有一点很清楚,在可预测的未来,企业组织会混合使用内部IT基础设施和外包IT基础设施;而一大根本性趋势就是,位于公有云数据中心的服务的使用量会增加,在亚太地区更是如此。
重新考虑数据中心
那么如何设计出更高效、更具扩展性、更灵活和更安全的数据中心呢?具体来说,IT服务提供商如何才能降低构建成本,获得更接近1.0的PUE,提高每瓦特计算能力,为用户缩短延迟以及减少碳排放量;首先是,它们如何更有效地管理这些复杂系统?下面是影响21世纪的数据中心(又叫数据中心2.0)的几个趋势——