随着借助软件使得IT容错持续得到改善,当前的数据中心业界越来越倾向于N +1 UPS的架构趋势,而非2N架构。目前,有两种常用的方法用于N +1架构的实现:一起并联多个单一的UPS或借助多个配置为N +1冗余的内部模块部署一个单一的UPS框架。在本文中,我们将为广大读者诸君介绍在内部的“模块化”冗余UPS和并联冗余的UPS之间进行量化时,所需考虑的关键性的权衡要素;并为大家展示当部署了内部冗余之后,其所为数据中心带来的27%的资本成本节约,并使得部署时长缩短了1-2周的时间。此外,我们还将讨论在UPS中的容错对于确保数据中心的可用性、可靠性和可维护性需求得到满足的重要性。
基于其所支持的负载的临界性的不同,每处数据中心均需要实现不同程度的冗余。双路径架构(例如,两个独立的电源路径)能够提供高级别的可用性,维护或故障可以在任何系统发生,而不会对负载造成任何影响。
然而,在今天的数据中心,我们在IT层正看到越来越多的容错通过软件发生。借助诸如虚拟化和超融合等技术,一台服务器出现故障也就同时意味着IT任务也将随之停滞的现象已然一去不复返了。如果一台物理服务器由于上游故障而出现故障运行失败,或需要按计划进行定期性的维护,数据中心能够将业务功能迁移到另一台服务器,另一个pod,另一处机房,或一处完全独立的数据中心。
尽管可用性仍然是数据中心的关键目标,但有些业内人士发现,现在这一目标可以通过诸如在UPS这样的关键物理基础设施系统的N + 1冗余来实现。在本文中,我们将为广大读者准君详细阐明能够帮助您企业实现UPS系统N + 1冗余的不同方法,并量化投资成本、部署时间、效率和可靠性,同时,还将探讨在UPS内部的容错能力对于确保数据中心的可用性、可靠性和可维护性需求得到满足的重要性。
术语的澄清
在许多关于数据中心的讨论中,“N + 1”这一术语经常与各种UPS配置互换使用。下面,我们将定义关键性的术语,以澄清三种具体的“N + 1”配置之间的区别。
l N + 1冗余:实现弹性,以确保在组件发生故障的情况下系统可用性的一种手段。组件(N)至少有一个独立的备份组件(+ 1)。简而言之, N是指我的需求,而1则意味着我有一个备用。
l 隔离冗余:一项特定的N + 1配置。在此配置中,有一个主的或“首要的”UPS模块通常供给给负载。这种配置要求首要的UPS模块为静态旁路电路有一个独立的输入。 “隔离”或“辅助的”UPS供给给主UPS模块静态旁路,并且是完全卸载的。
l 并联冗余:一个特定的N + 1配置。由多个并联的、规模大小相同的UPS模块组成,共用一条输出总线。并联冗余系统需要UPS模块的容量和模型完全相同。
l 内部“模块化”冗余:一个特定的N + 1配置。这是我们在这本文中所定义的一个新的术语,因为其目前尚缺乏共同的命名;在这一配置中,“+ 1”在UPS框架内部发生,一般是在电源模块级别。在这一配置中,有一个共享的背板、控制系统和电池厂。
在本文中,我们将为大家重点比较并联冗余和内部“模块化”冗余——两种N + 1配置,其中的“+1”组件是积极有效的(而不是待机)。下图1概念性地展示了“+1”在每种情况下的发生。
图1 并联冗余和内部“模块化”冗余在概念上的差异
配置细节
为了突出强调在选择一款无冗余UPS与一款N + 1 UPS时的权衡取舍,我们已经分析了三种具体的配置。在这三种情况下,我们选择了1MW的额定容量。
1、基准的1N配置:一款单一的1000 kW UPS,没有冗余(由四个“内部”250千瓦模块组成);属于基本情况2、内部“模块化”冗余N + 1配置:一款模块化的1000 kW UPS,包括五个“内部的”250 kW模块(其中四个用于容量和一个用于冗余)
3、并联冗余N + 1配置:三款500 kW UPS “框架”配置作为并联冗余(两个用于容量和一个用于冗余)
基本的1N配置
借助一款1N UPS设计,任何组件的故障都需要转移负载到UPS旁路或环绕旁路。最简单的例子是一款单一的UPS额定支撑整个负载。某些UPS被设计成模块化和规模化,而某些则是具备固定的容量。我们所分析的1N UPS是一种模块化设计,由在一个单一的框架内的四个250千瓦的模块组成,以达到1000千瓦的额定容量。1N也可以由多个单元并联在一起以共同实现所需的容量来实现。下图2展示了我们所分析的1N UPS.
图2 基本的“N”配置
内部“模块化”冗余N + 1配置
与在基准情况下所描述的一样,模块化的UPS也可以通过添加额外的电源模块来提供N + 1冗余。参见下图3.这种内部模块化冗余N + 1配置与配备了额外的一个第五250千瓦模块的基准情况是一样的。电池系统由四个并联的电池组成,每个电池都有自己的断路器,所以在一个电池的故障不会导致整个电池系统的瘫痪。如该图所示,UPS输出总线和电池(DC)总线是为所有的模块所通用的,因此它们代表了需要转换到环绕式旁路的UPS系统的单点故障。
图3 内部“模块化”冗余配置
并联冗余N + 1配置
下图4显示了我们所分析的第三种情况。在这种情况下,三款独立的UPS并联在一起,共用一个输出总线。每个UPS的容量为500千瓦,所以第三个UPS是“+1”冗余。如该图所示,借助一个并联的冗余配置,每个UPS有其自己的电池系统(每个由三个并联串组成),其提供了一个额外水平的冗余,其在模块化UPS中并不存在。 UPS输出总线仍然代表一个单一故障点,在这种情况下,与其它两种配置所不同的是,输出总线是在UPS外部且是现场安装的。
图4 并联冗余配置
注意,有时并联冗余UPS的部署具有一个共同的电池组。这样做的好处在于节省成本(较少的电池费用),但是,该配置现在在容错性/可靠性方面更类似于内部的“模块化”配置。下面的分析假设每个UPS都有其自己的电池系统。
资本支出比较
在一般情况下,内置到UPS配置中的冗余越多,其成本就越昂贵。这对于那些为一个特定水平的冗余制定业务案例的数据中心管理者们而言是具有挑战性的。如下,我们将对上述三种配置进行一个资本成本分析,以帮助数据中心的决策者们进行成本/收益的权衡。
方法和假设
当估计每种设计的成本时,我们使用了配置的详细单线图。资本成本包括了材料和安装费用。安装成本包括劳动力和所有的电缆、管道、吊架、钎柄等,材料成本包括UPS、维修旁路柜、输出断路器、电池系统及组件装配服务。我们已经排除了输入断路器,因为其通常被假定为安装在建筑内部。
未包括在本分析中的额外的成本费用有:缆绳装备、存储、持续的维护和空间费用。即使是为每种配置的一个理想的布局,较之其他两种配置,第三种配置也将需要约25%以上更多的空间,这代表了当建筑数据中心空间时,所带来的额外的节省。
分析的关键假设是:安装成本是基于弗吉尼亚州北部的美国平均电气设备安装率。
所有电线被置于电气金属管(EMT)内。
UPS的输入开关距离主开关设备15米(??50英尺)。第一二种配置采用1600A 3线缆+ 接地线;第三种配置采用2000A 3线缆+ 接地线。
UPS距离UPS输入开关3米(10英尺)。 第一二种配置采用1600A 3线缆+接地线达到1000千瓦的UPS,而第三种配置采用800A 3线缆+接地线达到均为500千瓦的三个UPS.输出UPS开关设备距离UPS 3米(10英尺)。第一二种配置采用1600A 3线缆+ 接地线;第三种配置采用700A 3线缆+ 接地线。
环绕(维修)旁路距离为6米(20英尺)。第一二种配置采用1600A 3线缆+ 接地线;第三种配置采用2000A 3线缆+ 接地线。
负载距离UPS输出开关15米(50英尺)。第一二种配置采用1600A 3线缆+ 接地线;第三种配置采用2000A 3线缆+ 接地线。
调查结果
下图5总结了三种配置的资本成本之间的差异。如图5所示,内部的“模块化”冗余是128美元/千瓦(26.9%),资本成本比并联冗余配置低,而基线情况是29美元/千瓦(6.1%),资本成本比内部“模块化”冗余低。
图5 三种配置的成本/千瓦时比较
下表1按主要费用类别提供了对每种设计的估计费用的更进一步的细分比较。所有费用均归到额定UPS容量的成本/千瓦。虽然在大小容量的UPS之间的每千瓦成本是有差异的,但该表格提供了关于各种不同方法之间的相对成本差异的合理指导。
表1 成本比较的详细结果
部署速度
除了N + 1配置之间的资本成本的差异,对部署的速度也有影响。如下,我们将讨论一个单一的UPS的安装较之一组并联冗余UPS的安装进度。
一个1兆瓦的UPS的典型安装需要大约6-8周的时间跨度(包括关键步骤之间的缓冲)。这段时间内发生的主要活动包括:l 安置UPS系统房间的准备,包括清洁垫的准备。这项活动按计划通常需要分配一个星期。然后,在房间准备与交付期间通常有一个星期的缓冲时间,以确保房间交付真正准备好。
l UPS的交付和装配。一个1000 kW的UPS系统通常非常笨重。 此步骤一般需要分配2至3天的项目进度。
l UPS管道的运行。这项工作需要大约一周的时间。
l 线缆和终端配置调试。这项工作通常在日程安排中分配一周的时间。
l 启动和测试。项目进度表一般需要在UPS的完全连接和调度启动之间安排大约一周的缓冲。这是考虑到在安装过程中可能出现的任何意外的问题。然后需要一个星期的测试。
对于1N设计和内部的“模块化”冗余UPS而言,这些安装步骤都是相同的,一个例外是在框架中增加一个额外的电源模块。因此,安装成本是相同的。对于一个并联冗余的UPS配置,其中大量的UPS必须并联在一起,典型的部署时间要多1 – 2 周或并联系统需要25%-30%的更长的时间。安装、配置和保证各单位之间通信的多单元安装设置的额外现场工作如下:l 更多终端用于更多的电源l 更多设置到位的单位l 更多单位的启动l 更多单位加载到测试l 并联和同步检查l 更多的测试/执行程序l 更多的控制线和监测点。
借助一个模块化UPS,多个内部的“模块”可用于增加容量或冗余,上述工作列表在出厂设置中完成,这不仅节省了时间,同时也提高了结果的可预测性。除了更快的初始安装,模块化的UPS具有能够随着时间的推移以最小的工作实现规模化扩展的能力,使得添加新的UPS到非模块化设计只需要几个小时而无需几天或几周的时间来布线及调试。
对效率的影响
一款UPS的能量效率是取决于其所操作运营的负载。而且,由于增加冗余意味着增加额外的(备用)容量,冗余可以对效率产生影响。假设1000千瓦额定容量有80%的负载,这是一个典型的阈值数据中心的操作运营设置,在本文中所分析的UPS配置将以800kW的负载操作运营。下表2显示了对每种配置对于负载百分比的影响,并以这一假定的负载为前提。
表2 配置对UPS负载的影响
但是,任何低负载的特定UPS的效率,其实是因制造商、模型的不同而异的,并应进行调查作为规划过程的一部分。下图6展示出了两款UPS曲线——一种在轻负载情况下,比全负载的效率要低得多(左图),而另一个则具有一个相对平坦的曲线(右图)。左图中的UPS具有较大的固定损失,这会导致其在较轻负载情况下效率下降,在这种情况下,增加冗余,会带来更多的电力成本。让对于右图中的UPS,添加冗余会对能源成本的影响可忽略不计。事实上,最佳效率的载荷范围是在40-60%内。而在《使大型UPS系统更高效》一文中,则详细介绍了效率曲线的更多背景及数据中心运营点对能源的影响。此外,一款权衡工具(UPS效率比较计算器)可帮助对比两种不同的UPS曲线,来分析其对于效率和电力成本的影响。鉴于能源消耗成本对于数据中心而言是一项非常重要的判决准则,因此,对于UPS预期的运行负载进行评价是相当重要的。配置中所添加的冗余越多,操作运营负载的百分比越低。
图6 效率和负载之间的百分比关系。左边的UPS在轻负载时的效率要低得多,右边的UPS有平坦的曲线。
风险容忍度
基于其所支持的应用程序的重要性程度的不同,每处数据中心均有不同水平的风险承受能力。正如我们前面提到的,通过像虚拟化和超融合技术,使得IT层的容错能力持续得到改善。基于所部署的技术,以及对于硬件停机成本对于业务(定量和定性)的了解,不同UPS配置的成本溢价和可用性的改进,可以就UPS的冗余水平作出一个适当的决策。
成本分析表明,从一个1N设计到内部的“模块化”N + 1冗余设计有一个小的溢价(6.5%),而从内部的“模块化”到一个并联冗余N + 1设计则有一个更大的溢价(36.8%)。如下,我们将定性的讨论三种配置的停机风险。下表3总结了这些风险。
表3 停机风险比较
借助1N设计,在UPS或其电池内的任何故障都将带来一个到静态旁路的转移。在这种操作模式下,一款实用程序的故障会影响到IT硬件。
借助内部的“模块化”冗余,现在有一个备用电源模块,使得一个单一模块内的故障不需要转移到静态旁路。相反,单个模块本身会脱机,而负载仍然由其他活动模块备份。失败的模块可以通过在环绕旁路安置整个UPS在稍后被替换。然而,在这个设计中会有一个单点故障。例如,电池系统中的一个故障失败(如电池断路器跳闸)将强制转移到静态旁路,因为只有一个单一的电池组。同样,如果UPS需要预防性维护,负载将被切换到静态旁路或环绕旁路,二者都不受电池的保护。
借助一个并联冗余UPS配置,对于停机会有一个额外的保护。因为多个独立的UPS都有其自己的电池组,在单个UPS或其电池内发生故障时,负载可以留在受保护的UPS电源。但是,这又带来了一种新的危险,通过控制、通信和电缆阻抗,以确保负载在整个UPS是共享的。在本文中,我们将聚焦于一个N + 1配置,其中N = 2,但根据所需的总功率和选定的UPS的规模,N可以大于2.随着N的增加,不仅成本和部署时间会增加,可靠性也可能会由于所有UPS在所有工作模式下平均分担负载的挑战的增加而下降。
人为错误对各种配置的可用性也会有影响。设计中所涉及的安装领域的工作越多,停机风险越大。
人为错误
安装过程中的现场工作越多,人为错误就越有可能导致更大的停机风险;而在出厂设置中所完成的工作则更加可预测、更可靠。
在本文所介绍的三种配置,考虑了输出总线上的故障(将导致重大故障的负载)。借助一个模块化UPS,该总线是在UPS内部,因此,是在出厂时安装的。而在并联冗余UPS的情况下,输出总线在现场被安装,这增加了由于人为错误所导致的停机的风险。
一款UPS的容错属性
容错使得一款系统能够在某些组件出现故障的情况下继续工作(在本案例情况下,即继续支持IT负载)。某些UPS被设计为有更高水平的容错能力。当数据中心在选择一款UPS时,考虑其容错设计属性是非常重要的;特别是如果所选的架构是由一个单一的UPS框架所组成的(如配置1和2)。下面是容错设计属性的示例:l 电源模块冗余(逆变器/整流器)
l 风扇冗余l 控制器电源冗余l 电池组冗余l 通信总线冗余l 控制系统冗余l 静态开关大小比预期的大载荷更大,以适应高峰/阶跃负载的IT设备和下游的PDU通过在传统的UPS系统解决关键单点故障的临界点,一旦数据中心需要更高级别的冗余(如2N),就可能能够依靠这些机制,确保关键负载的运行。下图7是以这种理念所设计的UPS容错的一个例子。
图7 施耐德电气公司具备容错设计属性的UPS系列:Galaxy VX
一个普遍的看法是,物理上分开的机箱需要隔离故障,但其并不总是关于物理分离,而是关于内置于机箱盒子里的防御水平。
结论
随着“N + 1”成为数据中心的一个更常见的UPS架构,理解并权衡不同的方法就变得更重要。这样,数据中心的决策者们才有可能基于他们的风险承受能力、资金预算和时间进度安排制定最明智的决策。
在本文中,我们探讨了两种常见的N + 1部署(并将其与1N设计进行了对比)方法在资本成本、部署时间进度安排、效率和可靠性方面的差异。主要结论概述如下:l 成本:内部的“模块化”N + 1冗余的UPS配置较之一个1N设计的资金成本溢价为6.5%.而并联冗余N + 1配置较之内部“模块化”N + 1冗余配置的资金成本溢价为36.8%. l 部署时间进度安排:较之部署一个1N设计或内部“模块化”N + 1配置,并联冗余配置的部署需要多出大约25-30%的时间。这是现场安装、设置、配置,并确保单独的各单元之间的通信所需的额外的工作所导致的结果。随着时间的推移,并行冗余配置增加容量也需要更长的时间。
l 对效率的影响:冗余会对一款UPS的运行负载百分比产生影响,这意味着其对效率和电力成本的影响。然而,在今天许多UPS的设计均具有非常平坦的效率曲线(较低的固定损失),其效率峰值在部分负载时。这使得这种影响可以忽略不计。
l 风险容忍度:较之内部的“模块化”配置,并联冗余配置将为数据中心负载提供更高的可用性。内部的“模块化”冗余设计处于1N和并联冗余设计之间。当选择一个UPS时,考虑设计属性所导致的UPS容错是非常重要的。
内部的“模块化”冗余在为一个小的成本溢价规避风险方面提供了显着的收益,并且对于效率和部署时间进度安排方面相对没有影响。并联冗余UPS提供了更高的风险规避,但在成本和部署时间方面有更高的溢价。最后,要交由数据中心的决策者根据他们的业务需求在不同的设计配置之间进行权衡取舍。