关于可用性的计算
通常在一般情况下,数据中心行业用于计算可用性的公认的公式其实并未真实准确的反映数据中心操作运营现场的实际停机时间。整个数据中心行业也承认这一事实。但是,与之其可能用于支持关键负载的总时间量相比,该行业通常并没有任何其他方法来计算设备“用于服务”的时间量。
业界普遍接受的用于计算可用性的公式如下:
Ai = MTBF / (MTBF + MTTR)
其中,Ai是固有的或隐含的可用性,MTBF是平均故障间隔时间,而MTTR是平均修复时间。
此公式的目的是为了使设备的所有者能够就其UPS系统达到其使用寿命期限,并将停止服务的时间量建立一个合理的期望值。但是,根据名为《大化UPS可用性》的白皮书准确地说明了使用这种方法所存在的诸多问题。最重要的是,这种方法未能将机械设备在检查、一般性维护、故障排除、等待技术员到达或等待零件装运期间实施关闭的时间包括在内。因此,UPS设备实际的服务时间将进一步下降,而其停机中断的实际时间量远大于该公式所计算得出的值。在大多数情况下,对于数据中心的所有者、设施管理人员和维护提供者而言,想要真实准确的计算出某款特定设备的实际服务时间量的确是相当困难的,无论该设备是否是在运行中。存在这种困难的原因就在于设备本身并不能记录服务于企业业务的开始/停止时间,这其中缺乏在实际执行工作任务时向企业组织报告的能力。由此所导致的结果便是:精确确定的一款设备的服务时间段与一款设备实际执行其预期工作的时间段方面存在巨大差距。
而静态UPS系统的制造商们解决可用性问题的一种方式便是通过UPS中的一个静态旁路,将第二电源并入到方程式中。通过这样的方式,上面的计算方程公式就变成双电源。主电源(整流器,电池和逆变器)的可用性现在得以能够与一个静态旁路的MTBF和MTTR耦合。在以下两种情况下,这种解决方案是非常不错的:您企业的静态交换机开关必须传输,而备份电源(实用程序)必须可用。因此,尽管现在隐含可用性更大,但实际的可用性则是相同的。如果UPS脱机,无论工作负载是否来自旁路,UPS实际上都是不可用的。
关于操作的可用性
关于可用性的真正的衡量方法是操作的可用性,在这种测量方法中,一款系统在运行时的总时间被表示为其所需要的总时间的百分比。
AO =正常运行时间/运行周期
该公式考虑了所有可能造成服务中断或造成设备恢复使用延迟的因素。这些因素可以包括从等待技术人员的到来;到等待设备零件的配备等等方方面面。这个公式衡量了企业客户实际经历的停机时间,无论这类停机时间是计划内的还是计划外的。
尽管估计一款设备在发生故障失败之前能够正常运行多长时间(MTBF),以及对其实施修复需要花费多长时间(MTTR)固然是很好的,但这样做的话就不能为一旦一款开始投入服务可能发生怎么的状况提供切合实际的期望。现在,考虑到构成典型的关键任务基础设施(例如,并联开关设备、自动转换开关、开关设备和发电机)的所有附加组件,故而一款关键任务系统的可用性的计算变得非常困难也是相当明显的了。
项目概况
使用Euro-Diesel柴油动态UPS上提供的实时数据,使得计算每款系统中的每个模块的运行可用性成为了可能。 在这个例子中,我们使用了由E1 Dynamics INC.公司在美国打造的第一个项目的数据。 这个为美国联邦政府所开展的项目包括两个阶段。第一阶段涉及在2009年9月委托的一款单一的2,000kVA / 1,600kW柴油旋转式UPS系统(DRUPS)模块;第二阶段,是在2011年8月委托的冗余2,000kVA / 1,600kW DRUPS.该系统最初设计为易于扩展, 使得添加第二模块的更容易。
DRUPS:操作可用性
在DRUPS的正常操作运营期间,工作负载通过一个连接到DRUPS交流发电机的扼流圈进入。 对于被认为“受保护”的工作负载,交流发电机应该是旋转的。 交流发电机有两个电源:第一个是公用供电公司,第二个是柴油发动机。 其中一个或另一个必须可用于交流发电机旋转。
这便是可以计算实际可用性的领域了。该款Euro-Diesel No-Break KS具备在交流发电机旋转期间,跟踪确切时间的独特能力。在这段时间内,工作负载受到保护。使用这些数据,我们能够计算操作可用性。
通过上面的示例,很容易计算出操作的可用性。2014年,DRUPS B的在线服务支持负载时长达8,752.1小时。2014年的总时间为8,760小时。通过这些数字可以计算得出99.91%的操作可用性。换句话说,该款DRUPS一年内的总离线时间共计为7.9小时。这个数字是所有维护、修理、诊断和紧急服务时间的总和。
当对较长时间段内的数据进行检查时,设备的整个生命周期中的操作可用性开始变得明显。DRUPS B于2009年9月投产。我们的数据收集于5个月后开始。截至2016年6月,该款设备在线运行时间总计达55,400小时,其中总的运行小时数为55,536.操作可用性为99.76% ——即一年的维护,诊断,故障排除和维修停机时间仅为21小时。
意外停机时间
进一步对数据进行检测观察,我们可以查找异常,以便帮助我们确定设备的生命周期问题,操作问题或服务相关事件。2014年DRUPS A就经历过这样的事件。该设备停用服务时长总共为153小时。柴油发动机的制造商被要求让设备离线以执行工厂召回。之后该DRUPS才恢复了服务。
这种类型的事件将不会对使用MTBF和MTTR的理论上的可用性产生任何影响。其不是公式的一部分。使用操作可用性作为度量,可以计算其影响。此外,加上153小时到总小时数(8,572.1 + 153),产生了99.84%的操作可用性。将该值与模块B相比较,可以确定DRUPS可能离线的总时间的良好基线。