衡量UPS系统安全性能的指标中,有两个指标尤其重要:一个是系统的可靠性,另一个则是可用性。作为提高电源系统质量的主要设备,UPS系统本身的可靠性、可用性,是衡量UPS系统性能最重要、最根本的指标。这里对影响UPS可用性的因素进行详尽的剖析,从而得出通过采用先迸UPS智能管理技术来提高系统可用性的有效方法。新的UPS管理技术及产品,对提高UPS系统的可用性具有重要的意义。
从系统可用性的定义可以看出,提高UPS系统可用性有两个途径:一是提高系统可靠性,即延长平均无故障时间MTBF,另一途径则是降低平均故障修复时间 MTTR.从UPS系统平均故障修复时间MTTR与UPS系统可用性的关系可以看出,缩短平均故障修复时间MTTR对提高系统可用性具有更明显的作用。
这里通过一个具体的案例详细分析平均故障修复时间MTTR的构成。所分析的案例是一台80kVA的UPS系统。如果这样的UPS系统发生故障,通常是需要厂商专业技术人员才能进行维修的。对于这样一个系统,众多厂商纷纷提出了“4小时响应”、“24小时修复”等服务承诺。但值得注意的是,这些时间并非真正的故障恢复时间。首先,所谓的“4小时响应”,通常仅仅是指厂商方面的工程师在得到用户的通知到做出上门维修计划的时间,离真正故障修复还有相当的距离,而“24小时修复”则会有很多的附加条件,如发生故障的设备所在地有无工程师、备件等条件。其实,真正的故障修复时间与整个故障修复过程的每个环节都有紧密的联系。
下面就上述UPS系统故障案例的修复时间进一步地按实际分段加以详细分析时发现,一次故障修复时间由以下时间段构成:
故障报警通知时间。从故障发生到用户发现故障的时间,用T1表示。
厂商反应时间。用户将故障信息反馈给厂商的售后服务部门,到厂商售后服务工程师与用户沟通,做出上门维修计划的时间,用T2表示。
故障初步判断时间。厂商售后服务工程师通过电话等方式与用户沟通,了解故障现象和故障过程,对故障做出基本判断的时间,用T3表示。
上门服务时间。从厂商售后服务工程师通过电话等方式与用户沟通对故障做出基本判断后到上门服务的时间,用T4表示。
故障排除时间。从厂商售后服务工程师上门服务,到故障排除的时间,用T5表示。
1.首先来分析第一段时间——故障报警通知时间T1
看起来这段时间应该是很短,但是实际上它存在极大的不确定性。首先,由于中、大容量的UPS一般安装放置在专用的电源机房,由于噪音、安全等原因,电源机房平时一般无人值守。因此,如果UPS发生故障往往要等到故障产生严重后果后才会被用户发现,同时,由于UPS系统作为强电设备,需要具有专业知识、经过专门培训的人员才能进行日常的维护操作,所以在出现故障后也需要专业人员到现场进行评估、判断,然后才能进行相应的操作,这一因素也制约了故障通知的速度。正是由于上述原因,加上空间距离及专业知识方面的不确定因素,UPS的故障通知时间T1也就变得具有很大的不确定性,使它可能成为降低系统可用性的一个重要因素。
有这样一个具体的实际案例。天津某银行数据中心,使用了1台125kVA的UPS为数据中心供电,UPS系统安装在数据中心地下2层,平时无人值守。一天上午10点,UPS系统突然出现10s的短暂停电,导致整个数据中心瘫痪。经工程师现场检查发现,UPS其实并无任何硬件故障,只是在故障发生时运行在旁路状态,经查阅UPS运行历史记录发现,当时市电正好发生10s的短暂故障停电,由于UPS运行在旁路状态,相当于市电向负载直接供电,所以市电停电直接影响到负载。但进一步检查发现,UPS实际上在两天以前就已经处于旁路状态,其原因是大容量负载启动导致的过载并锁定在旁路状态(UPS设置运行模式),尽管当时UPS已经发出了声音报警信号,由于空间距离的原因,工作人员并末听到报警声讯,所以直到发生严重的后果以后才发觉。从这个案例可以看到,通常认为并不重要的故障通知时间T1竟然长达两天。由于乃存在较大的不确定性,实际上对MTTR具有很大的影响,它可能是导致UPS系统可用性降低的重要原因。
2、再来看看第二段时间——厂商的反应时间T2
由于中、大容量UPS的维修需要专业的知识及技能,通常需要由厂商技术人员完成,这段时间的长短反映了厂商对售后服务的重视程度及能力。不同的厂商分别为不同的产品提供5×8(每周5天,每天8h的法定工作时间内)、7×24(每周7天,每天24h全天候)的售后服务响应。
3、再看看第三段时间——故障初步判断时间T3
为了加快故障修复速度,厂商售后服务工程师在提供上门维修服务之前,通常需要通过电话等通信手段与用户进行沟通,了解故障现象,通过用户得到UPS系统的故障状态和相关信息。这一工作非常重要,故障初步判断对准备接下来的故障现场修复起着指导作用。这段时间的长短与很多因素有关,这些因素包括:用户维护水平和故障前系统的运行状况、售后服务工程师的技术能力和沟通能力、产品智能管理和使用的方便程度、是否人性化等。譬如,用户对UPS系统越了解,用户运行维护人员的技术水平越高,故障初步判断时间就越短。除了用户、售后服务工程师的技术能力对T3具有很大的影响外,沟通能力等非技术因素往往成为决定T3长短的重要因素,用户与售后服务工程师的方言、语言表达习惯甚至性格等非客观因素的差异和售后服务工程师的沟通技巧等,都会对沟通的有效性产生直接的影响,从而影响T3的长短。
4、再看看第四段时间——上门服务时间T4
厂商工程师上门服务时间受到空间距离、天气情况、交通状况等条件的影响,但是相对容易控制,在进行MTTR分析时,可以作为相对稳定的参数处理。
5、最后,再看看第五段时间——故障排除时间T5
这段时间除了与售后服务工程师的技术水平有关外,还直接受到第三步故障初步判断结果的影响。由于故障初步判断的失误,可能导致带到现场的备件不能满足维修的需要,从而使故障不能很快得到修复。另外,UPS系统的结构设计也会对故障排除时间几有很大程度的影响。例如,有些厂商的UPS采用模块化设计,其故障部件的更换时间大为缩短,也有些厂商是采用所谓“N+1”的模块化加冗余配置技术,这就更加大大缩短故障的修复时间T5.
综上所述,在影响故障修复时间的各个阶段中,除了厂商的服务标准和工程师的技术水平对故障修复时间具有重要的影响外,故障报警通知、故障初步判断等环节,由于其容易受到众多非确定因素的影响,具有很大的不确定性,同时又不为大家所重视,所以往往成为延长故障修复时间MTTR的主要原因。
为了有效缩短T1(故障报警通知时间)、T3,(故障初步判断时间)和T5(故障排除时间),首先,UPS系统必须有故障远程报警的功能,UPS系统能在故障发生时,通过各种有效的远程报警手段,向不在现场的系统运行维护人员及时报告故障信息,其次,售后服务工程师能通过直接、客观的手段了解故障情况,从而得到有关故障的正确、完整的信息,避免由于人为因素造成的信息失真、缺漏。
要想使UPS系统具备远程报警、远程测试、故障远程诊断和远程修复等新的功能,这就要借助电源管理的新技术(包括一系列的附件、软件产品)才能实现。以下进一步介绍采用这些电源管理技术后的故障修复过程,从中不难看出,电源管理技术对UPS系统的可用性正在产生深远的影响。
给UPS系统装备上新的远程报警管理卡,系统管理员可以对这种远程报警卡进行设置。系统管理员设置好了以后,远程报警管理卡便能够根据系统管理员的设置定期对UPS自动进行检测。当远程报警管理卡检测到系统的潜在问题或者故障发生时,会立即自动通过电话、寻呼、网络邮件、手机短信等方式向运行维护人员发出报警通知,避免故障的发生或者及时将故障警报通知厂商售后服务部门,从而将报警时间T1缩短到“分钟级”。UPS系统维护人员在得到报警通知后,立即通知厂商售后服务人员,厂商售后服务工程师能通过电话网络、Internet,直接对故障UPS进行访问、远程检测和远程故障诊断,以及下载UPS运行参数、运行历史记录等,这一切都由售后服务工程师直接进行,无需用户的参与,避免了人为因素的干扰,使得对故障的初步判断更为准确,这可大大缩短故障初步判断时间T3,也为缩短故障排除时间T5奠定基础。在判断清楚故障情况后,售后服务工程师就可以根据情况进行处理,如果故障仅仅是由于系统的某些参数设置不当,则只需要对UPS系统相应的参数进行远程调整就可以完成故障排除,如果需要上门排除故障时,工程师就可以直接携带备件进行上门维修。由于故障初步判断相对准确,故障排除时间T5也相应缩短。整个平均故障恢