当确保数据中心具有更大的弹性时,组织定期维护为其提供电源保障的不间断电源(UPS)至关重要。而其维护旨在大限度地降低风险,并使UPS以安全高效的方式运行。但是,如果执行维护的行为本身就构成了风险呢?组织能采取什么样的应对措施?

例如英国一家航空公司的数据中心在2017年夏季由于人为失误发生故障。而人为错误是在UPS维护过程中出现问题的主要原因,工程师可能会按错开关,或者按错误顺序执行程序。

尽管在这些情况下指责工程师的疏忽很容易,但这种错误通常是由于操作程序不规范、标识不良,甚至是培训措施不到位所造成的。通过在UPS安装开始时消除这些问题,可以避免风险。

例如,如果安装的UPS系统是由大型并联UPS和复杂的开关柜组成的供电系统,则应在设计中加入连锁装置。这些措施促使用户以受控和安全的方式进行切换,但在项目开始时往往被排除在设计之外以节省成本。

全天候运行的设备监控还提供强大的保护功能,应该成为组织维护系统的一部分。而严格的培训也是至关重要的。

采取简单的措施也能有所作为。通过实时更新基本标签和切换示意图可以避免灾难的发生。建议组织提供明确的切换程序的文件记录。如果现场维护非常关键,维护人员实施时将相互提醒(两名工程师在执行每项行动前都会检查执行程序)将防止大多数人为错误。

采用先进技术

任何维修和维护都可能会为UPS或开关设备带来风险,所以需要减少维修次数。而出现的大多数问题(包括电气部件的故障)都可以通过监控电气部件的热量提前检测出来。

例如,如果电气部件的连接点没有拧紧,它将开始升温并最终以某种方式失效。而检查每个连接最有效的解决方案是采用热成像技术。热成像技术可以识别潜在的问题。

9

监控设备和能力

全天候的设备监控还提供强大的保护功能,应该成为组织维护措施的一部分。严格的培训也至关重要,同时确保设备主管工程师能够胜任工作。

组织的维护人员不要害怕向维护服务提供者提出问题,他们有责任提供合格证明,这与组织本身及其工程师有关,并且总是需要检查现场处理情况。

强大的维护措施还应该确保当UPS发生故障时得到及时和有效的响应。服务级别协议需要适用于应用程序的关键性。如果仅在正常运营时间内才能访问UPS,那么对于UPS的全天候的响应,这样的维护合同没有意义。也就是说,如果数据中心全天候运营,并对业务非常关键,那么全天候的响应是必需的。

组织需要确切地说明响应的构成,这也许只是一个电话号码或者到现场处理的工程师,并需要审查工程师的资质和水平。

对组织当前的UPS维护程序进行审查,将有助于确定并降低组织以前可能没有预料到的关键操作的风险。组织通过进行尽职调查,可以避免发生事故。

【中国IDC圈原创 未经允许谢绝转载】

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-01-09 16:53:00
市场情报 中兴通讯分布式存储+ DPU,加速数据中心转型
存储技术在不断地创新、完善、加速演进,以更好地满足业务的存储需求,但同时也使得存储协议和文件系统越来越繁重。 <详情>
2023-11-17 10:35:56