数据中心行业中,广泛使用冗余设备来实现更高的系统可用性,通常要求其范围为99.999%(5个9)。但是,所需的冗余级别取决于设备的可靠性。

例如,“N+1”冗余系统无法通过不可靠的系统组件获得很高的可用性,而这些组件的同时故障可能性很高。可靠性会影响可用性,但是在数据中心经历的停机和故障的事件中,可靠性和可用性并非同一回事。可靠性也会影响数据中心运营成本。更长的停机时间等于更多的维护和维修支出。

可靠性是指在规定的条件下,一个项目在规定的时间间隔内执行其预期功能的概率。关于可靠性,需要注意以下一些重要问题:

•数据中心是否使用以可靠性为中心的维护(RCM)概念来优化维护工作?

•是否完成了设备关键性分析?

•是否定期跟踪平均故障间隔时间(MTBF)?

•是否优化了预防性维护(PM)计划?

•是否跟踪设备故障并相应地改进流程?

目标:最小化支出,并大限度地提高可靠性

在当今竞争激烈的市场中,必须在不牺牲可靠性和正常运行时间的情况下将运营费用降至最低。许多数据中心仅根据OEM服务建议来开发其关键设备的服务范围。尽管这可以产生足够的结果,但通常不是好的结果。很多时候,这些建议都是为了服务组织而不是最终用户的大利益。实际上,通常有更好的方法使用以可靠性为中心的维护(RCM)原则来提高可靠性,同时降低成本。

尽管已证明以可靠性为中心的维护(RCM)计划是有效的,但它们可能成本昂贵,并且需要大量资源。它们涉及创建详细的故障模式和影响分析(FMEA)以及填充决策工作表,这需要专业知识并且可能非常耗时。考虑到这一点,在数据中心内实施全面的以可靠性为中心的维护(RCM)程序通常并不划算。相反,实施采用关键以可靠性为中心的维护(RCM)要素和有关常见故障模式的历史信息的预防性维护(PM)优化程序是一种已在其他行业证明经济有效的策略,并为数据中心采用提供了良好的模型。

下图显示了采用预防性和预测性维护策略的故障概率曲线(P-F曲线)。

1

P-F曲线是以可靠性为中心的维护(RCM)的基本原理,无需完成详尽的分析即可成功应用。可以使用许多此类可靠性工具来显著改善资产的状况和使用寿命。

解决方案:实施可靠性计划

2017年,数据中心运营商RagingWire公司决定为其数据中心实施可靠性计划。该公司聘用了具有生产背景的可靠性工程师。

其最初的可靠性措施包括:

1.服务范围

a. 开发81类相关设备。

b.输入的是管理机构(IEEE、ANSI/NETA、ASHRAE、NFPA)的OEM建议和代码。

c. 设备清单包括支持设备,如叉车、托盘升降机、电梯、防雷装置、高架门、装卸平台、阀门和供水系统。

d.用于为所有设备创建任务列表,并在预防性维护(PM)计划的计算机维护管理系统(CMMS)中设置。

2. 计算机维护管理系统(CMMS)

a.制定并记录标准。

b.重新部署程序以未使用或不需要的信息。

c.添加了可靠性字段,例如故障、原因和维护代码以及使用寿命。

d.输入用于内部和外部工作活动的纠正性工作订单。

e.在公司范围内对实施的变更进行培训。

f.为正在进行的年度培训和新员工建立培训矩阵。

g.建立一个每月举行会议的咨询团队,以讨论可改善该计划的就业和变动。

h.创建详细的用户指南。

i.制定环境健康与安全(EHS)定期要求以确保达到要求。

 3.可靠性            

a.制定责任分配的路线图。

b.建立了可靠性指导小组。

4.节省成本

a.成立了消减成本团队,其中包括工程和运营人员。

b.采购团队就主要设备和费用达成了协议。

c.利用服务范围,每年可节省25万美元。

5. 预防性维护(PM)

a.通过在线报告建立了柴油发电机和变压器油的分析团队。

b.通过故障模式和影响分析(FMEA)为关键设备实施的预防性维护(PM)优化流程

6.资产管理

a.定义资产并创建列表。

b.设备层次结构已定义。

c.确定设备关键性。

d.确定的维护策略:预防性维护(PM)、故障查找、重新设计、运行至故障。

7. 根本原因分析(RCA)

a.根据批准的政策和详细程序开发程序。

b.选择了根本原因分析(RCA)软件来巩固该过程。

c.对选定的工程和操作人员进行了培训。

 8.创建策略和文档

创建预防性维护(PM)优化策略和程序、热成像策略和程序、预测性维护策略,机油分析策略和程序、电动机电路分析策略、振动分析策略,以及计算机维护管理系统(CMMS)雇用策略。

 9.建立用于工作单处理的工作流

未来推出的举措

未来将会规划更多的举措,其中包括:

(1)确定设备预期使用寿命以帮助制定资本计划的程序。

(2)建立预防性维护(PM)和基于状态的维护(CBM)程序。

(3)使用可靠性关键绩效指标(KPI)识别持续改进的机会。

(4)创建仓库管理程序,以正确识别现场所需的备件并进行存储以方便使用。

可靠性计划预期实现的典型效益包括减少设备故障和维护成本、提高工单效率、增加资产使用寿命以及降低设备维护风险带来的更安全环境。

此外,一些附带的好处包括为资产管理和年度预算收集设备历史记录,系统地消除出现故障的根本原因,以及评估维护活动以获得持续改进的机会。

数据中心运营商通过其新的可靠性计划节省了成本,并提高了工作效率。预计捕获故障数据和改善维护过程将继续提高资产的预期使用寿命,从而减少资本支出。还可以跟踪关键指标以确保期望与结果匹配。通过优先考虑可靠性,将重点放在数据中心固有的冗余措施之外,这是朝着成为更加可靠经济的数据中心提供商目标迈出的重要一步。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2025-04-25 11:11:02
国内资讯 万国数据全国首单“数据中心持有型不动产ABS”在上交所 成功挂牌上市
本次发行是贯彻落实中央‘金融五篇大文章’要求的生动实践,通过‘持有型不动产ABS+可持续挂钩’这一创新,实现了资金用于金融数据中心核心资产收购和运营。 <详情>
2025-04-01 18:19:39
国内资讯 普洛斯中国首支数据中心基金完成募集,投资规模约26亿人民币
普洛斯推出首支数据中心收益基金,提供稳定收益和长期增长并重的投资产品,满足投资人需求。 <详情>
2025-03-26 16:35:02
国内资讯 中国移动成渝(重庆)江南数据中心正式投产
3月20日,中国移动成渝(重庆)江南数据中心(以下简称“江南数据中心”)投产暨战略合作协议签约仪式在南岸区、重庆经开区举行。 <详情>
190亿算力租赁大单;金融机构采购飞腾/鲲鹏/海光;运营商174亿「押注」Token工厂;三江源EPC「废标」……|算力情报局Vol.07
2026-05-18 09:30:00
总投资约15亿元、规划3000P,中数博通(法库)智算中心项目奠基
2026-05-15 14:12:01
NHN在韩国推出7656张NVIDIA B200 GPU集群
2026-05-15 11:06:09
世纪互联引入新战略投资者,买方至多购入38.1%股份
2026-05-15 11:04:05
当“维也纳整流”遇到“双向三电平整流”|算电协同时代,该如何选择?
2026-05-15 11:02:23
嘉宾征集!液冷、供配电、模块化交付——从“供应商”到“行业话语权参与者”|DIFGC 2026 曼谷
2026-05-15 10:58:00
当Token成为新生产力,AI利润中心正在从基础设施转向大模型公司
2026-05-15 10:10:01
Equinix投资1.9亿美元在马来西亚建设第四座数据中心
2026-05-14 11:50:14
未来赚钱的不是算法公司,是Token工厂
2026-05-14 11:15:00
开工、交付持续攀升 ——算力中心建设月报(2026年4月)
2026-05-14 11:08:49
微软考虑推迟或放弃2030年100%可再生能源匹配目标
2026-05-13 15:24:36
日本横滨港测试100%可再生能源供电海上数据中心
2026-05-13 12:23:01
总投资30亿元,世纪互联乌兰察布零碳智算中心基地三期项目开工
2026-05-13 11:19:28
亚马逊投资 700MW 无碳能源项目,支持未来数据中心运营
2026-05-13 10:21:13
高盛拆解 AI"万亿美元军备竞赛":真正决定资本洪流规模的,不只是需求
2026-05-12 15:43:00