最近的几次数据中心停电造成非常最严重的停电事故。例如,美国达美航空公司数据中心的电力中断,造成该航空公司1.5亿美元的损失,美国"超级碗"的赛场断电,让主办方尴尬不已。而停电可能会随时影响任何人。

然而,数据中心运营商所面临的困难是确定停电的根本原因,因为电力中断的原因比较复杂,例如,服务器负载过重,导致系统崩溃;当地电力供应商的供应问题,工作人员误操作的人为因素等。

以下是数据中心运营商应该关注的五个最重要的问题,以确保不会发生数据中心停电事故。

(1)可以随着快速发展的电力系统迁移吗?

数据中心的不同阶段,对电力需求也在变化。服务器或交换机的添加都可能对电力的需求产生重大影响。因此,能够分析数据中心一段时间内对电力的需求是非常重要的,以便更容易地进行长期预测。

(2)电源链是否受到威胁?

越来越多的数据中心连接到网络,除了机架中包含的终端和访问点之外,很多渠道可能会成为破坏网路犯罪行为的破坏途径。

此外,网络违规行为甚至不需要通过电线和电缆来实施。狡猾的犯罪分子可能会进入某个数据中心,破坏内部的电力供应。但是,不仅仅是外部的恶意人员所造成的危害,也要警惕数据中心内部工作人员的行为。有些知识和经验不足的工作人员在与接口进行交互的过程中犯错,也会造成不可估量的伤害。

为了防止出现这种情况,运维文档和流程控制至关重要。采用更多的硬件不是防止灾难性停电的最佳选择,事实上,添加额外的硬件实际上可能使控制情况更加糟糕。

(2)灾难恢复计划是什么?记录文档了吗?

在不影响业务环境的情况下进行断电测试,实际上是采用虚拟开关设备,这将允许数据中心运营商可以应对最坏的情况,并实施恢复服务。

数据中心工作人员总是假设他们的电源供应链和电源备份系统是万无一失的,但是如果没有故障安全测试,会认为面临什么样的结果?

电源故障模拟使数据中心运营商可能找到缺乏冗余的设施,并发现单点故障。但是,这需要文档进行记录。

因此,数据中心运营商在灾难性的电源故障之前,建立断电测试机制并记录其恢复过程。

(4)可以实时监控操作吗?

数据中心运营商必须知道哪些设备现在在哪里,使用了多少电能。对于不断增加基础架构的数据中心来说,这往往会很困难,因为这可能会对电源容量和电源分配产生巨大的影响。

注意所有移动部件的唯一有效方法是单一视图。这种整体视图具有实时监控和警报的功能,使数据中心运营商能够减轻风险,并进行更改以避免灾难发生。

(5)知道所有互连设备和系统的一切情况吗?

对于数据中心运营至关重要的是,需要电力链记录在一起,从进入建筑物的电力,再通过UPS、PDU/提供给所有的机架设备。这意味着数据中心运营需要知道哪些与电力相关的设备,以及设备各自的相互依赖关系。这可以让数据中心运营了解某些设备故障或脱机维护时的潜在影响。此外,还应该了解每个电源链设备的状态。

可以通过采用数据中心基础架构管理(DCIM)实现对电源管理。DCIM使数据中心运营能够以高的效率运行数据中心,同时允许所有相关人员改进整体运营情况,并识别漏洞,从而保持电源链的安全。

部署的DCIM还可以让数据中心运营全面了解自己的产品,通过共享实时数据和易于理解的图表,消除IT和设施之间的通信孤岛。

由于数据中心停电的原因很多,尝试用人工方法和电子表格来跟上基础设施的所有变化是费力的,并引起不可预见的风险。因此,必须采取适当可行的方法和措施进行管理。

关联阅读:

某IDC服务商机房宕机致银行业务中断 银监会发布风险提示

数据中心电源中断的危害与UPS的作用

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-01-09 16:53:00
市场情报 中兴通讯分布式存储+ DPU,加速数据中心转型
存储技术在不断地创新、完善、加速演进,以更好地满足业务的存储需求,但同时也使得存储协议和文件系统越来越繁重。 <详情>
2023-11-17 10:35:56