最近的几次数据中心停电造成非常最严重的停电事故。例如,美国达美航空公司数据中心的电力中断,造成该航空公司1.5亿美元的损失,美国"超级碗"的赛场断电,让主办方尴尬不已。而停电可能会随时影响任何人。

然而,数据中心运营商所面临的困难是确定停电的根本原因,因为电力中断的原因比较复杂,例如,服务器负载过重,导致系统崩溃;当地电力供应商的供应问题,工作人员误操作的人为因素等。

以下是数据中心运营商应该关注的五个最重要的问题,以确保不会发生数据中心停电事故。

(1)可以随着快速发展的电力系统迁移吗?

数据中心的不同阶段,对电力需求也在变化。服务器或交换机的添加都可能对电力的需求产生重大影响。因此,能够分析数据中心一段时间内对电力的需求是非常重要的,以便更容易地进行长期预测。

(2)电源链是否受到威胁?

越来越多的数据中心连接到网络,除了机架中包含的终端和访问点之外,很多渠道可能会成为破坏网路犯罪行为的破坏途径。

此外,网络违规行为甚至不需要通过电线和电缆来实施。狡猾的犯罪分子可能会进入某个数据中心,破坏内部的电力供应。但是,不仅仅是外部的恶意人员所造成的危害,也要警惕数据中心内部工作人员的行为。有些知识和经验不足的工作人员在与接口进行交互的过程中犯错,也会造成不可估量的伤害。

为了防止出现这种情况,运维文档和流程控制至关重要。采用更多的硬件不是防止灾难性停电的最佳选择,事实上,添加额外的硬件实际上可能使控制情况更加糟糕。

(2)灾难恢复计划是什么?记录文档了吗?

在不影响业务环境的情况下进行断电测试,实际上是采用虚拟开关设备,这将允许数据中心运营商可以应对最坏的情况,并实施恢复服务。

数据中心工作人员总是假设他们的电源供应链和电源备份系统是万无一失的,但是如果没有故障安全测试,会认为面临什么样的结果?

电源故障模拟使数据中心运营商可能找到缺乏冗余的设施,并发现单点故障。但是,这需要文档进行记录。

因此,数据中心运营商在灾难性的电源故障之前,建立断电测试机制并记录其恢复过程。

(4)可以实时监控操作吗?

数据中心运营商必须知道哪些设备现在在哪里,使用了多少电能。对于不断增加基础架构的数据中心来说,这往往会很困难,因为这可能会对电源容量和电源分配产生巨大的影响。

注意所有移动部件的唯一有效方法是单一视图。这种整体视图具有实时监控和警报的功能,使数据中心运营商能够减轻风险,并进行更改以避免灾难发生。

(5)知道所有互连设备和系统的一切情况吗?

对于数据中心运营至关重要的是,需要电力链记录在一起,从进入建筑物的电力,再通过UPS、PDU/提供给所有的机架设备。这意味着数据中心运营需要知道哪些与电力相关的设备,以及设备各自的相互依赖关系。这可以让数据中心运营了解某些设备故障或脱机维护时的潜在影响。此外,还应该了解每个电源链设备的状态。

可以通过采用数据中心基础架构管理(DCIM)实现对电源管理。DCIM使数据中心运营能够以最高的效率运行数据中心,同时允许所有相关人员改进整体运营情况,并识别漏洞,从而保持电源链的安全。

部署的DCIM还可以让数据中心运营全面了解自己的产品,通过共享实时数据和易于理解的图表,消除IT和设施之间的通信孤岛。

由于数据中心停电的原因很多,尝试用人工方法和电子表格来跟上基础设施的所有变化是费力的,并引起不可预见的风险。因此,必须采取适当可行的方法和措施进行管理。

关联阅读:

某IDC服务商机房宕机致银行业务中断 银监会发布风险提示

数据中心电源中断的危害与UPS的作用

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2019-07-31 13:38:58
国际资讯 微软加大可再生能源投资 亚利桑那州新数据中心将主要使用太阳能
为了减少数据中心的碳足迹,微软正在加大对太阳能的投资。2023 年的时候,其数据中心有望使用 70% 的可再生能源。亚利桑那数据中心的可持续发展项目,一直受到很多人的关注 <详情>
2019-07-31 09:41:00
国际资讯 英特尔公布Q2财报:数据中心压力陡增,物联网业务实现较大增长
日前,英特尔公布了 2019 年第二季度的盈利报告,实现营收 165 亿美元,同比下降3%;净利润为 42 亿美元,同比下降 17%。报告称,下降主要出现在数据中心业务,而在客户计 <详情>
2019-07-30 15:08:00
国内资讯 投资6亿美元 谷歌在德克萨斯州建第二个数据中心
谷歌在德克萨斯投资的第一个数据中心获得批准,该数据中心目前已开始施工。 <详情>
2019-07-30 13:12:04
机房建设 数据中心机器学习如何优化运营
机器学习和人工智能是当今IT专业人员的热门话题,而在企业的数据中心,它们拥有真正的前景。 <详情>
2019-07-29 20:36:30
UPS电力 发电机组和UPS电源之间的配合问题
近年大型的数据中心的建设得到迅猛增长,将应用越来越多的大功率UPS,由于要控制UPS所用蓄电池数量,大功率UPS的后备时间基本上都是15-30分钟,这样就需要匹配发电机组,为 <详情>