日前,据调研机构对于数据中心的运营调查报告中表示,某些数据中心宕机事件本不应该发生。而其宕机的主要原因并不是由于恶劣天气、计划外维护、甚至电网故障等因素导致,相反,这是一些组织糟糕的计划和维护不当造成的。从航空公司到互联网巨头,这些主要的用户和企业都已经成为了停机中断事件的受害者,并且也深刻感受到这些可以预防的数据中心中断事件的影响。然而不幸的是,这种情况并不少见。

数据中心行业厂商通过对欧洲各国IT和数据中心管理人员的调查表明:27%的受访者表示在过去的三个月遭遇过长时间的中断,对组织业务产生了不利的影响。绝大多数受访者(82%)认为大多数关键业务流程依赖于IT服务,74%的受访者表示数据中心的健康状况直接影响到IT服务的质量。组织业务主要取决于IT服务和IT设备依赖于数据中心的功能。事实上,四分之一以上的数据中心遭受长时间的中断事件表明在行业层面上有些方法措施是错误的。

(1)事先规划防止电力供应中断

正如关键业务流程依赖IT服务一样,数据中心本身也必须提供弹性以保持业务运行。它是任何企业风险管理战略中的核心资产。

工作人员的失误,备用发电机没有启动,惊慌失措的决定等这些错误都可以通过正确的流程和完善的电力系统设计来防止。然而,组织往往并没有遵循数据中心电力管理的黄金法则:行动获得结果和产生后果需要采取行动。

组织需要灾难恢复流程,并明确规定在重新启动数据中心时应采取哪些步骤。在数据中心停机中断的情况下,工作人员可能处于忙碌紧张状态,并面临恢复正常服务的压力。毕竟,工作人员的主要目标是尽可能快地恢复正常运营。因此,灾难恢复流程有助于避免延长停电时间。

(2)提高工作人员的技能

实际上,数据中心缺乏电源管理意识和理解是一个常见的问题。参与调查的数据中心专业人员中有三分之二的人表明对电力保障没有充分的信心。而在组织在能够掌握电源管理(从UPS维护到电池检查)之前,可能会有更多的与电源相关的停电事件发生。

但是,工作人员的技能对于提高电源可用性有着至关重要的作用。许多组织发现,无论是在能源效率设计、持续管理消费,或快速有效地处理与电力有关的故障,以避免和减轻停电方面,都很难招募和保留相关的专业人员或人才。

(3)更新升级基础设施

除了提高技能和保障电力之外,数据中心基础设施本身经常需要更新升级,以满足企业对其效率,可靠性和灵活性的期望。在这个调查中,大约一半受访者表示,他们的核心IT基础架构需要加强,而近三分之二的受访者表示需要加强电力和冷却等方面的设施。

电源管理越来越成为一种软件定义的活动。鉴于工作人员的技能方面的差距,软件可以通过IT人员熟悉的仪表板来提供电源管理选项,以弥合IT部门和电源之间的鸿沟,从而更轻松地进行管理,并实现电力基础设施管理的自动化。采用这种技术可以减少或消除数据中心的停机时间。

行业厂商已经向数据中心的虚拟化环境方向发展。IT和数据中心的专业人员如今已经非常熟悉使用虚拟化技术来维护硬件。那么为什么不使用同样的原则呢?所有的配电设计和相关的弹性软件工具必须与主要虚拟化供应商的产品相兼容,促进基础设施的未来发展。这种方法将使数据中心专业人员可以持续地维护系统,从而减少基础设施陈旧过时的风险。

更好的准备和灾难恢复过程可能会阻止许多中断事件的发生。数据中心行业用户必须从这些事件中吸取教训,并采取必要的措施。因此,为了减少数据中心的中断事件,有效实施电源管理是一个必备措施。

 

关联阅读:

数据中心自然冷却设施的应用水平有待提高

 

数据中心液体冷却的应用将再次升温

 


【中国IDC圈编译原创,转载请注明出处】

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2021-10-09 09:58:12
国际资讯 单点故障遇上电锯惊魂?——Facebook宕机7小时
运维宇宙的上古时代流传这个传说:高权限管理员是一把改锥。 <详情>
2021-04-23 15:10:17
运维管理 UpTime:供电、系统、网络、制冷——2020年数据中心宕机四大主因
虽然供电排在数据中心故障前列,但网络和软件系统造成的故障往往具有更深远的影响。 <详情>
2021-04-13 09:40:40
国内资讯 茶颜悦色因促销活动致小程序宕机
企业担心瞬间流量超过小程序承载量,导致整个系统崩溃。 <详情>
2020-06-23 13:19:27
安全监控 NVIDIA发表新款AI平台 将HPC数据中心停机时间降到低
NVIDIA今日宣布将推出 NVIDIA Mellanox UFM Cyber-AI 平台,这款平台将利用搭载人工智能 (AI) 的分析功能来侦测安全威胁和运作问题,以及预测网络故障等情况,进而将 Infin <详情>