设计和构建一个具有高度弹性的数据中心费用高昂,而数据中的宕机损失也是如此。来自波洛蒙研究所的数据表明,数据中心的每次中断平均成本从2010年的50万美元增加到2016年的70多万美元,增长了38%。

然而,波洛蒙研究所的“数据中心停机成本”报告显示,停机的高成本可能高达240万美元。而最近发生的一些数据中心停运事件的损失更为惨重,例如航空行业的数据中心设施,损失的费用可能会更高,估计有数千万美元之巨。

对中断事件进行调查

鉴于直接的财务损失和声誉受到损害这些后果,发生数据中心中断的公司通常要进行彻底的调查。虽然有些企业可能将事情的真相隐藏起来,但有些企业通过聘请第三方机构的专家来处理这个过程。引入第三方服务的好处是,企业的数据中心设施或IT团队可能没有资源或技能水平进行深入调查,同时还要在业务中断之后恢复服务。

在一些情况下,企业的内部人员也可能试图转移责任或混淆事故的原因,特别是人为错误这一因素。如果没有严格的调查和报告程序,那么中断事件还会有再次发生的可能性。

调查表明,数据中心中断主要是设施问题而不是IT的相关因素,企业的一种选择是求助特定的机械和电气(M&E)工程服务团队解决。例如,如果中断事件涉及厂家的设备,将需要数据中心技术供应商到达现场进行处理。

行业专家Steve Carlini表示:“如果用户的数据中心发生灾难性的中断事件,我们将有一个专门处理这个问题的流程。这有点像汽车制造商在事故发生后立即着手处理,我们将在中断事件发生后将技术团队派往现场,并开始进行深入调查研究。”

英国数据中心工程服务专家Future技术公司也提供了类似的服务,但其调查范围更为广泛。该公司首席执行官JamesWilman表示:“我们进入业务中断的数据中心以确定故障根源,并且在许多情况下,可以通过解决方案解决数据中心或受到影响的基础设施遇到的问题,以避免发生类似的事件。”

企业对于数据中心中断调查的需求不断增加。Wilman说,“在过去一年里,我们已经完成了五到六个这样的调查,这些数据中心的容量为1到5MW。”

行业专家Carlini表示,随着数据中心的规模越来越大,对中断事件调查的需求也越来越大。特别是电弧闪光(危险放电)事件的数量有所增加,调查工作需要专门培训的人员和设备来进行。

Carlini表示,“数据中心的规模要比过往大得多,而对于设备器件的要求也就更高。例如,中小规模的数据中心可以采用普通规格的断路器,数据中心设施管理人员可以简单地重置跳闸的断路器。而对于规模非常大的数据中心,这种操作必须是经过专业培训的专业人士才能实施,因为其断路器的规格更高,会产生更大的电弧。”

虽然数据中心中断停机的最终根源可能与机电设备相关,但确定其根本原因的过程往往始于IT设备。

Wilman说:“调查团队可能从服务器或IT设备中的实际组件开始着手,他们将确定这些组件是什么,这些组件受到影响的原因是什么,然后回到电源链,直到发现可能导致事件发生的原因。”

可能导致数据中心停机的因素有多种。根据Ponemon研究所的调查报告,2016年数据中心中断的主要原因是供电系统的问题,尤其是UPS故障。人为错误是第二个主要原因,其次是冷却系统或水冷系统,还有与天气有关的事故,以及发电机故障等。根据研究表明,IT设备故障仅占中断事故的4%。

美国的Tier Ⅲ级数据中心中断分布图

数据中心中断的多重原因

然而在实践中,得出一个具体原因可能是一个挑战。事实上,数据中心的中断可能是各种问题的连锁反应。

“例如,一台老化的设备发生故障,但是由于系统冗余,这个故障本身并不会导致停机中断。”Wilman说。“在中断发生后,数据中心的工作人员试图隔离有问题的设备,但由于过时的信息或缺乏培训/知识,错误地执行旁路操作,使问题得到进一步恶化,最终导致关键负载宕机中断。”

中断也可能涉及多个设备,并且其问题的根源可能需要所有相关技术供应商的意见。

Carlini说:“有时候问题不明确时,客户会要求涉及设备所有公司的代表坐在一起查明原因。在这种情况下,采用一些监控工具(DCIM软件)可能会有所帮助。可以想象,考虑到涉及的人数,这种方法可能会很笨拙。这就是建立监控系统以确保数据通道的重要性的原因。”

在确定了中断的原因之后,下一步就是将结果记录在一份详细的报告中,并提出将来如何避免中断事件的建议。这个过程可能需要几天,甚至几周时间,具体取决于设施中断的复杂程度,也取决于业主或运营商设定的时间表。由此产生的报告往往是一个高度敏感的文件,特别是如果人为错误的责任。Wilman说:“有时数据中心工作人员认为调查团队是针对他们的或者可能要找到替罪羊,他们可能会有些敌意。但事实并非如此,因为唯一的目的就是确定中断的根本原因,并防止再次发生这样的事件。”

但是,在大多数事件中,划分责任可能不是优先事项,但在外面攻击或人为故意破坏的情况下,这一点变得至关重要。根据Ponemon研究所的报告,故意攻击的安全漏洞(包括分布式拒绝服务攻击)从2010年的2%上升到2016年的22%。在这种情况下,查明中断事件的原因可能有助于防范未来的袭击,但也有助于执法机构查明肇事者。

只要数据中心发生中断,对于中断调查服务的需求将继续增长。然而,技术格局不断转变。数据中心的监控和管理方式也在不断发展。DCIM工具的使用(尽管并不像一些供应商所希望的那样普遍)正在增加,这从长远来看应该会使数据中心运营商对中断更容易进行自我诊断。设备制造商还将更多的智能和软件嵌入到电力和冷却设备中,以实现主动和预防性维护,这也有助于减少设备故障发生的可能性。

防止数据中心中断的方法也正在发生变化,以大型云计算运营商为首的更多运营商在“分布式弹性”进行投入,软件和网络在确保可用性方面发挥更大的作用,而不是冗余的机械和电气设备。在这种情况下,单个UPS、发电机或甚至整个数据中心的性能在这种情况下变得不太重要。

然而,与这种趋势相对应的是,如果在这样一个高度分散的系统中发生服务中断,那么追踪最终原因将需要认真严肃的调查工作。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2023-11-09 10:44:00
安全监控 数据中心中断导致银行250万笔交易失败
据了解,数据中心的故障是由冷冻水系统的故障引起的,导致数据中心的温度升高,影响了服务器的运行。故障发生在下午2点54分,持续了近14个小时,直到第二天凌晨4点47分才恢 <详情>
2021-10-09 09:58:12
国际资讯 单点故障遇上电锯惊魂?——Facebook宕机7小时
运维宇宙的上古时代流传这个传说:高权限管理员是一把改锥。 <详情>
2021-04-23 15:10:17
运维管理 UpTime:供电、系统、网络、制冷——2020年数据中心宕机四大主因
虽然供电排在数据中心故障前列,但网络和软件系统造成的故障往往具有更深远的影响。 <详情>