数据中心意外停机对运营商来说就是一场灾难。2016年,数据中心意外停机的平均成本为每分钟8,850美元,而每次停机平均时长为95分钟,对数据中心运营商的业务和盈利产生了重大影响。为了防止停机和业务中断,企业需要尽可能地保护自己免受数据中心所面临的威胁的影响。
自然灾难和人为灾难有各种形式和规模,例如地震、飓风、龙卷风、恐怖主义或政治内乱等威胁都是主要的灾难,但很少见。实际上,数据中心面临的计划外停机事件可能是由火灾、漏水,温湿度异常变化、设备故障、电力中断、人为错误,甚至恶意攻击(破坏设备或盗窃资产)等更为普通的威胁造成的。由于数据中心计划外停机的成本高昂(其中包括维修新设备相关的成本、生产力损失和业务损失),如果无法有效应对和解决,这些风险造成的损失将会十分重大。
在数据依赖的实时世界中,数据中心的运行和维护日益复杂并且越加重要。保护数据中心的关键因素是监控和实时可见性。运营商可能无法防止管道泄漏或发生火灾,但可以防止这些事件造成更广泛的破坏。一旦发现问题,就能越早得到修复或减轻,或者可以切换到备份服务器,以便在处理问题的同时还能正常运营。
实时监控
审核数据中心资产、检查环境条件,需要投入很多人力,而且非常耗时。这些过程无法用于跟踪数据中心每天发生的情况,以识别潜在或实际的威胁。在灾难预防和缓解方面,工作人员无法解决看不到的问题,而没有监控可能也看不到一些问题。
通过在数据中心的各个设备上部署传感器,监测环境条件,采用实时监控系统来管理和分析传入的数据,运营商工作人员可以在数据中心发生任何事情时对其进行响应。企业将能够识别潜在的威胁,例如,可能表明数据中心存在较大问题的湿度或温度的阈值变化,然后进行必要的调整或修复;还可以在重大停机事故之前,对电力中断等威胁立即做出响应。
实时监控是企业灾难恢复和业务连续性完整计划的一部分。除了在IT系统存在已知威胁时通知团队,还能够跟踪和识别标准操作和趋势,工作人员可以在问题发生时识别潜在问题。这意味着出现问题时,工作人员可以随时得到通知,立即做出反应,而不是查不到隐患,最终导致设备的损坏。
除了避免灾难之外,实时监控还有许多其他关键的运营优势。它可以提高数据中心管理人员的运营效率,大限度地利用现有资源,为IT设备和数据中心工作人员创造更舒适的环境。
鉴于数据中心的规模和复杂性,不可能消除所有风险。但是,任何曾经处理过灾难的工作人员都知道,事先做好准备要比必须处理的,从灾难中恢复要好得多,尤其对于采用相应计划应对的那些灾难。实时监控可以让数据中心管理人员高枕无忧:当某些灾难威胁数据中心时,能够做到立即处理,减少意外停机时长和相关的业务损失。
【中国IDC圈编译 未经授权禁止转载】
相关阅读