如今,人们在降低数据中心风险方面所遇到的大障碍是:
•缺乏知识(一般地点和特定地点);
•缺乏分享这些知识的流程;
•缺乏针对特定地点的经验;
•不了解风险;
•对待人员和学习的态度不佳。
如果一个数据中心设施的设计和运营很复杂,并且工作人员没有得到很好的培训,那么将会面临很高的风险。
设计的复杂性
在考虑数据中心设计的复杂性之前,有必要考虑采用无单点故障(SPOF)的弹性系统,而根据定义,单点故障(SPOF)是指系统中一旦失效,就会让整个系统无法运作的部件,换句话说,单点故障就会产生整体故障。这些可能是组件故障或不正确的人为干预,例如在不了解系统如何反应的情况下进行切换。
2N冗余系统可以被视为一种实现无单点故障(SPOF)安装的最低要求。为简单起见,假设数据中心的2N系统包括A和B两个相同的电气和机械系统。故障树分析(FTA)将突出显示导致故障的事件组合。然而,在故障树分析(FTA)中模拟人为错误是非常困难的。用于模拟人为错误的数据将始终是主观的,并且存在许多变量。
如果这个2N冗余系统示例中的系统在物理上是分开的,则对一个系统的任何操作都应该对另一个系统没有影响。但是,引入增强功能并不少见,它采用简单的2N冗余系统,并添加其他组件,例如灾难恢复链路和连接两个系统的公共存储容器。
在大型设计中,这成为一种自动控制系统(例如SCADA、BMS),而不是简单的机械联锁。 2N冗余系统的基本原则已被破坏,系统的复杂性呈指数级增长。运营团队所需的技能也是如此。
对设计进行审查仍然表明已经实现了2N冗余设计,然而,由此产生的复杂性和可操作性的挑战破坏了高可用性设计的基本要求。
研究表明,导致失败的特定事件序列通常是无法预料的,并且直到它发生之后才会知道会产生什么后果。换句话说,这些事件序列在人们知道之前是未知的。因此,它不会成为故障树分析(FTA)的一部分。
奥地利物理学家Ludwig Von Boltzmann开发了一种熵方程,该方程已应用于统计学,特别是缺失信息方面。在这个理论中,设置了一个盒子网格,例如4×2或5×4的网格 ,以及一个放在盒子里的硬币。该理论允许用户确定问题的数量,以确定在该定义的网格上放置硬币的哪个框中。如果采用系统组件替换盒子,以及硬币的未知故障事件,人们可以考虑系统可用性如何受到复杂性的影响。可以看出,较少发生的未知故障事件,系统可以失败的方式的数量减少。因此,增加人们对系统的详细知识和发现未知事件减少系统失败的组合,从而降低风险。
人为因素
研究表明,任何具有人机界面的系统最终都会因漏洞而失败。漏洞是数据中心设施中可能导致故障的任何可能的弱点。数据中心的漏洞可能与基础设施或设施运营有关。基础设施涉及设备和系统,特别是:
•机械和电气可靠性。
•设施的设计、冗余和拓扑。
这些行动涉及人为因素,其中包括个人和管理层面的人为错误。它涉及:
•运营团队的应变能力。
•团队对漏洞的反应情况。
系统越复杂,人为因素就越脆弱,运营设施所需的培训和学习就越多。学习不仅适用于个人,也适用于组织。组织学习的特点是成熟度和流程(在下图中显示为累积经验),例如围绕数据中心结构和资源、维护、变更管理、文档管理、调试和可操作性,以及可维护性。
个人学习是知识、经验和态度的函数(在图表上显示为经验的深度)。开发组织和个人学习的环境有助于降低故障率,并为操作人员提供有效减少能源浪费的专业知识。
通用学习曲线应用于数据中心
重要的是要理解,由于失败和经验之间的关系遵循指数曲线,因此永远不能实现零失败。拥有良好知识和经验丰富的数据中心设施操作人员仍然容易自满,并且会遇到一系列先前未知事件的失败。
结论
通过提供可以改善组织和个人知识的学习环境,降低数据中心风险。虽然成熟的操作人员具有可以降低故障率的经验,但如果在没有经过充分培训的情况下实施,则过于复杂的设计仍然会发生故障。