当涉及到数据中心时,"弹性"一词可以定义为"在面对环境极端以及人为错误或故意破坏的情况下维持ICT服务的能力",通常可以将更高水平的弹性设计成机械和电力基础设施在成本上的溢价。
Uptime Institute的数据中心的等级标准是广泛用于衡量数据中心基础架构弹性的方法。然而根据研究,"人为错误"是数据中心中断的主要原因,至少为70%。但即使这样,可以通过冗余设计来提高可靠性。在每个总线中使用UPS的双母线供电系统可以在很大程度上保护双接线负载,防止电源故障,人为错误和无效的破坏,但即使如此,也一定要更加小心谨慎。
数字误导用户
当然,数据中心的用户希望数据中心具有更高的可靠性和可用性,并且物有所值。那么,如何了解数据中心的可用性呢?以下两个有些相互关联的"指标":
"Uptime Institute(I-IV)"或"TIA-942"(I-IV)的"类型",BICSI的"评级"和EN50600的"可用性类"
可用性百分率,例如99.999%(所谓的"五个九")
除了指出,只有Uptime Institute可以给出一个等级,TIA-942和BICSI是最适用于北美的ANSI标准,EN50600还没有被使用,人们可以将这些标准都概述成描述能力的四个级别"可维护性"和"容错".这些原则是明确的,兼容的可维护性回答了一个问题,即建立一个非常可靠(可能是有弹性的)数据中心,这个数据中心必须每年关闭一次以便维护?虽然容错系统可能会有任何组件,路径或空间"失败",但却不会影响ICT服务。
然而滥用最多的是可用性百分率,因为这很容易计算,但可以愚弄非专业的买方和用户,使其造成误解。其实要明确地表示可用性,只需要两个数字就可以,MTBF(平均故障间隔时间,小时)和MTTR(平均修复时间,小时),只需将MTBF除以总时间( MTBF + MTTR)来表示可用性,再乘以100%,就是真正的可用性。
因此,拥有很长的MTBF和很短的MTTR可能会得可用性非常高的结果。不幸的是,MTBF和MTTR却是营销部门可以猜测的数字,如果他们使用这些数字来解释。例如,企业可以通过假设客户端具有丰富经验的工作人员和备件,并可在20分钟内修复UPS,UPS的可用性可以引用99.999%。然而真正的情况是,致电服务工程师上门维修,等待备件,重新投入使用之前进行测试(通常为一天或更长时间)。而假设MTBF为100,000小时(12年以下),而MTTR为20分钟到12小时,这可以产生任何人们想要的结果。
第二个问题是故障事件的数量(多个MTTR求和)和MTBF的组合。旧版本的Uptime Institute白皮书(现已作废)试图将可用率与四个Tier等级相关联,但没有定义测量时间。这导致了一个奇怪的情况,即Tier级别低的数据中心设施每年可以允许53分钟的离线时间,但级别高的的Tier IV级数据中心只能提供5.3分钟。这很奇怪,然而如果每年发生一次的故障,这个对于TierI-Tier IV的任何级别的数据中心来说都是灾难。
不管怎样,人们不要总是关注这个问题,而要考虑组合问题。这尤其影响到许多非常短暂的失败。最简单的说明方法,就是以人们的心脏跳动为例,某人的心脏是99.9%"可用",这听起来还不错,一年有3153600秒,0.01%代表着一年中可能30000次心跳停止跳动,如果某次时间较长,就会带来生命危险,而如果它们在一年中平均分布,那么可能只是感觉不舒服。在数据中心的术语中,查看电源输入提供给负载的电压。许多现代的服务器无法承受10ms的电力中断,而在6毫秒时,电力系统的可用性为99.9999999%,因此每年可能会产生三个10ms的故障。
那么该怎么办呢?既然可用性是一个度量标准,只要它表达清晰,就没有什么问题。例如,"10年以上测量的99.99%的可用性,单次故障持续不超过10小时"是MTBF(10年)和MTTR(10小时)的明确声明。一些人可能已经算出了答案,可用性将达到99.98859.但是现在人们可能会得出这样一个观点:MTBF比可用性更重要,人们需要采用MTBF来计算可用性在第一位。"单一失败"却避免了多个事件的求和。
当然,弹性数据中心的最终"失败"可能是最容易实现的:并不是通过黑客互联网入侵UPS,而是人为因素或故障关闭电源,提高服务器入口温度,使其宕机。
弹性对于数据中心基础管理和防止出现停机中断都是至关重要的。即使是好的设计和运营也可能会发生失败。因此数据中心技术人员通过设计和测试来满足运营商操作人员的需求,减少对停机中断的恐惧,同时还可以提高工作人员管理维护数据中心,并提升对可用性的信心。