当涉及到数据中心时,"弹性"一词可以定义为"在面对环境极端以及人为错误或故意破坏的情况下维持ICT服务的能力",通常可以将更高水平的弹性设计成机械和电力基础设施在成本上的溢价。

Uptime Institute的数据中心的等级标准是广泛用于衡量数据中心基础架构弹性的方法。然而根据研究,"人为错误"是数据中心中断的主要原因,至少为70%。但即使这样,可以通过冗余设计来提高可靠性。在每个总线中使用UPS的双母线供电系统可以在很大程度上保护双接线负载,防止电源故障,人为错误和无效的破坏,但即使如此,也一定要更加小心谨慎。

数字误导用户

当然,数据中心的用户希望数据中心具有更高的可靠性和可用性,并且物有所值。那么,如何了解数据中心的可用性呢?以下两个有些相互关联的"指标":

"Uptime Institute(I-IV)"或"TIA-942"(I-IV)的"类型",BICSI的"评级"和EN50600的"可用性类"

可用性百分率,例如99.999%(所谓的"五个九")

除了指出,只有Uptime Institute可以给出一个等级,TIA-942和BICSI是最适用于北美的ANSI标准,EN50600还没有被使用,人们可以将这些标准都概述成描述能力的四个级别"可维护性"和"容错".这些原则是明确的,兼容的可维护性回答了一个问题,即建立一个非常可靠(可能是有弹性的)数据中心,这个数据中心必须每年关闭一次以便维护?虽然容错系统可能会有任何组件,路径或空间"失败",但却不会影响ICT服务。

然而滥用最多的是可用性百分率,因为这很容易计算,但可以愚弄非专业的买方和用户,使其造成误解。其实要明确地表示可用性,只需要两个数字就可以,MTBF(平均故障间隔时间,小时)和MTTR(平均修复时间,小时),只需将MTBF除以总时间( MTBF + MTTR)来表示可用性,再乘以100%,就是真正的可用性。

因此,拥有很长的MTBF和很短的MTTR可能会得可用性非常高的结果。不幸的是,MTBF和MTTR却是营销部门可以猜测的数字,如果他们使用这些数字来解释。例如,企业可以通过假设客户端具有丰富经验的工作人员和备件,并可在20分钟内修复UPS,UPS的可用性可以引用99.999%。然而真正的情况是,致电服务工程师上门维修,等待备件,重新投入使用之前进行测试(通常为一天或更长时间)。而假设MTBF为100,000小时(12年以下),而MTTR为20分钟到12小时,这可以产生任何人们想要的结果。

第二个问题是故障事件的数量(多个MTTR求和)和MTBF的组合。旧版本的Uptime Institute白皮书(现已作废)试图将可用率与四个Tier等级相关联,但没有定义测量时间。这导致了一个奇怪的情况,即Tier级别低的数据中心设施每年可以允许53分钟的离线时间,但级别最高的的Tier IV级数据中心只能提供5.3分钟。这很奇怪,然而如果每年发生一次的故障,这个对于TierI-Tier IV的任何级别的数据中心来说都是灾难。

不管怎样,人们不要总是关注这个问题,而要考虑组合问题。这尤其影响到许多非常短暂的失败。最简单的说明方法,就是以人们的心脏跳动为例,某人的心脏是99.9%"可用",这听起来还不错,一年有3153600秒,0.01%代表着一年中可能30000次心跳停止跳动,如果某次时间较长,就会带来生命危险,而如果它们在一年中平均分布,那么可能只是感觉不舒服。在数据中心的术语中,查看电源输入提供给负载的电压。许多现代的服务器无法承受10ms的电力中断,而在6毫秒时,电力系统的可用性为99.9999999%,因此每年可能会产生三个10ms的故障。

那么该怎么办呢?既然可用性是一个度量标准,只要它表达清晰,就没有什么问题。例如,"10年以上测量的99.99%的可用性,单次故障持续不超过10小时"是MTBF(10年)和MTTR(10小时)的明确声明。一些人可能已经算出了答案,可用性将达到99.98859.但是现在人们可能会得出这样一个观点:MTBF比可用性更重要,人们需要采用MTBF来计算可用性在第一位。"单一失败"却避免了多个事件的求和。

当然,弹性数据中心的最终"失败"可能是最容易实现的:并不是通过黑客互联网入侵UPS,而是人为因素或故障关闭电源,提高服务器入口温度,使其宕机。

弹性对于数据中心基础管理和防止出现停机中断都是至关重要的。即使是最好的设计和运营也可能会发生失败。因此数据中心技术人员通过设计和测试来满足运营商操作人员的需求,减少对停机中断的恐惧,同时还可以提高工作人员管理维护数据中心,并提升对可用性的信心。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-11-16 09:24:00
国内资讯 京东11·11:撬动数据中心的支点——京东阿基米德
今年11.11,京东数据中心操作系统(JDOS)阿基米德已经全面接管了应用资源调度。每日调度百万台容器实例运转,每日为离线计算提供了多达3000万核。小时的计算资源,SLA履约 <详情>
2017-11-15 09:59:00
交换存储 什么是数据中心的双层存储系统?
大多数数据中心至少拥有五到六个不同供应商的不同存储系统,这既提高了存储成本,又加大了管理复杂性。而一个潜在的解决方案是全闪存数据中心,其中所有数据都移动到一个单 <详情>
2017-11-15 09:40:37
机房建设 数据中心从芯出发
数据中心是信息处理的集中场所,是由大量服务器、网络和存储等设备搭建起来的强大数据处理系统。虽然现在云计算、大数据、人工智能等这些软件虚拟化的技术在数据中心里大行 <详情>
2017-11-15 09:33:00
国内资讯 阿里云+思科,构建下一代数据中心
中国最大的公有云服务提供商阿里云的目标是在2019年之前达到或超越AWS的公有云市场规模,为此阿里云即将在北京建立的数据中心将会采用思科的技术来实现。 <详情>
2017-11-15 09:22:00
国际资讯 由于光缆被盗 即将开通的数据中心被迫延期
据国外媒体报道,位于南非约翰内斯堡市布莱姆芳登社区的数据中心价值200万南非兰特的铜缆11月11日被盗。这个数据中心设施将于12月开通,但由于发生盗窃案件,其运营将被 <详情>