我们经常讨论一个数据中心的优劣,在讨论的过程中往往争论得不可开交。由于大家参照的标准各有不同,引起争论就不可避免。因为每个人考虑问题的角度不同,所以造成了这样的现象,这再正常不过了。这也让我们意识到,究竟如何客观去评价一个数据中心的好与差,关于数据中心各种指标的专家言论,机构发言,系统论文等都有列及,有时会让人看得眼花缭乱,更不知道如何去用这些指标去评价一个数据中心。笔者认为,不管数据中心建设的如何好,我们应该关注这个数据中心能为人们提供什么,这个数据中心好不好用,这个数据中心是否业务都是中断。根据这三个方面,可以概括出来我们关心的东西,而我们关心的地方就应该是数据中心差异的地方。对于一个数据中心,那么我们评价它的优劣标准就是这三个:可靠性,可用性和可维护性。这三个标准都有量化的指标,通过这三个确立的可量化数据中心基础设施建设衡量指标,也就形成了相应的行业工程基准,使得数据中心基础设施的设计有了可量化的依据,也使得评估有了可量化的依据。下面就来详细说一说这三个量化指标。

可靠性(Reliability):是指数据中心在规定环境条件下、规定时间内,完成规定业务的能力。可靠性用MTBF指标来量化。MTBF (Mean Time Between Failure,平均无故障时间),是衡量一个产品的可靠性指标。单位是“小时”,它反映了产品的时间质量。数据中心里的任何一款产品都要有MTBF指标,这个在产品出厂之前就要做完。MTBF也称为平均故障间隔,MTBF指标是一个比率,是产品故障总数与寿命单位总数之比。通常一款产品我们不可能连续运行几年,等到产品出现故障,然后算出结果,那么等产品卖出来,产品早就过时了。其实在实际生产过程中,是通过疲劳实验,以空间换时间,缩短实验的时间,从而对产品的平均寿命进行预估,得到MTBF指标。对于数据中心,由于数据中心包含有各种各样的仪器和设备,不同的设备MTBF肯定不同,甚至是相同功能的设备MTBF也有不同,所以对于数据中心的MTBF应该取所有设备MTBF的最小值。在一些数据中心充分考虑了设备的业务备份,从而很大程度上避免设备故障造成数据中心业务中断,所以MTBF数值越高就可以证明这个数据中心越好。而对于MTBF不高的数据中心,依然可以通过其它数据备份、容错的方式提高可靠性指标。其中容错是高可靠性的重要体现,当灾害或错误发生时,能够有自动修复、还原的作用,减少数据中心系统宕机率,确保系统不间断运行。

可维护性(Serviceability):是指系统在规定环境条件下和规定的时间内,完成规定功能的能力,以及完成维护的容易程度。可维护性用MTTR指标来量化。MTTR(Mean Time To Repair,平均可修复时间),是随机变量恢复时间的期望值。它包括确认失效发生所必需的时间以及维护所需要的时间。MTTR数值越小,说明数据中心故障恢复处理能力越强。数据中心出现各种故障是难免的,而MTTR数值小的数据中心,那么恢复业务的用时就短,带来的损失就小。比如像淘宝网,如果中断一小时,就会损失几十万条定单交易,不仅给阿里,给用户和商户都带来了损失,三方都受损,所以淘宝网要求全年网络不得中断超过两个小时,这两个小时包括业务变革、设备软件升级、故障等造成业务中断的时间,一旦全年累计中断时间超过两个小时,所有数据中心运维人员的年奖金清零,所以阿里数据中心运维团队承受这巨大的工作压力。在数据中心进行任何的操作时,都要充分分析MTTR指标。以往的MTTR数值很小,并不能代表未来数据中心不出问题,所以要对未来可能出现的突发事件想好对策。提升数据中心可维护性的最重要一环就是要加强对人的技术提升,只有运维人员充分掌握了数据中心的维护技巧,对数据中心各种业务平台、设备操作都很熟悉,才能大大缩短故障处理的时间,提升数据中心的MTTR指标。

可用性(Availability):是指系统在使用过程中,可以正常使用的时间与总时间之比。可用性用一个比率指标来量化。可用性的表征为:A=MTBF/(MTBF+MTTR),即可用性是由可靠性和可维护性计算得出的。比如:一个数据中心的MTBF是10年,MTTR是2小时,那么可用性指标A=10*365*24/(10*365*24+2)=0.9999772=99.998%.在数据中心行业里,通过可用性指标的9数字的多少来表示数据中心的可用性高低。表1列了关于可用性等级的定义:

20140928113506

大家通常用五个九,即99.999%,来衡量数据中心的可用性,只有达到五个九的数据中心才算是高可用性的数据中心,这意味着一个数据中心全年业务中断不得超过五分钟,可用性的高低一定程度上取决于可靠性和可维护性。

通过可靠性、可维护性以及可用性这三个指标基本可以对一个数据中心有个整体综合评价,通过三个指标的对比也可以分出数据中心的好与差,是评价一个数据中心的根本。正确运用这三大指标来指导数据中心工作,将有助于提升数据中心的业务处理能力,增加效益,减少故障带来的损失。数据中心也不能一味地追求这三点,提升这三大指标意味着数据中心要投入大量的资金与人力,包括软件、硬件、人力和培训等都需要投入。数据中心需要综合衡量这些花费,对比一下意外宕机造成的损失和投入的资金,看目前的数据中心主要顾及哪一方面,不要单独追求指标的三高。如果这样,虽然你的数据中心常年无故障,但是数据中心却因为高额的投入而陷入亏损,那就得不偿失了。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-01-09 16:53:00
市场情报 中兴通讯分布式存储+ DPU,加速数据中心转型
存储技术在不断地创新、完善、加速演进,以更好地满足业务的存储需求,但同时也使得存储协议和文件系统越来越繁重。 <详情>
2023-11-17 10:35:56