数据中心的重要性不言而喻,尤其要保证其业务正常运转的连续性,要常年不间断正常运转。不过,数据中心里有很多子系统。就应用业务这部分来说,有服务器、网络、存储、安全等几个部分,每部分都涉及一系列技术,牵扯到成百上千台的设备,这样庞大的系统难免会出现这样那样的问题,如何在出现故障之后,保持系统正常连续性运转是每个数据中心都必须要重视的问题。因此,保障技术就是为了提升数据中心可靠性的,尤其是在局部出了故障之后,系统依然具备短时正常运转的能力,这就好比飞机有常备有两个发动机,万一其中一个发动机出了故障,另外一个发动机可以即刻启动工作,两个发动机完全独立,互不干扰,避免出现两个发动机同时故障的情况出现,数据中心也是如此,从多个角度去考虑冗余备份,提升可靠性,冗余是提升数据中心可靠性最简单最有效的方式。那么,接下来我们就扩展讨论一下数据中心的可靠性保障技术。
可以将数据中心的可靠性保障技术分为两个大类:一是数据中心内部的可靠性保障技术;另一个是数据中心间的可靠性保障技术。先来说数据中心内部的可靠性技术,主要包括三部分:冷备份、热备份、轻量级备份。冷备份指的是数据中心发生故障时,备份系统未安装或未配置成与当前使用的系统相同或相似的运行环境, 应用系统数据没有及时装入备份系统。备份系统需要临时准备,数据备份介质(磁带或光盘)恢复应用数据,手工逐笔或自动批量追补孤立数据,将终端用户通过通讯线路切换到备份系统,恢复业务运行。显然冷备份恢复时间较长,数据完整与一致性都很差。冷备份不适用于要求业务零中断或无状态应用的可靠性保障,当然冷备份方式投资较少,节省运维费用,可在一些承载不重要业务的中小型数据中心使用;热备份指的是数据中心在正常运转时,会实时将数据同步到备份系统,备份系统的指令、内存、所有状态数据均与正在运行的应用系统完全同步。当数据中心发生故障时,不用追补或只需追补很少的孤立数据,备份系统可快速接替系统运行,恢复业务。显然热备份业务恢复时间短,甚至没有中断,数据保存完好。不过,热备份投资大,平时运行管理较复杂,运维难度大,需要维护人力和资金都大,一般只在重要的数据中心业务中部署,尤其是一些不差钱的超大型数据中心有部署。有的数据中心业务即使有几秒的中断,都会带来严重损失,这就必须部署热备份的技术。冷备份和热备份走两个极端,对于那些中型的或者业务不是那么重要的数据中心,让数据中心很难做选择,于是又出现了介于两者之间的可靠性技术:轻量级备份。轻量级备份方式中,备份系统的数据和应用系统周期性保持同步,时间上不是实时,当数据中心出现故障时,恢复时间介于冷备份和热备份之间,轻量级备份数据实时性也较差,但不至于丢失严重,曾经备份过的数据会留下来。轻量级备份投资不是很大,运维难度也不高,适用于中型数据中心部署。
另一部就是数据中心间的可靠性保障技术,主要也包括三部分:同步容灾、异步容灾及半同步容灾。同步容灾就是建立异地数据中心,异地保存一份与本地数据中心完全一致的数据备份。当本地数据中心出现灾难时,业务系统自动切换到异地的数据中心继续运行向外提供不间断服务。要保持两个数据中心的数据完全一致,不仅技术实现上难度非常大,投资也非常大,同步容灾意味着要建设一座或多座和现有本地数据中心完全一致的数据中心,投资往往高达数亿资金,就是日常运维也要数千万,一般只有金融和互联网行业的大型数据中心才有部署。同步容灾一步到位,对整个数据中心进行冗余备份,备份最为彻底,可靠性自然高,可以自如应对地震、洪水等极端自然灾害。异步容灾也需要在异地建多座数据中心,不过对数据备份方式是异步的,周期性地进行同步,异步容灾技术实现难度小,虽然数据落后,但必须保证数据完整一致性和可用性,异地数据会比本地数据落后一定时间,这个时间随着采用的技术、带宽、距离、数据流特点的不同而不同。异步容灾对带宽和距离的要求低很多,只要求在某个时间段内能将数据全部复制到异地即可。不过,既然数据不是同步的,在数据中心发生故障时,最近的一段时间数据会丢失,也许几分钟,也许几个小时,这要看异步容灾周期性同步数据的时间频率。在同步和异步之间还有一个半同步容灾。半同步容灾基本等同于同步容灾,同步容灾要求前部分数据没有同步完,不能进行下一组数据的同步。但在某些环境下,如带宽距离时延均较大的情况下,这对性能影响非常显著。半同步容灾就是同步数据时遇到这种情况时,对数据多进行几次读写,没有及时同步过来的数据,通过后面的同步依然可以追回来,所以半同步容灾更适合于实际应用。在数据中心间的可靠性技术中,实际上采用的基本都是这种半同步容灾技术。
可靠性是一个与时间相关的标准,时间越长,可靠性越低。理论上任何一个数据中心随着运行时间的增长,迟早都会出现故障。如果要求数据中心长期向外提供不间断业务,就需要部署可靠性保障技术,提升数据中心可靠性,哪个数据中心都离不开它的护佑。