很多时候,我们认为灾害离我们很远,但是当灾害发生后,我们往往追悔莫及。在数据中心管理方面,我们也需要将那些想当然的经验主义错误消灭在萌芽,任何事都没有表面看起来那么简单。无论是你建立数据中新还是管理它,再小概率的事件都有发生的可能,因此数据中心管理者必须始终极为谨慎,做好灾备工作,将灾害对数据中心的影响降到最低。
小概率事件也有发生的可能
Rackspace公司的主机托管业务及由其承载的Mosso Cloud运行在位于达拉斯的同一座数据中心内部,但2007年11月13日一场无妄之灾使其在数小时内陷入了瘫痪。
一位患有糖尿病的大型四驱车司机,由于病发而出现短暂昏迷,而撞上了一栋容纳着Rackspace基础设施供电装置的建筑物,导致电力供应中断了。事故造成两套冷却机组无法重新启动,使数据中心出现了过热。这次中断一直持续了五个小时,据报道称Rackspace公司还为此次事故向客户支付了350万美元赔偿金。
另一个事件,2015年1月9号,一座将被作为Amazon.com数据中心的大型建筑物发生火灾,起因则是一名焊工不慎点燃了现场的建筑材料。此次火灾触发了弗吉尼亚州阿什本当地的三级警报。浓烈的黑烟在几英里之外都清晰可见。
Amazon公司发言人在接受当地ABC新闻媒体采访时指出,此次火灾造成了大约10万美元损失,但同时补充称“并没有对Amazon业务运营带来任何影响”。
四大灾备技术
现在的数据中心承载的业务越来越重要,引入有效的灾备技术必不可少,可以有效的能减少数据中心发生故障时带来的损失。数据中心整体灾备技术可以分为以下四种:
1、冷备
冷备技术是中小型数据中心或者承载业务不重要的局点经常使用的灾备技术。冷备技术的用站点通常是空站点,一般用于紧急情况;或者仅仅是布线、通电后的设备。这种方式数据中心业务恢复的时间难以保证,有时临时搭建的平台也可能因为不稳定而再次出现中断。但这种方式不必准备大量的空闲设备,维护成本可以忽略不计。但目前,冷备技术已经越来越无法适应数据中心高要求的发展,逐渐成为一种淘汰的技术方式。
2、暖备
暖备技术是在主备数据中心的基础上实现的,前提是拥有两个一主一备的数据中心。备用数据中心为暖备部署,应用业务由主用数据中心响应,当主用数据中心出现故障造成该业务不可用时,需要在规定的RTO时间以内,实现数据中心的整体切换。当实现主备数据中心切换时,需要断开主用数据中心路由链路,并连接备用数据中心路由链路,保证同一时间只有一个数据中心在线。暖备技术还是手工方式,操作时需要有人24小时值守才能完成,工作效果较低。
3、热备
相比暖备,热备最重要的特点是实现了整体自动切换,其它和暖备实现基本一致,实现热备的数据中心仅比暖备的数据中心要多部署一项软件,软件可以自动感知数据中心故障并且保证应用业务实现自动切换。业务由主用数据中心响应,当出现数据中心故障造成该业务不可用时,需要在规定的RTO时间内,自动将该业务切换至备用数据中心。
4、双活/多活
通过双活技术可以实现主备数据中心均对外提供服务,正常工作时两个数据中心的业务可根据权重做负载分担,没有主备之分,分别响应一部分用户,权重可以是按地域划分,或数据中心服务能力或对外带宽。当其中一个数据中心出现故障时,另一数据中心将承担所有业务。除了双活技术还有多活技术,多活就是业务在多个数据中心上同时运行,当有一个或多个数据中心故障时,其它数据中心将自动接管所有应用业务。具体实现上,多活技术部署了很多种检测故障的方式,还可以实时检测服务器的运行状态、服务器负载均衡的情况,即使在没有故障的时候也可以根据应用业务量在多活数据中心之间调整。多活的大特点是不会造成数据中心的资源存在浪费,数据中心都承载应用业务运行。但投入成本也会高,实现技术也更为复杂,现在在金融行业、互联网行业的数据中心都乐于采用多活技术。[返回频道首页]
四种灾备技术对比