台风、飓风、海啸以及远超机房承受能力的洪水,这些自然灾害使得保持数据稳定的工作变得极具挑战性。

QQ截图20150516175424

自然的力量在有些时候显得异常强大并且难以控制,比如2005年肆虐横行美国东南各州的katrina飓风,在自然界的超能力面前,人类的力量显得不值一提。如果在灾害中电源及数据连接同时损坏,这使得确保足够的正常运行时间彻底沦为空谈——再说,这种时候谁还会指望维护人员来干活呢?在这种情况之下,如果数据中心实在无法保证全天候的设备运作(例如主机托管及代管业务),那么在可预警的灾害袭来之前主动断电也许是更好的选择。因为一旦正常运转中的设备在遭遇这些灾害时,电力中断及数据丢失几乎是无法避免的悲剧。

大家也许会问,服务器与存储设备的潜在损坏风险又有多大呢?事实上,即使有最可靠的UPS系统及后备发电机组保驾护航,损坏风险仍然不容忽视。比如说,恶劣的气候环境导致建筑物顶板破损,暴露于室外的设备必然危如累卵。此外,常见的通信线路中断意味着除非整个设施的各个部分都有专人看管并手动操作,否则管理员们将无法通过远程控制的方式检测设施状况或者是进行断电后的关机保护。具体的应对措施取决于大家设施部署中的种种细节,但我们永远要把安全放在第一位,因此消极回避并祈求好运显然是下下之策。

以我亲身经历过的katrina飓风为例,由于气象灾害预警已经提前发出,预料到可能到来的灾难后,我选择了通过远程手段关闭两个处于不同状态的数据中心,关闭后数据中心中只有交换机与VPN设备仍在运作。当然,这些数据中心内的几乎任何组成部分都能够进行远程控制,从开启、关闭服务器到在网络上获取每台相关设备的控制台访问权,其中包括存储控制器、核心切换等等。关闭数据中心的工作只花费半个小时,会用到的是通过特殊命令关闭每台Linux服务器的脚本工具——值得一提的是,当下普及度极高的虚拟化应用使关闭虚拟机的工作异乎寻常的简单。

我再举另外一个例子:另一家网站没有采取同样的应对措施,本来他们计划在下午三点实施关闭,但该网站却在当天中午十一点四十五分莫名其妙地遭遇电力中断,这时风暴其实还尚未袭来。而且,他们受相关规定及网站自身的限制,也没有准备后备发电机组。就在那个时段,我刚刚在某个停车场中通过自己的iPhone将服务器全部关闭。我利用脚本关闭了约半数的服务器,但在存储系统中Windows对话框却恼人地弹出,导致脚本无法顺利执行。关于数据中心,我最后收到的信息来自一条残缺的短信,通知那套怪物级UPS系统中的电池已经用尽,接下来就是一团沉寂。不过想想也好,毕竟我所管理的基础设施在两百五十英里之外,任何所谓积极的应对措施都只能在风暴经过之后才有可能得以开展。

之后发生的事情是这样的:随着电力供给恢复正常,后备数据中心立即自动开始备份工作。由于除了弹出对话框的设备之外,其它大部分硬件早已正常关闭,因而在检测到电力供应后其它服务器按照预定计划自动启动起来。网络设备运行良好,存储系统也同样未受损伤。实际上,与发生故障时的启动过程不同,这次的灾后启动极为顺畅无阻。对于某几台服务器,我不得不手动开机、对存储状况发生异常的网络文件系统进行重新安装,这一异常影响到了其它几台服务器的正常启动并连带给几套虚拟机系统带来麻烦,不过也就仅此而已,并未发生太糟的事态。

有组织、有计划地关闭数据中心设施带来的良好结果令人欣慰,而负面影响相比之下也为害甚轻。如果大家所运维的数据中心除了自然灾害之外,还有可能在正常的业务操作中遇上需要彻底关闭的情况,那么尽早制订一套具备可操作性的关闭计划绝对比临时抱佛脚要好得多。不管怎样,这次关机经历增强了我对硬件事故承受能力的信心。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-01-09 16:53:00
市场情报 中兴通讯分布式存储+ DPU,加速数据中心转型
存储技术在不断地创新、完善、加速演进,以更好地满足业务的存储需求,但同时也使得存储协议和文件系统越来越繁重。 <详情>
2023-11-17 10:35:56