没有挖断光纤,也不是电力部门问题,更没有所谓的消防警报延误抢修时间,经过记者多方调查核实,阿里云在香港中止服务12小时就是一起由硬件故障引发、抢修和恢复严重超时的事故。
这类数据中心的电力事故原本是国内外云服务商普遍面临的一大问题,但用一位业内资深人士的话来说,“12小时才恢复实在太久了。应该几分钟就解决的。”
12小时的超长处理时间,以及过程当中阿里云与相关方陆续给出的五花八门甚至自相矛盾的解释,引发了用户的不满和业内的质疑,也暴露了阿里云在故障处理和公众沟通中存在的问题。有部分用户甚至反应15个小时业务才恢复。
事故发生在6月21日上午9点到10点之间,一些使用阿里云香港数据中心的用户发现服务出了问题,此后,阿里云方面通过博客公告称由于运营商电力问题造成香港机房故障,正在抢修。
此后阿里云的客服给用户的解释几易其口。有用户告诉财新记者,事故后致电阿里云官方客服,得到的解释是香港和大陆地区所连光缆挖断,但用户质疑“难道只有一条光缆”后,阿里又回复称是因为运营商的电力故障。
6月23日,阿里云方面向记者发来声明对事故作出说明:6月21日上午9点37分,阿里监控系统发现阿里云香港IDC运营商名气通机房出现访问异常,名气通反馈原因为供电系统故障导致数据中心大楼整体断电,并触发消防报警。根据当地的消防规定,必须彻底排查隐患并完全消除后,才能获准进场做电力抢修。21点22分机房正式恢复稳定供电,阿里立即执行既定预案逐项恢复服务,21点32分安全防护服务恢复正常,各项服务陆续恢复,截至23点39分全部服务恢复。
按照这份说明,阿里云香港服务瘫痪12小时主要是因为机房建设方和运营商名气通电力故障,阿里云直到电力故障发生近12个小时后才得以进入机房抢修。从阿里云的解释来看没能及时抢修成功是因为整栋大楼都断电而且无法切换备用电源,并且消防隐患排查耽误了抢修时间。阿里云只用了10分钟(21时22 分到21时32分)恢复了安全防护服务,继而用了两个小时恢复全部服务。但事实并非如此。
消防警报子虚乌有
一时间,阿里云香港合作伙伴运营商名气通被推上风口浪尖,6月23日下午,名气通方面经财新记者多次询问发来了官方回应,承认电力故障,但只字未提大楼整体断电,以及消防火警等因素影响。
名气通称,其“香港二號數據中心于2015年6月21日上午9點40分,因電力出現故障,導致部分客戶服務中斷。名氣通第一時間啟動應急方案,進行緊急搶修,並于下午2點恢復部客戶的服務,並于當日晚上9點50分,完全恢復電力供應,客戶服務全部回復正常。”
在现场参与抢修的不愿具名人士告诉记者,当时并未有火警以及消防等因素干扰,整栋大楼并未断电,只有部分用户受影响。“消防封楼因素造成客户无法进入数据中心处理事故是谣传。”该人士明确表示。对于事故处理经过,他称:”就是电力故障,名气通的部分用户受到影响,阿里云是其中一个,名气通的数据运营团队第一时间就通知了客户,最早的客户10点不到就到了。”然而,问什么需要12小时才恢复电力,该人士称自己并非工程出身无法回答。
事故责任双方对于事故经过解释有出入。记者联系了香港消防处,官方给出的回复称,为了防止安全隐患,不排除因为故障触发消防系统自动断电。但消防处称查阅火警记录后告诉财新记者,21日上午9点到10点半这段时间内,名气通机房所在的将军澳地区并没有关于名气通二号数据中心的记录。这意味着事故发生当时当地没有接报火警,也没有消防处人员到场处理,所谓消防因素延迟了事故处理的说法不成立。
业内人士也向记者分析认为所谓消防因素不合常理。国内一运营商在香港数据中心工作的人士告诉记者,名气通二号数据中心所在的香港将军澳产业村是香港最重要的数据中心集中区域,国内运营商、香港地区多个重要金融机构的机房均建设于此。“香港方面在消防、台风等各类备灾上是很注意的,因为消防安全处理造成一个机房十几个小时不通电很难想象。”他说。
针对各方质疑,阿里云于6月23日傍晚再次致电记者,提供了更多事故细节。新的说法是:断电并非整栋大楼,而是机房所在楼层,但因为物业工作人员考虑到安全问题要求整栋大楼疏散。而阿里云方面到下午14时才得以进入机房配合IDC运营商处理事故。
根据新说法,阿里云开始抢修和处理事故的时间并非晚上21时22分,而是下午14时,整整提前了七个多小时。
一位国内大型互联网公司IT基础设施技术的负责人向记者分析了造成断电的可能原因。他指出,国内互联网公司在国内的机房就算外部电力全部切断,也都有备用的柴油发动机,能够维持的时间也比较久。在他看来,香港机房断电最可能的原因是控电设备故障,接入强的外部直流电源无法实现切换,因而服务器大面积断电,导致服务器宕机。这类维修耗时较长。另一种可能的原因则是柴油发电机的供电模组不可用或者故障。
无论哪一类事故原因,断电12小时在业内都被认为是”太久了“。
CSC首席分析师张广彬告诉记者,国内外对数据中心的断电有基本的5个9标准,即一年之内99.999%的时间内不可以断电。这意味着全年数据中心断电的时长不能超过5分钟。
这样的标准在实际运行中很难达到。据张广彬称,机房断电是国内外云服务商面临的一大问题,今年初国内另一家云服务公司青云也曾遇到相关问题。而国外包括亚马逊、Facebook等企业都曾遇到过电力故障。一旦断电后,有可能对机房的硬件,以及云系统软件构成影响,即使恢复供电后也需要一定时间处理硬件和软件故障。在他看来,持续12小时的断电是近年来非常严重的事故:”阿里云作为大公司,因为用户数量多所以影响范围也比较大。“
用户的不满与阿里云的信任危机
阿里云用户对此次事故的质疑和不满更多并非来自技术,而是针对阿里云对事实的披露效率和诚信。
阿里云21日上午10点35分在博客上挂出公告称故障正在抢修,希望用户测试服务是否恢复正常,并电话或者工单反馈。
阿里云后来在给记者的回复中也称在与香港名气通进行深入复盘,并要求其尽快完成整改,避免此类问题再次发生。同时已经启动对客户百倍赔偿。阿里云称:“我们深知赔偿不能解决所有问题,我们对造成阿里云香港中断服务深表愧疚。云计算是一个复杂的系统工程,过程中有着各种艰难险阻。我们将一如既往地努力,消除一切隐患,共同和我们的客户一起实现云计算梦想。”
然而,在阿里云等论坛上,不少用户对阿里云的事后处理非常不满。阿里云的米芽时代创始人童谣告诉记者,故障后网站无法访问,无法切换。而公司对数据没有本地备份和异地备份,业务直到晚上11点才恢复正常:“多次重启服务器,尝试了很多次才可以正常使用,根本没有无缝衔接。”
童谣告诉记者,公司原本使用腾讯云服务,后来觉得阿里云在传输稳定性等方面更胜一筹就转到了阿里云。但这次事件后,他们开始考虑将部分业务再次签回腾讯云。
实际上,由于云服务是IT基础服务,一旦遇到公司提供的是平台业务,后续影响的将是各类普通用户。周国星在国内使用某交易平台公司的服务进行比特币交易,服务崩溃十几个小时,交易受阻,损失无法评估。更让他郁闷的是,阿里云只会赔偿平台,但平台实际上没有业务,无所谓损失,只有他这样的终端用户会守着电脑一遍遍刷新几个小时。在他看来,阿里云这样大的公司,事故发生三个小时后才告之设备故障“很不正常”。
海外云服务模式安全么?
实际上,就在阿里云出事故的同时,自媒体人徐家俊也反映自己使用的另一家虚拟主机商恒创科技的主机也出现瘫痪。6月23日下午,徐家俊告诉记者目前服务恢复,但公司未给任何公告以及事件解释,公司客服方面称要到6月23日晚间才回邮件告知事故原因。在他看来,香港主机、机房和云计算服务出问题并非个例。香港云服务的安全性值得关注。
中国的很多互联网公司之所以选择香港数据中心,一方面是海外业务需求,另一方面是为了绕过内地的数据备案制度。随着创业公司大批涌入,以及互联网公司海外业务需求,越来越多的公司选择使用香港云服务。
前述国内运营商人士告诉记者,香港地区气候炎热,且多有台风等灾害,在数据中心选址上并不特别有优势。但香港政府方面对数据中心建设非常支持,很多机房都提供免费的制冷供电,甚至提供两个电力供应商。此外,香港是亚太地区海底光缆集中交汇地区,通讯覆盖非常全。基于这样的基础设施,很多主机和数据中心建设商都选择在香港建机房。
张广彬告诉记者,因为海外业务吃重,美国的互联网公司在海外设立数据中心时多选择自建模式。但中国互联网公司的云服务主要服务于自身本土业务,在海外扩张时都采用租用模式,即租用机房和数据中心,数据中心运营交给合作伙伴,以此控制成本。虽然租用和自建在运营过程中没有绝对的优劣对比,但自建模式的内部协调效率更高。
在这次事故中,阿里云和名气通的事故处理都暴露了问题。张广彬介绍,名气通作为香港煤气旗下公司,公司依租靠光纤和煤气同管道铺设在网络覆盖上有优势,国内也已经建立数据中心:”算是有名气的公司,出这样的问题还是很让人意外的。“
租用模式中合作伙伴的能力非常重要。腾讯云的合作伙伴是Equinix。腾讯云方面告诉财新记者对于数据中心运营商的选择有严格要求:包括全球范围内有多个数据中心,超过15年的全球运营数据中心建设和运营经验,多年的良好可用性记录。腾讯方面还强调,对于IT设备等基础设施都实行24小时全年轮班现场支持。
但包括阿里和腾讯等在内,在香港地区都是单一数据中心,目前尚未具备同城备灾系统。阿里云和腾讯云都称目前正在筹建香港的第二个数据中心。