近年来,数据中心故障屡屡发生,其中包括在新加坡证券交易所电力中断事件(2014年SGX的停电事故是由于多种因素的组合),虽然这个事件是个例外,新加坡证券交易所还是公布了这个消息。但其他数据中心运营商的数据中心发生的故障,却由于行业的竞争性处于保密状态。
保密协议防止学习
“数据中心是一个复杂的定制同源技术系统。人员和技术方面不能分离,对这两方面都需要揭示到底是什么地方出了错,而且往往这些失败是之前发生过的。”i3解决方案公司董事长埃德•安捷在会议上说。
而其他行业如航空业也有同样的问题,但其可靠性要求更高,因为事故调查规定了可靠性的级别。安捷说,“数据中心是一个年轻的行业,目前不受监管,也没有绝对的权威,而其最接近的安全法规,有些类似金融服务当局的安全规定或授权(如新加坡金融管理局MAS)。”之所以没那么高级别的调查,其中一个原因是数据中心的故障不会造成人员伤亡,不像飞机失事那么严重。
其实数据中心一系列的故障都是可以避免的。安捷说,例如,数据中心运营商拒绝使用剩余电流探测器安装在服务器中,这个设备是为了保护人们免受电击。而数据中心运营商认为这种设备部署在他们的数据中心是不合适的,他们认为部署一个低于30mA的推荐设置,会造成服务器故障,并将造成难以预测的级联开关的跳闸。
安捷表示,由于故障数据对于其他厂商来说不共享的,这样的信息和知识并不适用于所有用户,因此数据中心实现正常运行时间比其期望的低得多。
他预计,在越来越仪器化的世界,数据中心正变得越来越重要,这可能会在未来发生改变。在他看来,最终数据中心出现故障,甚至会发生人身伤害事故。届时,数据中心行业将不得不接受监管和改变,并将强制共享故障数据。