几个月前,Facebook实施了一个全新的数据中心基础设施压力测试的想法。Facebook公司关闭了一个数据中心,以便检测系统的稳定性,以及检验公司应对此类事件的保障安全措施是否完善。
在旧金山举行的销售会议上,Facebook全球工程主管JayParikh作了关于数据中心基础设施压力测试的主题演讲。
“这不是一个小事,”他说,“我们将关闭数据中心一天时间,以测试系统如何回应,这意味着会影响功率达数十兆瓦的电力设备的正常运行。”
他没有指明是哪个Facebook的数据中心被关闭。Facebook在俄勒冈州、爱荷华州、北卡罗来纳州和瑞典都有自己的数据中心,在加利福尼亚州和弗吉尼亚州也有租赁的数据中心。
Facebook公司在“消防演习”测试之前也做了一些准备,虽然有人对关闭数据中心有所怀疑,但重要的是,这确实发生了。Parikh说:“我们把数据中心关闭了一天,而公司相关人员的准备工作也得到了回报。其实这项测试是相当无聊的。”
数据中心在关闭后,系统的响应并不完美,而工程师们也在此期间进行了一些改进。但是整个系统坚持了下来,Parikh表示,他的团队还将继续这样的压力测试。
Parikh表示。Facebook工程测试的关键原则之一就是面对失败。而Facebook会鼓励工程师们承担巨大的风险,对他们失败的后果并不会惩罚。
“我们不会气馁,”JayParikh表示。工程师们采取了尽量减少失败后果的预防措施,团队也花费了大量的精力分析失败的原因,并且能迅速恢复。