網(wǎng)站很擔心意外導致的服務(wù)中斷事故,社交網(wǎng)絡(luò)巨頭Facebook也不例外。不過臉書倒是敢于直面慘淡的事故,主動采取“毀掉”數(shù)據(jù)中心的方式來演練事故應(yīng)對和處理,定期進行真實的事故壓力測試。
在該公司Scale年度會議上,工程副總裁Jay Parikh表示,拆散一個數(shù)據(jù)中心比將其重新組裝起來更容易,而該公司SWAT(Special Weapons And Tactics,特殊武器與戰(zhàn)術(shù))團隊執(zhí)行的定期壓力測試正在讓該公司軟件工程師在數(shù)據(jù)中心重組方面分變得更優(yōu)秀。
Parikh將這項工作稱為Project Storm,它始于2012年的Sandy颶風。該颶風威脅到了2個Facebook數(shù)據(jù)中心,雖然颶風并沒有對數(shù)據(jù)中心造成損害,但這一事件促使該公司的工程團隊開始思考在突然損失一個或多個數(shù)據(jù)中心的情況下,F(xiàn)acebook全球服務(wù)可能會受到怎樣的影響,該公司因此召集了一個SWAT團隊去尋找答案。
從2014年,Project Storm進行了一項真實世界的測試:干掉一個數(shù)據(jù)中心觀察流量是否能順利轉(zhuǎn)移。經(jīng)過多次測試,F(xiàn)acebook均能夠應(yīng)對單個數(shù)據(jù)中心下線的問題。目前該壓力測試項目依然在進行中。