迅速發展的法國云計算提供商OVH公司美國市場正在積極追趕亞馬遜和微軟等巨頭,并計劃關閉和拆卸法國斯特拉斯堡園區的三個數據中心中的兩個數據中心,然而在11月10日卻造成了長時間的客戶應用程序中斷,中斷持續了一整天,直到晚上才恢復。
在斯特拉斯堡園區停電大約40分鐘之后,OVH公司位于法國魯貝(Roubaix)的最大一個數據中心的網絡連接失去了六個關鍵網絡接入點,其位置距斯特拉斯堡園區約500公里。OVH公司創始人兼首席執行官Octave Klaba說,這個網絡中斷事件與斯特拉斯堡數據中心中斷事件無關,是由光纖網絡設備軟件錯誤引起的。
OVH公司位于法國斯特拉斯堡園區的SBG1集裝箱數據中心
這個令人尷尬的事件是該公司的一個重大挫折。總部位于魯貝的OVH公司近期獲得了巨大的發展動力,獲得了新的財務支持,并擴展到歐洲和北美地區的新市場。今年早些時候,它收購了VMware公司的公共云業務,并宣布在美國俄勒岡州建設一個數據中心,并在弗吉尼亞州的雷斯頓新建一個辦事處。它還在弗吉尼亞州的Vint Hill建設了一個數據中心,離雷斯頓不遠。OVH公司已經在蒙特利爾市場建設運營了一個數據中心。
OVH公司創始人兼首席執行官Octave Klaba隨后在一篇詳細的博客文章中寫道:“這可能是我們發生的最糟糕的情況。”在這個博客文章中,他還描述了準備關閉使用集裝箱建造的兩個斯特拉斯堡數據中心,并決定縮短拆解的施工時間。
Klaba表示,“即使這個事件是由第三方廠商的設備所造成的,我們也不能否認自己的責任。我們在SBG集裝箱數據中心開展了一些工作來達到與其他OVH數據中心相同的標準。
11月10日,斯特拉斯堡園區停電3.5小時,但是OVH公司的員工花費很多時間重新啟動服務器并恢復應用程序。OVH公司自己構建的許多服務器顯然都經歷了由于中斷而導致的硬件故障。來自魯貝的一輛運送配件的卡車來到了斯特拉斯堡,工作人員在那里更換部件并啟動服務器,一直工作到深夜。
OVH公司的Roubaix數據中心網絡連接恢復正常比較容易,花費的時間也較少,但其影響范圍廣泛。這個數據中心園區網絡連接巴黎,法蘭克福,阿姆斯特丹,倫敦和布魯塞爾的網絡PoP,這些城市都是歐洲最重要的網絡互聯樞紐。
Klaba說,雖然把錯誤歸咎于沒有提到的光網絡設備供應商,但是OVH最終還是因為沒有過多的追究。
Klaba說,“我們將與OEM廠商合作,找出問題的根源,并幫助解決問題。我們不懷疑設備制造商的產品,即使這種類型的缺陷是特別關鍵。正常運行時間是一個設計問題,必須考慮到每一個可能性。OVH公司必須確保比它設計的每個系統更加可靠。”
Klaba所提到的第三方廠商的自動化故障是斯特拉斯堡園區的電力故障轉移系統切換到發電機供電時發生故障。Klaba表示,OVH公司經常對故障轉移系統進行測試,而最近在今年5月進行的一次測試沒有發生任何問題。
但他承認,OVH公司在基礎設施設計方面可以做得更多,以避免這次的電力中斷事件。整個數據中心由一條20kV的公共饋電線饋電,而沒有采用通常來自兩個獨立電網的冗余饋電的標準慣例。
Klaba表示,OVH為其他數據中心園區的個別數據中心使用冗余的電力傳輸和獨立的電網,但在斯特拉斯堡園區兩個數據中心(SBG1和SBG2)卻只采用同一個電網的電力。
Klaba解釋說,該公司開發了基于集裝箱的數據中心設計,實際上將集裝箱彼此堆放在一起,而不是采用傳統建筑的數據中心,通過避免獲得建筑許可證相關的時間限制來加速部署。這也是一個加快數據中心部署的測試,再投入一個新的市場,測試成功后,然后再進行大規模的投資。
SBG1數據中心是由八個集裝箱組建成斯特拉斯堡的第一個數據中心,經過不到兩個月的安裝部署工作,于2012年上線運營。隨著數據中心市場需求日益旺盛,于是OVH公司在2016年建成了非集裝箱式SBG2數據中心,采用“塔式”設計,并開始建設第三個數據中心SBG3.
然而,在建設SBG2數據中心之前,由于OVH公司正在努力滿足斯特拉斯堡的市場需求,2013年,OVH公司在這里建立了第二個集裝箱數據中心SBG4.
現在,OVH公司為節省時間和資金而迅速部署產能的決定已經引起了極大的反響,決定投入200萬到300萬歐元,為數據中心園區安裝部署第二套電力設施,并將客戶從集裝箱數據中心遷到SBG3數據中心,關閉并折卸集裝箱數據中心。