日前,比利時布魯塞爾西南郊的St.Ghislaina小鎮遭遇了強雷電天氣,當時的雷電天氣總計有四次擊中了當地一處電力設施,并導致主要電力系統的供電中斷,而谷歌的數據中心恰好就位于該電力設施的附近。其結果是,谷歌數據中心服務器中大約0.000001%的數據遭到了永久刪除。
由于谷歌當地的數據中心主要被用于驅動谷歌云計算引擎(Google Compute Engine)服務,這一引擎主要都是用于商用,因此包括谷歌郵箱、Youtube、Google Drive這些消費者層面的服務都沒有受到影響。
一家名為“Azendoo”的法國初創企業負責人查爾斯-大衛(Charles David)表示,因為谷歌數據中心遭遇雷擊,自己公司的服務遭遇了長達12小時的中斷,幸運的是,Azendoo將自己的數據在另一處谷歌數據中心進行過備份。
接下來就從谷歌的官方聲明來看看本次故障到底是什么情況。從谷歌的故障聲明來看,在受到雷擊后第一時間谷歌的團隊就發出公告,披露事故處理情況以及下次公告時間,雖然是一連串的休息中,但是還是做到了信息透明,讓用戶心里有底。
OK,扯淡結束,下面探探本次有些磁盤數據永久丟失的事情。據谷歌稱是因為掉電,導致小部分在掉電時操作的數據未能完全保存。
分布式UPS功與過
谷歌曾在2011年公布了其上一年2的數據中心耗電情況。根據谷歌提供的數據,這家互聯網公司一年的電力消耗量高達近23億千瓦時,比21萬個美國家庭一年的用電量加一塊兒還要多。但是谷歌共擁有近90萬臺服務器,約占全球3%的服務器數量,但只使用全球數據中心1%的電力,顯然谷歌數據中心的運作比其他數據中心更為高效,節省了大量的資金投入。
其總體思路是采用中壓配電輸送到機房周邊,靠近負載就近經變壓器降壓成低壓,再通過低壓母線輸電到機房內的IT機柜上。模塊化的戶外型變壓器及低壓配電柜環繞機房周邊,采用集裝箱型的柴油發電機組作為變配電的供電投切備份,柴發風管直立到屋頂上排風。經過變壓器變壓后的市電通過母線槽或者線纜直連到機房內的機柜上方,直接給自帶分布式UPS的服務器供電。
Google的12V掛電池方案采用分布式電源加分布式電池作掉電備份,原理是每個服務器帶一個電源并配一個鉛酸電池,市電正常時候市電直接給設備供電并給電池充滿電,市電中斷時候電池放電備份幾分鐘,直至柴發起來繼續供電。有兩個顯著特點:
1、電源產自中國,輸出參數為13.65V &20.5A,這個服務器的總輸出功率不會超過250w。
2、關于電池,免維護鉛酸蓄電池無疑,從公開的資料上其容量只有3.2ah,充其量只能夠維持3、4分鐘以內的服務器掉電保護時間。
該方案的核心技術是電池管理及切換控制,實現供電效率達到99.99%。當市電停電后,直接掛接在12V輸出上的電池短時放電,直至室外的柴發啟動恢復服務器電源帶載。電池參與放電的時間基本不到一兩分鐘,因此電池的容量很小,大約只有3.2Ah,備電時間遠遠小于傳統數據中心15到30分鐘的電池備電需求,因此對柴發的啟動要求很高。
我們前面知道谷歌的柴發是模塊化直接安裝在變壓器旁邊的,很有可能是低壓柴發,其啟動很快。而且每臺柴發對應一個變壓器,沒有復雜的柴發并機以及啟動時序等問題,因此正常情況下柴發啟動時間可以控制在十幾秒以內,一兩分鐘的電池備電時間基本上是夠了,但這對運維水平要求就非常高了。當然谷歌的軟件架構和業務備份方面也足夠強壯,甚至部分設備停電也不會影響到業務正常運行,因此只有強大的技術實力才可以采用這種供電架構。
但是本次谷歌就相當悲催,某個電力模塊被直接擊中四次(概率相當于你出門買彩票中500萬的事情連續發在一個禮拜),導致UPS電力耗盡,因此導致設備掉電,損失了部分數據。
在隨后發布的官方事故報告中,谷歌表示自己需要為這一事件負上全部責任,谷歌表示企業將所有數據存儲在單一數據中心會不可避免的在遭遇數據中心級別意外時候面臨巨大風險,因此也鼓勵受對可用性要求較高的企業用戶考慮將數據備份到其他谷歌存儲服務中。
“盡管這一事件看起來并不嚴重,但卻清晰的表明了企業將數據全部存儲在單一數據中心所面臨的巨大風險。”Proper Villains公司合伙人阿隆-圖比克圖比克說道。
說這些并不是幫谷歌去洗脫責任,而是希望大家可以從一個平常心,從技術角度來看待這個問題。因為,發生故障并不可怕,可怕的是故障造成的數據丟失,給用戶造成惡劣的影響。谷歌此次數據中心遭遇了重大雷擊事故,但卻僅有0.000001%的數據丟失,其迅速反應能力依舊值得肯定,谷歌云計算引擎團隊理應為此感到驕傲。