這份數據中心災難報告由兩部分構成,該報告完全基于現實經驗。在報告的第一部分中(詳見《親歷火災:數據中心災難恢復啟示錄》),管理人員一直工作到下午三點,研究如何預防電氣火災,最后決定在數據中心中添加一個聲音報警和兩個分解總線。通過這份災難恢復報告我們可以發現故障點以及如何避免云災難。
整整花費了一天喝半個晚上時間才在DR站點恢復了IR操作運營,而這也僅僅是針對最高級別的優先系統。有了便攜式空調設備、臨時通信和小型不間斷供電設備,我們就可以恢復手機通訊。需要花費幾個星期的時間才能替換大型交換機燒毀的部件,但是,我們還是需要了解哪里出現了故障,以便杜絕再次發生此類事故。
以下使我們所發現的六個故障點,然后我們在災難恢復報告中做了記錄。
隱患點一:空調設備
盡管我們配備了多個空調設備,但是這些設備都公用一個接線總機。只有兩個冗余單元和一組不間斷供電設備(簡稱UPS)室單元的電源是分開的,設計師認為這種思路是合乎邏輯的,但是,實際上這是否定了備用的想法。我們還未能夠正確設置總斷路器上的跳閘電流,工程師們和承包商還沒有調整好斷路器。因此,當一臺空調設備遇到問題時,主斷路器就會跳閘現象,而不是單個支路斷路器跳閘,這樣會造成80%的冷卻資源浪費。紅外線掃描可以在接線總機中完成,但是只有一部分空調設備能夠運行。未達到滿載,設備也不會溫度過高,因此,在測試過程中,我們也不會發現連接松動的現象。
第二個連線總機跟第一個連線總機一樣,在同一個電器柜中,這樣做的目的是滿足財務預算,因此,兩條電源總線是彼此相鄰的狀態。當一個發生爆炸時,也會同樣引爆第二個,然后我們就什么也沒有了。
隱患點二:數據中心設計
在災難恢復報告中,我們所要檢查的另外一個項目就是數據中心設計。因為,一臺發電機要供整個大樓使用,轉換開關設置在地下室、接線總機的上方。并沒有感知到即將發生的電源故障,但是被毀壞的接線總機卻會阻止我們。共用一個發電機,我們本應該設置多個自動交換機提供數據中心內數據轉換。用這種方式,如果將電源引入到數據中心中,且建筑內其他設備未受影響,那么,發電機便會開始工作,數據中心也會恢復緊急電源的使用。
我們反對電氣室與數據中心相鄰過近,因為,我們不希望電氣涉及到計算環境中。我們曾忽視了這一點。電氣室空調設備運行正常,數據中心中設備停止運行,此時,電氣室會產生正壓。當門打開時,爆炸所產生的熱量和煙霧會隨之發散。
隱患點三:煙霧探測器的問題
早期的預警煙霧探測器會立即識別危險,而且還可以控制氣體滅火,雖然其設置方式并非正確。因此,發現危險源時該探測器并不是發出警報,而是根據它感應到的煙霧,觸發其釋放氣體的功能。煙霧顆粒同樣可以污染其他正常運行設備的過濾器。唯一一個好消息是,與兩個備用設備一樣,電氣室內的空調設備都在同一個電路上,因此,可以繼續運行。沒有制冷設備,UPS會迅速升溫,然后關閉之前的計算機房。UPS應該走旁路,維護主機電源,但是,測試中我們卻發現,旁路連接出現錯誤。只有一臺空調設備,受到損害的可能性非常大。
隱患點四:優先等級
UPS可以通過網絡進行按序服務關系,但是,由于存在優先等級問題,這個想法一直也沒有實現。我們還了解到,其實并不需要Emergency Power Off按鈕,因此,也不會存在“高架活動地板”,不需要使用任何限制。工程師們指出了該行業一些非常危險的按鈕,“因為每一個數據中心都會有一個危險按鈕,”但是其中并不包含任何防護按鈕,防止其被過早使用。
數據中心管理人員將會面臨無數個挑戰任務。我們要學會如何能夠將這些實際過程中會接觸到的任務進行優先等級排列。
隱患點五:DCIM報警
當我問到,數據中心基礎設施管理(簡稱DCIM)工具會提醒我主要警告,但是唯一的局限就是ASHRAE的允許溫度,這個溫度限制高于數據中心的實際冷卻溫度。由于冷卻溫度的設定是建立在之前的推薦溫度值的基礎上,而且要比推薦溫度更低,因此,在還未出發報警之前就已經宣告失敗了,我們還需要花費很多時間來進行救災搶修。
DCIM還會顯示出,我們所設置的10個空調設備中有8個都宣布設置失敗,同時也陳述了失敗的原因和影響因素,我們沒有為DCIM系統購買機械設備模塊,因此,當冷卻單元裝置失靈時并沒有發出警告提示。這一點也會被記錄到災難恢復報告中。
隱患點六:缺乏訓練和標準
實際工作中,我們需要進行多次DCIM培訓,GUI非常復雜,會提供許多詳細的數據,使我們辨識起來非常困難。我們嘗試重新對GUI進行修訂,這樣,我們可以看得更加清晰明了,但是,其可配置性卻非常低。
IT應該包含在重要系統的選擇范圍內,在購買之前,進行同類測試,明確如何衡量其他軟件。
我們非常清楚地知道,這并不屬于III級事故,正規認證將會披露這些漏洞。公司避免了許多承包備份和DR站點所引起的麻煩,因此,開發和測試計劃的失敗原因在于我們自己。作為災難恢復報告中的一部分,我們花費了許多時間、非常認真的審閱了DR站點合同,并且根據審閱過程中發現的問題提出了一些改善建議。在制定DR計劃時,我們也獲得了一些幫助,通過轉接操作,現在我們可以一年進行兩次測驗工作。