很多企業都在考慮一個問題,就是如何創建一個靈活的、有彈性的數據中心。這其中包括確保計算機系統和其他重要設備的有序恢復,保證所有供電系統的正常運轉等等。為實現這一目標,我們需要一個完善的災難恢復規劃。
假設你希望數據中心的恢復規劃良好,你必須將數據中心看做業務流程,其中有大量相互依賴且變化的部分。并且,由于其中有大量相互關聯的部分,當意外發生時,所有要做的事情必須預先用流程的形式寫在文檔上。如果數據中心管理員對災備毫無概念,這將是非常危險的事情。當所有事情都出了問題后,每個人都會將矛頭直指該數據中心管理員。
一整套體系架構和相關應用程序的流程首先是必須的。每個部件,或每個部件組通常有支持的體系架構,并且通常來講,都有一個或一組人對其負責。因此服務器會分到服務器組中,或虛擬組中,也有可能兩個都是。所有這些通常在一個體系架構組或一個運營組下面,然而當遇到重大事故時,這些都會呈現星狀圖拓展開來,和各容災管理員直接對應。誰負責,誰決策,需要做什么,以及所做的順序,這類管理模型必須清晰地記錄下來。
在整個容災規劃中,每個功能模塊必須明確其角色,負責范圍,以及時間點和所需執行的流程步驟。在數據中心中,所有的資源被完全保護并具備冗余。到一定程度后我們會驚奇地發現絕大多數數據中心中充斥著單點故障,這是我們必須考慮解決的。
另外,電源UPS風險也要充分考慮到。當然,還有一部分風險在于不間斷電源是否可以支撐到發電機啟動并接受所有這些麻煩。而且,讓供應商參與到實際測試中還是十分必要的。也可以通過電力公司參與測試。不過對于不間斷電源這種孤立的設備,是非常重要的……但你要從端到端考慮。不僅是不間斷電源,還有不間斷電源的不間斷電源,以及發電機,導線和電源分配器,并且按步驟從不論是變電站或發電機獲取電量。很多事可以,也應該作為預防維護事件進行。每年或每半年你應該進行負載測試;你應該做預防性的監測;你應該進行紅外線測試來檢測電線是否老化……所有這些都是一個整體。
總之,在進行數據中心容災規劃時要考慮到從主體設備到輔助硬件的方方面面。任何一個層面出了問題都可能影響業務連續性運行。