一份數據中心關機檢查表能夠幫助IT團隊在關閉電源和損失全部有價值數據之前,集中進行備份、測試以及系統驗證等事項。 盡管策略和流程是現代IT的關鍵,但每當需求提升時,數據中心管理員往往來不及關閉設備。需求就像接近中的暴風雨那樣富有戲劇性,也可能市政電網升級那樣司空見慣。
但是,企業準備和響應設施關閉的方法可以鼓勵或避免成本上的災難。
一份精心構思和經過測試的數據中心關機程序在業務連續性規劃中起著至關重要的作用。它定義了遷移或關閉應用程序、保護有價值的數據、關閉物理系統的最佳流程,然后晚些時候再成功地重新啟動它們。讓我們在一份基礎的關機文檔中考慮主要元素。
驗證和升級系統文檔
每份數據中心關機程序都是最終啟動的前奏,因此在維護期間結束前,適當的準備是確保成功重新啟動的關鍵。創建一個全面的(或者至少是當前可行的)文檔集,獲取每個系統的容量、操作系統和應用程序配置,特別注意在重新啟動時可能發生或意外更改的任何內容。有很多工具支持創建這個文檔集,并且最現代的配置管理和執行工具可以獲取和報告系統狀態。不要忘記獲取或記錄任何網絡設備或存儲陣列的配置。
管理依賴關系不同公司和設備之間的實際依賴關系差別很大,因此IT規劃者需要決定啟動序列,包括網絡設備、存儲陣列、DNS服務器、備份服務器以及調度器。一旦所有必要的服務器、存儲、網絡和關鍵服務,如DNS等恢復在線,啟動序列可以移動以重啟應用程序,如數據庫,緊接著是依賴的應用程序,如公司銷售系統。然后,啟動如公司店面網站這樣依賴于這些應用程序的任意流程。
在準備過程中,還要識別和理解數據中心內的各種不同的依賴關系。記錄依賴關系幫助IT人員以適當的順序重新啟動系統、服務和應用程序,以避免中斷以及損失啟動時間。例如,在啟動存儲陣列之前,不希望啟動其所依賴的服務器。
執行并驗證備份備份對任何數據中心都是一個重要的過程,但可靠的備份在計劃設施停運之前是至關重要的。在關機開始前完成并驗證任何定期備份,并手動備份沒有定期備份計劃的系統,或在關機之前設置充足的恢復點。
傳統的備份方法可能會嘗試獲取每個服務器的操作系統狀態以及單獨的數據備份,如SAN上的數據。虛擬化數據中心可以選擇更近的虛擬機感知備份,如快照和遠程復制。正確的備份不存在某一單一的方法或措施,流程與底層工具必須適合自己的數據中心和業務需求——但關鍵在于要確保所有內容都已備份,同時測試這些備份以驗證他們是完整并且可恢復的。
如果準備時間有限,建議將時間集中在關鍵任務的備份上。然而,任何系統或數據未備份將使應用程序和業務存在風險。
檢查并驗證系統硬件第三步是準備一份數據中心關機檢查表,檢查硬件狀態并確定任何硬件故障。現代系統管理工具可以生成電子郵件或郵件系統的錯誤報告,將事件記錄到日志文件并提供跟蹤事件的全面和實時的儀表板。但并非所有的事件都能夠立即解決。例如,RAID 6組中的RAID 5磁盤可能會出現問題,并被重寫到另一個備用磁盤上,但在技術人員完成替換和重建出現問題的磁盤之前需要一些時間。類似的問題還發生可能遷移或重啟虛擬機工作負載從服務器到其他可用系統的上時,然而由于尚未被處理,困擾系統可能仍然存在問題。
錯誤日志和儀表板的審查無法修復這些問題,但這能夠在關機之前暴露相關問題,提醒IT人員問題并不是由停機或重啟所引起的。IT人員可以做出明智的決定,以處理關機之前的未決事件,或至少確保未決的問題不會影響重新啟動。
按照正確的順序關閉系統一般來說,一份成功的數據中心關閉程序始于IT環境的外圍,并逐漸向內展開。公司可能會首先注銷和關閉最終用戶,關閉如Web服務器等應用程序以及Exchange等服務,緊接著關閉數據庫和中間件。虛擬化環境可能默許和關閉如虛擬機或VMs等虛擬實例,其次是如VMware的vCenter或Microsoft System Center等管理工具。這時IT團隊才應關閉物理服務器。而一旦服務器關閉,IT團隊可以關閉存儲和網絡設備。IT團隊在確保不間斷電源系統、監視器、電源分配單元和其它輔助設備正常工作后便圓滿結束關機任務。
恢復及驗證系統當計劃的停機結束時,IT團隊可以實施重新啟動過程。理想情況下,重新啟動將是關機的完全相反的過程,但過程并非總是如此。重新啟動往往仔細進行每一步的設施電源再分配,防止巨大的電流沖擊,以及可能觸發的斷路器和損壞設備。每一主要步驟還涉及一些驗證或測試,以確保在執行下一個啟動步驟之前,設備或軟件保持正常運行。
例如,在嘗試啟動任何存儲陣列之前,打開網絡設備并驗證其是否已正常啟動。存儲陣列啟動完成后,檢查可能出現問題的磁盤、有問題的磁盤組以及其他可能出現的問題。