在災難恢復中,一個要點是如何快速有效地執行災難恢復技術方案,將關鍵業務系統從破壞性事故中重新運轉起來。典型的方案文檔可能有幾十上百頁,當緊急狀況發生,分秒必爭,這時卻需要很長時間來找到正確信息,組織適合的人力,然后執行計劃。
恢復關鍵數據的系統和平臺選擇有很多,而已在使用的故障恢復管理軟件技術是功能完整并在實踐中被證明行之有效的。一個典型例子是“切換”軟件正實時監控著IT資源,如服務器,發現可能出現的問題。如果生產系統突然崩潰,切換軟件檢測到環境變化,更新DNS記錄,將數據處理重定向到可用IT設備。
當然,這一方案是假定備份IT設備是可用的——最好位于另一個地點——并且被配置成可以接管故障系統的處理工作。
故障恢復軟件也應該具有“回切”功能,即當故障設備重新恢復正常運轉,可更新DNS將處理流程重定向回原生產系統。
上面的例子適用于一個或兩個設備故障,沒有其它生產系統受到影響的場景。但是,如果一個巨大的災難損壞甚至摧毀整個建筑,包括辦公室,工作站,通信系統,數據系統,網絡接入設備,存儲設備及其它IT資產,這時又該怎么辦?
針對這一挑戰,一些提供基于云的故障恢復產品的公司提出了很多有用方案,這些方案直觀易用,激活方便。例如EvolveIP、Axcient以及Unitrends。這些產品可復制全部或者部分辦公室環境及IT基礎設施,從而可以“恢復”為一個基于云的辦公環境。 圖一顯示了正常場景下的基于云的災難恢復產品。基于云的IT環境備份定期更新以保障[它備份的]系統和數據都是最新的。
圖二顯示當主IT環境和辦公區域突然發生故障不可訪問時,一條去往云災難恢復系統的命令會觸發連續步驟將生產活動重定向到基于云的辦公環境。
這是一個簡單例子,并假設以下幾點關鍵因素:1)員工可以從家或備用辦公區接入網絡;2)所有DNS表和其它相關信息都可訪問并能更改做重定向服務;3)業務中斷期間IT人員還可以接入網絡并遠程管理操作。
對于災難恢復,這類產品到底意味著什么?首先災難恢復現在可以作為IT運維具有戰略意義的一部分工作,基于云的故障切換/回切產品使得故障恢復很容易整合到IT運維中。其二,它意味著傳統的故障恢復活動在系統修復和業務恢復流程方面得到增強,尤其對于大規模恢復的應用場景。第三,對災難恢復計劃中的技術測試可以大大簡化。
讓我們進一步考量測試方面。當對災難恢復計劃中的數據系統部分進行測試時,備選操作從簡單的桌面演習到全系統的切換/回切。創建操作手冊或腳本文檔是好的測試的關鍵部分。腳本文檔記錄了操作步驟,正確操作順序,輸入命令以及預期輸出等。這通常是數據系統測試最重要的部分,因為恢復步驟的順序必須正確,輸入命令必須準確,否則測試失敗,而當真正的災難來臨時,系統故障將對公司產生負面影響。
假設我們能夠將上面的操作自動化,將測試以簡單得如同單擊按鈕(或者幾個按鈕)的方式來執行。盡管對很多人來說,“簡化災難恢復”依然是陌生的新想法,但它距離我們比你所意識到的更近。
假定你已經對某些關鍵IT資產或整個辦公環境配置了一個基于云的副本,如果災難恢復管理軟件將主生產系統重定向到這個可見的基于云的副本,那么系統的“恢復”可以在瞬間完成。相比將IT人員和員工搬到另一地點,這樣的恢復與重啟無疑要迅捷得多。當然,我們假定生產數據存在的文件和數據庫是可以立即備份到云端的,更進一步我們其實是假定了充足的網絡帶寬以保障數據資產能復制到云端。還有重要的一點,我們假定能在云端啟動服務器。
你很自然地會認真考慮這樣的產品,尤其是它們的云端計算,存儲和復制的成本是否滿足你對恢復時間和恢復點的要求。
現有的故障恢復計劃和流程將需要修改或重寫。你的計劃會變得更簡單,尤其是對數據系統,工作數據、數據庫、通信服務、網絡服務以及其它IT領域進行恢復的部分。恢復流程中的這些改進將提高數據系統恢復成功的可能性。
隨著云技術和故障恢復管理系統的顯著提高,“一點即可”的故障恢復正實實在在成為一種現實。如果你的IT故障恢復需求包含快速切換和回切,并且可能在一個大規模應用環境下,那么是時候開始調研本文所談的解決方案了。