災難恢復測試是組織災難恢復計劃(DRP)的一個多步驟演練,旨在確保在發生實際災難時恢復信息技術(IT)系統。
作為災難恢復計劃的一部分,企業通常采用災難恢復服務。
為什么災難恢復測試至關重要?
自然災難或人為事件通常會中斷正常的IT功能,如數據處理、通信、虛擬化以及網絡和數據中心操作。
研究一致表明,災難中IT功能的喪失會導致業務失敗。例如,根據美國檔案和記錄管理局的報告,由于災難事件導致數據文件丟失或計算機系統崩潰長達10天或以上的公司中,93%的公司在一年內申請破產倒閉。
•卡特里娜和桑迪等颶風、地震、洪水和海嘯都可能導致企業破產倒閉。
•人為災難可能導致企業脫機,包括恐怖主義行為、故意破壞計算機,以及意外事故,例如硬件配置錯誤和意外刪除的文件。
雖然災難并不會經常發生,但一旦發生,其影響可能是毀滅性的。
災難恢復測試的主要目標是確保在災難發生的情況下,災難恢復計劃將真正起到作用。企業的災難恢復站點將上線運營,IT系統將以最短的停機時間重新上線。也許一家公司使用基于云計算的災難恢復(DR)或災難恢復即服務(DRaaS),但在任何一種情況下,災難恢復測試都會揭示備份是否真的像企業需要的那樣萬無一失。
正在進行的測試是必要的,因為災難恢復測試的有效性可能受到組織內人員、技能水平以及硬件和軟件架構的不可避免變化的影響。
全面測試災難恢復計劃是制定災難恢復計劃的一個絕對關鍵的方面。
災難恢復方案
災難恢復測試(DRT)計劃可以幫助組織為任何類型的IT災難做好準備,包括在現實生活中展開的以下各種場景。
•卡內基梅隆大學(CMU)發表的一項研究表明,在一次在內部破壞攻擊的案例中,一家公司在解雇一名軟件工程師之前禁止訪問公司的IT系統。然而在遭到解雇之后,,心懷不滿的員工從家里登錄公司的IT系統,他通過遠程連接從應用程序中刪除了幾個關鍵文件。該公司在重新加載備份數據并重新開始之前,損失了四個小時的生產時間。
•2017年,包括美國聯邦快遞、馬士基、默克和許多其他公司在內的企業成為了一種名為NotPetya的勒索軟件病毒的受害者。在其全球航運業務陷入停頓之后,馬士基公司后來承認,由于技術清理、業務中斷和銷售損失,損失了6.7億美元。美國聯邦快遞公司損失了4億美元。
•相比之下,2005年,新奧爾良市提前發出卡特里娜颶風預警,該市在致命風暴期間和之后設法保持重要的業務功能不間斷運行。該市下載了財務管理等關鍵系統,并提前將其運送到加利福尼亞州的ACS數據中心。該城市的網站從市政廳遷移到了由Red Carpet Host運營的達拉斯數據中心。在卡特里娜颶風過后,該市在奧斯汀建立了一個備用數據中心。
災難恢復與業務連續性計劃
災難恢復計劃(DRP)和測試通常與業務連續性計劃(BCP)混淆。雖然災難恢復計劃和業務連續性計劃(BCP)密切相關,但它們并不相同。
災難恢復計劃和測試系統規定了IT組織在災難發生后恢復系統所必須采取的步驟,這些系統將滿足企業的技術需求。
另一方面,業務連續性計劃(BCP)闡明了企業必須做些什么來確保其產品和服務仍然可供客戶使用。業務連續性計劃(BCP)由業務影響分析、風險評估和整體業務連續性策略組成。它通過業務連續性測試(BCT)進行測試。
一些組織將災難恢復計劃(DRP)/災難恢復測試(DRT)和業務連續性計劃(BCP)/業務連續性測試(BCT)分開處理,而其他組織在整體業務連續性計劃和測試中包括災難恢復。
5個災難恢復測試技術
除了在緊急情況下恢復數據和保持關鍵應用程序和服務在線之外,災難恢復解決方案還應包括向工作人員發出災難警報的方法,以及在電話線路和網絡中斷時允許在事件期間和之后進行通信的方法。
在規劃和測試過程中,災難恢復團隊還應認識到,盡管發生了災難,組織必須繼續履行其安全和法規遵從性義務。
五種類型的災難恢復測試(DRT)用于測試災難恢復解決方案:
•書面測試:在書面測試中,災難恢復團隊成員閱讀并注釋恢復計劃文檔,如災難恢復策略、過程、時間表、基準、檢查表。文檔的硬拷貝應存儲在安全的脫機環境中,并將數字副本存儲在云中。
•演練測試:演練測試是指對災難恢復計劃(DRP)進行的小組演練,以確定需要解決的任何問題以及應對災難恢復環境進行的任何修改。
•模擬:在一個某種程度上符合消防演習的過程中,團隊在現實生活中實踐災難恢復計劃(DRP),以確保其足以進行IT災難恢復。
•并行測試:在并行測試中,對故障轉移恢復系統進行測試,以確保在發生災難時,它們可以執行支持關鍵進程和應用程序的實際業務事務。同時,主系統繼續運行完整的生產工作負載。
•切換測試:切換測試進一步測試故障轉移恢復系統,該系統是為在發生災難時接管整個生產工作負載而構建的。主系統在測試期間斷開。
六個災難恢復測試級別
在并行和切換測試中,IT系統可以在不同的綜合性水平上進行測試。IT組織的測試水平各不相同,災難恢復服務提供商也不相同。
•數據驗證
這一級別的測試檢查塊/文件在備份后是否良好,但不能確保應用程序可以在功能上恢復。
•數據庫裝載
數據庫裝載驗證數據庫在備份中是否具有基本功能。
•單機啟動驗證
單臺機器啟動驗證單臺服務器在停機后是否可以重新啟動。
•采用屏幕截圖驗證的單機啟動
此測試將操作系統的圖像發送給管理員,作為可以重新啟動服務器的證據。但是,它并不能證明服務器仍然可以正常運行。
•DR Runbook測試
涉及多個服務器的DR Runbook測試主要用于多臺機器,這些機器一起提供業務服務,例如集群數據庫或企業資源規劃(ERP)系統。
•恢復保證
最高級別的測試、恢復保證包括多臺計算機、深層應用程序測試、服務級別協議(SLA)評估,以及有關回滾到系統恢復失敗的原因的分析。一些但并非所有災難恢復即服務(DRaaS)提供商都提供恢復服務保證測試。
災難恢復測試最佳實踐
•定期徹底測試
一些大型組織每季度進行災難恢復測試。然而,盡管進行了災難恢復經驗的一些宣傳,23%的企業從不測試災難恢復,而大約33%的企業每年測試一次或兩次。根據一項調查顯示,在測試其災難恢復計劃(DRP)的公司中,大約65%的公司未通過自己的災難恢復測試(DRT)。
雖然測試的頻率將取決于企業的業務及其災難恢復準備情況,但專家強烈建議企業至少每年進行一次完整的測試。
•設置可衡量的基準
對于關鍵應用程序,設置恢復時間目標(RPO)和恢復點目標(RTO),這些目標可以按比例進行衡量。這些基準的目的是確保企業達到目標,同時詳細說明成功的過程。
包括醫療保健在內的一些行業要求組織了解并記錄其恢復點目標(RTO)。無論企業在哪個行業,通過使用按比例衡量的基準,都能更好地確定需要改進的災難恢復程序。
•保持災難恢復團隊成員的警惕性
明確定義負責研究、開發、實施和測試災難恢復計劃(DRP)的所有人員。如果相關人員不在公司辦公室,需要為災難恢復練習中的每個角色指派一名備份人員。與所有團隊成員共享災難恢復計劃(DRP)和災難恢復測試(DRT)。
如果團隊的成員辭職,需要確保替換他們的工作人員接受災難恢復計劃(DRP)和災難恢復測試(DRT)政策和程序方面的培訓。然后安排一個小組運行災難恢復測試(DRT),以平滑災難恢復過程。
如果需要的話,可以與災難恢復合作伙伴合作
雖然大型組織擁有自己執行災難恢復測試(DRT)的內部專業知識,但許多小型公司將會向災難恢復公司尋求幫助。
除了多方面的災難恢復即服務(DRaaS)之外,災難恢復服務提供商還提供專業服務,例如持續測試和客戶災難恢復解決方案的全天候性能監控。