企業的大部分智慧來自系統架構師,以及那些以災難恢復即服務(DRaaS)為職業的工作人員。Doug Theis就是其中的一位研究人員,他是一家實驗室裝備廠商的市場戰略總監。這里提出的許多觀點都是基于Theis對于客戶端“疤痕組織”的體驗。
1.災難還沒有結束,直到恢復10周之后
企業的業務將經歷警告、事件及其彈性持續時間,事件后果與恢復等過程。最后是實際的恢復,而無論其正常情況如何。例如,洪水泛濫損壞企業的設施和設備,并且也摧毀了員工的家園;而供應鏈中斷,并在適應和調整中恢復。即使企業具有備份和冗余的電力和管道,食品和其他資源可能會受到限制,直到獲得新的供應。企業的計劃不僅要反映災難的事件周期,還要反映供應鏈和物流的本地化恢復。這可能需要數周甚至數月的時間。重要的是要記住,當紅十字會等救援機構離開時,企業也不一定會恢復正常運營,而是在那之后幾個星期才可能恢復正常。
2.法規和合規性法令仍然實施
雖然在報告和審計師的建議中可能提出一些寬松的措施,但是在災難之前、期間和之后,企業仍然要遵守相同的監管要求。企業在從災難中恢復過來的同時,減少監管可能是很誘人的因素,因為沒有合規通行證。
3.測試不是可選的選項
即使是最好的計劃也需要測試。執行災難恢復測試需要支付費用,而且需要一定的時間,但除非企業已經完成了真正的演練,否則無法證明資產和計劃的價值。企業需要記錄哪些有效,哪些無效,以及為什么提供有關如何實現業務連續性以及成本的多方面的見解。每一次測試都是一個平息未來的破壞和災難的新機會。
4.跨學科的連續性計劃需要組織的DNA
如果企業中的每位員工知道在事件之前、期間和之后做些什么,那么更有可能在災難中生存。不幸的是,在許多公司,災難恢復計劃是一種部落知識,也就是說當企業員工改變工作角色或辭職時,這種知識可能消失。部落知識是非常寶貴的,但也必須代代相傳。確保災難恢復計劃具有詳細記錄,有目的地分發(包括確認收據)并定期更新。此過程還需要習慣性地更新災難恢復資源和多次操作(總是更新輔助環境)。這種習慣需要存在于企業的DNA中。
5.災難恢復是一個全有或全無的主張
資源重復不會帶來即時保護。更重要的是,IT是業務連續性的一個要素,災難恢復計劃不僅僅是IT團隊的工作。事實上,如果企業的各個團隊沒有全部參與和加入,那么該計劃就會從一開始就存在缺陷。
那是因為組織無論規模多大,都很復雜。如果規劃人員沒有考慮和容納所有人員、流程、供應鏈、物流和產品的方式來編寫災難恢復腳本,那么在計劃付諸行動時可能會出現差距。 IT團隊經常引導災難恢復計劃,但所有利益相關者應該領導更大的業務連續性工作,IT與該方法保持一致。這不僅僅是IT的連續性,還是業務的連續性。
6.故障恢復通常比故障轉移更復雜
Theis表示,除非對計劃進行全面測試,否則大多數組織都無法清楚地了解恢復所需的工作量。“即使他們參加測試,他們并不總是了解,例如實際上恢復多久了?關鍵點在哪里?哪些IT人員有資格這樣做?”他說,“平庸的故障恢復模型只是某個地方部署的另一些裝備而已。它們經常沒有得到充分測試。與其他40個項目相比,其價值很低。”
Theis補充說,“當故障恢復沒有得到充分測試或理解時,故障恢復經常成為無謂的努力。真的想在凌晨2點面臨失敗嗎?那一刻真的想清楚了嗎?知道這意味著什么嗎?”
真正的循環模擬至關重要,特別是因為故障恢復通常比故障更復雜。
7.同步=成功
如果組織的應用程序不同步,他們可能會在最糟糕的時間之前知道這些事情。作為每次故障轉移和故障恢復演練的一部分,組織應檢查同步工作是否完成,并且業務完好無損,以便在故障轉移和故障恢復期間不會出現業務中斷。缺乏同步,故障轉移和故障恢復都不會起作用,因為工作的IT基礎設施的前提已被打破。
8.連續性計劃永遠不會繼續存在
“采用DIY 災難恢復的公司通常會有5年的連續性計劃,但可能放在一個不起眼的辦公室的貨架上。”Theis說。特別是在這個不斷變化的技術和商業考慮的時代,更不用說兼并和收購以及其他重大事件,其計劃必須定期更新和審查,并不斷記錄變化。
9.依賴性決定計劃
大多數組織在開發、測試和執行災難恢復計劃時,主要考慮兩個IT類別——頂層和其他所有東西。但人們往往會忘記這些類別包含哪些類別,理解每一層中的依賴關系非常重要——也許比其他任何事情都重要。而這些依賴關系的準備工作是艱巨的,但需要以對業務有意義的方式進行故障轉移和恢復,并得到災難恢復計劃、產品和人員的支持。
10.企業確實需要人才
在災難恢復規劃過程中,交叉培訓員工和隨時可以訪問的計劃是災難恢復計劃過程中的關鍵步驟。例如,在實際災難恢復過程中,可能無法提供具有移動性或兒童護理/依賴性護理需求的人員。那些可以提供幫助的人需要遵循一個腳本。災難情況下的員工也需要同情心:人們可能在與災難相關的壓力性職業環境中工作,并且靈活性也很重要。