一年一度的颶風季節又將來臨,IT世界又將面臨一個非常嚴峻的問題:“我們當前的災難恢復(DR)計劃是否能夠表現出充分的業務信心?我們是否可以按照需要進行恢復?”去年夏天,颶風艾琳肆虐了美國東海岸,給許多企業、員工和家庭帶來了不可逆轉的損害和損失。艾琳應該教會了我們一些非常重要的經驗教訓。
艾琳帶來的經驗教訓
首先,所有的企業都必須有一個經過全面測試的災難恢復計劃。對于這樣的重大災害對您的整體業務的健康運作所產生巨大的影響,您絕對買不起單。更何況,該計劃對于支持您當前的業務需求是至關重要的。IT部門必須和業務部門進行溝通和協調。他們必須承認,他們的災難恢復計劃必須與整個企業的緊急預案相輔相成,以最大限度地減輕脆弱性和減少數據丟失。企業還應該確保他們有一個基礎設施,幫助他們在災區地理區域以外恢復到維持一個備用的緊急措施的恢復設施。
失敗的災難恢復計劃
失敗的災難恢復計劃大致可以分為如下五大類
·不完整:計劃不包括所有關鍵系統
·過時:計劃不保護現有的IT基礎設施
·交付差距:尚未對IT工作人員完成培訓
·測試問題:計劃在近期尚未完全測試
·協調問題:計劃缺乏與業務整合
所以,你要怎么能確保你的災難恢復計劃不會失敗?首先,最重要的是要確保你有熟練的技術資源,可用來執行恢復。畢竟,像艾琳這樣的颶風災難,你不能預測關鍵IT人員的可用性。災難恢復計劃應指定專門的團隊成員,無論是來自企業內部或從服務提供商處購買服務,站災區以外有專業知識的人來管理為您恢復。
重要的是要了解一個災難恢復計劃必須定期進行全面的測試,以確保系統和工作人員能夠按計劃需要被激活。你必須總是問自己:“如果我要調用計劃,我可以100%的相信我可以恢復既定目標之內的業務嗎?”
創建和測試災難恢復計劃
那么,究竟應該怎樣準備你的災難恢復計劃?并且,你應如何測試它?這里我給出了10項創建和測試您的災難恢復計劃時的建議,僅供參考:
最新、完整和全面的:確保你的計劃是到目前為止最新的,詳細和易于遵循。并且,支持您的企業的所有關鍵業務。
優先、分類和分發:在您的計算機房內,并非所有的服務器對于您的企業都具有同等的重要性。優先級服務器和關鍵任務應用,并確定這些計劃。分配計劃到所有計劃持有人,并確保它很容易訪問,而且保證在計劃發生變化時,他們及時收到更新的副本。
預定測試日期!說得夠多的了。
經常性的測試:為了確保業務連續性,災難恢復計劃應每年至少進行一次測試,如果主要業務或基礎設施發生變化,或如果你有很短的恢復時間要求。在已知的等待事件前,提前預訂您的災難恢復測試時間。
進行不同的測試:對于計劃的所有組成部分納入各種測試。在模擬的,逼真的災難場景中的測試,你可以得到真實的實踐方案。
積極和的測試:進行兩類測試:通過積極的測試行使你的程序和行動計劃;通過消極的測試,與程序主要參與者進行溝通。兩者都同樣重要。
應對突發性:由于災害事故經常是突然來襲,將突發性的這一特點納入到您的測試,看看您的計劃的反應。真正的準備,你需要體驗模擬災害,并評價目前程序的有效性。
執行基本的例行演習和后勤檢查:執行呼叫聯系列表,以確認任何可能涉及(其中包括供應商)的聯系信息都是最新的。確保你可以很容易地隨時從異地召回存儲備份磁帶。不要忘了檢查會議記錄。
測試發電機:測試發電機在滿負荷情況下如何反應。確保你有多個燃料供應商的支持協議,當你在需要補充柴油時,按規定的服務水平協議(SLA)提供。
檢查備份策略:定期查看您的備份策略,并確保其正確地反映了你的數據的優先級,恢復時間和恢復點目標。
底線:企業依靠技術來運行他們的業務,因此停機時間是一個商業問題,而不僅僅是一個技術問題。任何災難,無論是自然災難(颶風、洪水或地震)或相關的設備/硬件故障,無疑會造成停機或更糟的狀況,對公司的底線產生負面影響。一次又一次,我曾看到那些經歷了災難恢復噩夢的企業后悔他們的災難恢復計劃沒有準備充分。并且,所有這些公司有一個共同點:他們從來沒有想到災難會發生在自己身上。
我的建議是:假設災害會在某些時候影響你。Forrester研究顯示,60%的企業在過去五年中曾調用過他們的災難恢復計劃。吸取颶風艾琳事故中學到的重要教訓,在2012年颶風季節啟動您的災難恢復計劃,并對其進行測試。我保證你不會后悔。