摘要:在本文中,一些IT高管和災難恢復專家們將與廣大讀者朋友們共同分享他們在企業組織機構如何創建一套有效的災難恢復(DR)計劃方面的建議和意見。
本月早些時候,非洲的肯尼亞發生了一場長達3個小時的全國性的大規模停電事故,而原因竟然是一只猴子爬進發電廠后困在變壓器中所致。數以百萬計的家庭和企業都遭到了不同程度的影響。這就說明,“并非所有的災難都是由那些叫得上名號的大風暴所引起的。”Atlantis Computing公司的首席營銷官鮑勃·維斯表示說。
“電氣火災、水管破裂、空調機組運行故障(以及莫名其妙闖入的猴子)都可能引發同等破壞程度的災難。”他說。盡管“某些企業的負責人可能會認為,他們企業所處的地理位置是安全的。”但務必要重點記住的是:“一些日常性的安全威脅也同樣可以摧毀數據,并甚至毀掉一家企業。”這就是為什么說所有的企業組織機構都需要制定一套詳備的災難恢復(DR)計劃是至關重要的原因所在了。
但是,并非所有災難恢復計劃的創建都是一樣的。為了使得您企業的系統、數據和人員得到充分的保護,并確保您的企業可以在發生實際的緊急情況或災害的情況下繼續保持操作運行,我們建議您的企業不妨參考如下的相關指導方針,以創建一套完備的災難計劃,這將有助于您企業業務的迅速恢復。
1、庫存硬件和軟件。您企業組織的災難恢復計劃應該包括“一套以優先級順序所列出的完整的硬件和應用程序庫存清單。”Arcserve公司的產品副總裁Oussama El-Hilali表示說。“每款應用程序和硬件設備都應該標明供應商的技術支持合同信息和聯系電話。”這樣才能確保您企業可以得到快速的備份和運行。
2、定義您企業對于停機時間和數據丟失的耐受性。“這應該成為您企業組織制定備災規劃的起點。”來自Strive Technology Consulting公司的總裁Tim Singleton表示說。“如果您是一名水管工,您也許可以在不涉及任何服務器或技術的環境下照常工作開展業務。但是,如果您的企業是像易趣網這樣的電子商務網站,那么,您企業所能夠承受的停機中斷不能超過數秒鐘。找出您企業在這方面的耐受性將決定您企業需要何種類型的解決方案,以便從一個災難中恢復。”
“為您企業組織的每一款應用程序評估可接受的恢復點目標(RPO)和恢復時間目標(RTO)。”NaviSite公司的首席技術官大衛·格蘭姆斯建議說。 “在理想的情況下,每款應用程序都將有僅僅幾毫秒的RPO和RTO,但是,無論從技術上還是經濟上這往往都是不可行的。通過正確識別這兩項衡量指標,企業可以優先考慮需要些什么,以便能夠成功度過災難,確保一套成本效益水平的災難恢復,并降低對于他們自身能夠在災難發生時恢復的錯誤估計所帶來的潛在風險。”
“當您企業以書面形式編寫災難恢復計劃時,請將您的應用程序分為三個層次。”Sungard Availability Services公司測試與危機管理部門的高級主管Robert DiLossi表示說。 “第1層應該包括您企業需要立即用到的應用程序。這些都是您企業的業務運行所不可或缺的關鍵任務的應用程序。第2層則包括了那些您企業在8至10小時內,甚至長達24小時所需要用到的應用程序。他們是必不可少的,但您的業務并不需要立即用到這些應用程序。第3層的應用程序可以是那些在幾天之內輕松恢復的。”他解釋說。
“定義哪些應用程序是最為重要的,將有助于推動災難恢復的速度和災難恢復的成功。但最重要的是至少每年兩次對您企業所制定的災難恢復計劃進行測試。”他說。“可以基于測試的結果,對相應的層次進行改變,其可以有助于在發生真正的災難之前揭示未知的差距,并進行有針對性的填補。”
3、實施明確的責任制——確定負責備份的人員。 “所有的災難恢復計劃都應該明確界定關鍵職位角色、職責和涉及到災難恢復事件中的各方當事人。”Computer Design &Integration公司的云服務主管Will Chin表示。 “在這些相關的責任都必須明確界定,已確定災難的發生。有明確的角色責任制會有助于企業員工對于需要完成什么任務,以及誰應該對什么任務負責形成普遍的理解。當企業組織在與第三方供應商或服務供應商合作時,這一點尤為重要。所有牽扯到災難恢復事件中的各方當事人都需要了解彼此的責任,以盡可能地確保災難恢復過程的高效。”
“為您企業的全體工作人員制定計劃,上至CXO級別的管理人員下至一般普通員工,并確保他們理解的這一過程,以及企業希望他們能夠做些什么。”Matrix公司的總裁尼利·羅林表示。Matrix公司主要負責提供了基于云的解決方案,包括災難作為一種服務。 “這可以讓大家都能夠更快的恢復正常工作。”
“一套災難恢復的計劃草案必須包括:誰應該以怎樣的方式和順序聯系上的DR團隊的最為合適的責任人,以便盡快讓系統恢復正常運行。”Thru公司的營運副總裁Kevin Westenkirchner補充說。 “關鍵是要就DR團隊的相關人員的具體職位、責任和緊急聯系信息制定詳細信息的清單。”
“最后一個需要考慮的是:有一套適當的繼任計劃,針對相關的崗位培訓訓練有素的后備員工,以防主要工作人員正在假期中或在別的地方。”Digium公司的產品營銷經理布賴恩·弗格森表示說。
4、創建一套溝通計劃。 “也許,關于一套災難恢復計劃最被忽視的組成部分之一便是缺乏一套良好的溝通計劃。”Computer Design &Integration公司的解決方案架構師Mike Genardi如是說。 “在發生災難事件時,您打算如何與企業員工進行溝通?在一次災難恢復事件期間,您企業的員工是否知道如何訪問他們所需要的系統,以履行他們的工作職責?”
“很多時候,主要的通信平臺(電話和電子郵件)可能會受到影響,屆時,您企業組織將需要采用替代的方法來聯絡您的員工。”他解釋說。 “一套良好的溝通計劃將在一個災難發生最初起到很好的通報作用,并進行持續的更新,使得企業的工作人員都能夠了解整個災難恢復事件的進度。”
“當對任何突發事件、危機事件或災難做出響應,并從中恢復時,有效的溝通是極其關鍵的。”ModusLink公司的首席商務官斯科特·D·史密斯表示說。因此,制定“一套明確的溝通策略是必不可少的。采取有效和可靠的方法與企業內部員工、服務商、供應商和客戶進行及時的溝通是非常必要的。制定一個書面的流程,以確保在發生災難后能夠采取有效的行動后,方便企業組織,員工和合作伙伴之間進行調整。”
“災難恢復計劃也應該包括一份當發生緊急的情況時,可以發表在您公司的網站和社會化媒體平臺的聲明。”一家數據保護平臺Datto公司的首席技術官羅伯特·吉本斯補充說。并準備好“為您企業的客戶就您企業的業務何時有望恢復及時提供狀態更新通知。如果您的客戶知道了您企業已經了 解發生了什么的情況,而您也做好了充分準備,并在努力盡快恢復時,他們的感覺就會好很多。”
5、讓您企業的員工知道當發生緊急情況時應該去哪里,并有一個備份的地方。 “許多公司認為災難恢復計劃只是針對他們的技術系統的,但他們沒有認識到針對人的因素(即企業員工),也同樣需要制定一個計劃。”Simplegrid Technology公司的總裁Ahsun Saleem表示說。請務必記住:“有一個備用站點,以防您企業的主要辦公室將不可用。確保您企業的員工知道一旦發生突發事件應該去哪里,坐在哪里,以及如何從備用站點訪問系統。為員工們提供到達備用站點的地圖,并確保您企業的員工們在該備用站點有足夠的工位。”
“在發生災難的情況下,您的團隊將需要一個可操作的工作場所,具備合適的設備,空間和溝通。”DiLossi說。 “這可能意味著遠程辦公和其他需要設計的替代戰略,以防區域型災害所導致的更大地區的停電事故。一定要注意合規性要求和合同專用的辦公空間,以便讓工作人員和數據可以保持私密性。如果您企業真的需要200個工位才能真正滿足您的恢復需求的話,切莫只安排聯系50個。”
6、確保您企業的服務水平協議(SLA)包括了災害/ 緊急情況。 “如果您企業已經將技術工作外包給了外包IT公司,或者您企業已經將系統存儲在了一家數據中心/托管場所,確保您企業與他們簽訂了一個有約束力的協議,以定義在發生災難的情況下,他們的服務水平。”Saleem說。 “這將有助于確保他們能夠在指定的時間內開始解決您的問題。有些協議甚至可以討論獲得系 統備份時間的期限。”
7、應包括如何處理敏感信息。 “定義業務和技術程序,以確保對于企業敏感數據信息的保護是一套災難恢復計劃的重要組成部分。”Sunera公司的合作伙伴埃里克·迪特里希說。 “這些程序應解決當災難恢復計劃已經啟動時,敏感的數據信息程度將如何維護和訪問的問題。”
8、定期測試您企業的災難恢復計劃。 “如果您不對企業的災難恢復計劃進行測試的話,那么也就等于您企業沒有制定該計劃。”Singleton表示說。 “您的備份硬件可能已經出現故障失敗,您的供應鏈可能依靠的是某個根本無法應對災難的人員,您企業的網絡連接可能會因網速太慢而無法在預期的時間內恢復您所期望恢復的數據量,關鍵的災難員工的手機號碼可能已經換了。諸如此類,太多太多的東西可能會破壞一套原本完美的計劃。找出這些問題漏洞的唯一方法就是定期測試您企業的災難恢復計劃。”
“您企業的計劃必須包括您的災難恢復環境如何進行測試的細節,其中包括測試的方法和頻率。”基于云的IT災難恢復和連續性解決方案提供商Unitrends公司的產品營銷副總裁戴夫·勒克萊爾表示說。“最近,我們針對大約900名IT管理員所進行的調查發現,不到40%的公司每年針對他們的災難恢復計劃測試的頻率超過了一次,而36%的企業根本沒有測試。”
“不經常進行測試可能會導致真正發生災難期間,災難恢復環境不按要求執行。”他解釋說。 “您的計劃應該為每項工作負載確定恢復時間目標(RTO)和恢復點目標(RPO),并驗證他們是否可以滿足。幸運的是,現在的恢復保證技術能夠在不中斷生產系統的情況下,自動化災難恢復測試,并能夠驗證RTO和RPO目標是否百分百的滿足,即使是在復雜的n層應用程序。”
也請記住,“當涉及到災難恢復時,您企業只能是與您的最后一次測試一樣好。”羅林說。 “測試計劃時間表是任何災難恢復計劃的一個最重要的組成部分。將測試的結果與您定義的RTO和RPO指標進行比較,以確定您的計劃的有效性。測試越是全面,一家企業在發生真正的災難并進行恢復的成功率也就越高。”他說。 “我們每周都測試我們的發電機,以確保其功能正常。一定要記住,測試失敗并不是一件壞事。能夠在早期發現問題,要比在發生災難危機時才發現要好得多。確定需要修改和測試的東西,直到您成功為止。”
而且不要忘了測試您企業的員工。 “相關所涉及的企業員工需要對于災難恢復計劃非常精通,并能執行他們被分配到的每一項工作任務而不出現任何問題。”弗格森說。“運行模擬災害和演習有助于確保您企業的工作人員在實際的災難事件發生時,可以執行該計劃。”
本文作者Jennifer Lonoff Schiff是一名商業和技術作家兼CIO.com網站的撰稿人。她還負責運行著Schiff &Schiff Communications公司,這是一家專注于幫助企業組織更好地與他們的客戶,員工和合作伙伴進行互動的營銷公司。