摘要:良好的業務連續性計劃將確保您的企業組織業務的順利運行,免遭諸如電源故障、IT系統崩潰、自然災害、供應鏈問題等等任何類型的擾亂。
災難恢復和業務連續性計劃能夠幫助企業組織為應對各種破壞性事件做好充分的準備——而這些破壞性事件可能包括颶風災害或者只是停車場的挖掘機造成的斷電事故。而在這一過程中,所涉及到的企業CSO們的工作職責則包括了計劃的監督、提供輸入和支持、在緊急情況下采取行動執行該計劃。本文為廣大讀者介紹了關于業務連續性計劃的基本概念,并將圍繞該話題介紹更多的相關資源。
Q:“災難恢復”這一概念似乎是不言自明,無需過多解釋的。但是,其與“業務連續性規劃”之間到底有什么區別呢?
A:災難恢復是企業組織在遭受到一次破壞性事件后恢復業務的過程。這樣的破壞性事件可能是后果相當惡劣的地震災害;或像紐約世界貿易中心那樣的恐怖襲擊;或者一些危害較小的如由計算機病毒引起的軟件故障。
鑒于人們往往傾向于只看到光明的一面,許多企業管理人員很容易忽視“災難恢復”,因為災難似乎是一個不太可能發生的事件。而“業務連續性規劃”則推薦了一套更為全面的方法確保您企業的業務部門能夠持續的創造營收,其不僅在發生了自然災害之后,同時也包括在發生了較小的中斷事故之后,如員工生病或關鍵崗位的員工離職、供應鏈合作伙伴出現問題或企業組織所需要時不時面臨的其他方面的挑戰問題。
盡管這兩者是有區別的,但這兩個術語通常都是同時出現BC/DR這一縮寫下的,因為他們有許多共同的考慮點。
這些計劃包括哪些內容?
所有的BC/DR計劃都需要包括企業員工如何溝通、他們在此期間將去到何處、以及他們將如何繼續他們的工作的問題。而根據企業組織具體規模、業務領域以及業務方式的不同,其中的細節會有很大的不同。對于一些企業來說,供應鏈物流等問題是最為關鍵的,其是整個計劃的重點。而對于另外一些企業來說,信息技術可能起著更為關鍵的作用,故而其BC/DR計劃可能有更多的關注于系統恢復方面。 例如,在一家全球性制造企業的計劃將會是必須要在四到六天的時間內在備份站點從破壞性事件中恢復其關鍵主機上的重要數據,在兩天內獲得移動PBX單元的3000個電話記錄,恢復企業的1,000多個局域網的業務需求,并在附近的一個訓練設施為100個代理設置臨時呼叫中心。
但關鍵的一點是,既不能忽略其中的任何元素,也不能在物理資源、IT資源和人力資源相互孤立的情況下開發制定規劃。在這方面,BC/DR與安全融合(security convergence)有許多共通之處。在其核心, BC/DR是關于不斷的通信交流。
企業組織的業務部門領導、安全領導和IT領導人應該聯合起來一起工作,以確定什么樣的計劃是必要的,哪些系統和業務部門對于企業組織而言是最為關鍵的。同樣,他們應該決定有誰來負責宣布一個破壞性的事件的發生,并盡量減輕其影響。最重要的是,該計劃應建立一個過程,以便能夠在發生一個災難性的事件后定位員工對于他們進行溝通。在一次災難性的事故發生后(卡特麗娜颶風是其中一個相對較新的例子),該計劃還需要考慮到比起回歸到工作崗位,許多員工將可能還有更為緊迫的擔憂問題。
我將從哪里開始著手呢?
一個良好的開端是從一個業務影響分析(BIA)開始的。這將確定企業組織最為重要的系統和流程,以及中斷對業務所造成的影響。潛在的影響越大,企業組織為了迅速恢復系統或業務流程所需花費的成本就越多。
例如,一家股票交易公司可能決定支付完全冗余IT系統,以便允許他們能夠立即開始在另一個位置處理交易。而另一方面,一家制造公司則可以決定,他們可以等待24個小時之后才恢復發貨。一個BIA將幫助企業組織建立一個恢復序列,以確定業務的哪個部分應該被優先恢復還原。
如下,是您企業組織的計劃絕對應該包括的十大基本點:
1 制定并實施一套應急計劃,包括您企業的首席執行官的繼任計劃。
2 提前培訓執行緊急任務的后備人才。您所能夠指望得上的在一個緊急情況下能發揮領導才能的員工并不是隨時都有的。
3 確定發生異地危機時的會議場所以及企業高管們的危機溝通計劃。與企業員工、客戶和外部世界實踐演習危機溝通。
4 投資于另一種替代的通信交流方式,以防電話網絡失靈。
5 確保所有的員工和管理人員都參與到這項演習中,這樣他們就可以在緊急情況下知道如何應對。
6 確保業務連續性演習足夠真實,并足以充分調動員工們的情緒,這樣您可以看到當形勢變得緊張時他們會如何反應。
7 與當地急救反應團隊——消防員、警察和急救人員建立良好的合作伙伴工作關系。讓他們熟悉您的公司和站點。
8 在每次測試中評估您企業的表現,并努力持續改進。連續的演習應該能夠揭示出相應的弱點。
9 定期檢驗您企業的業務連續性計劃,以披露和適應變化。任何一家公司的技術、人員和設施都在一個不斷變化的狀態中。
10 欲了解更多細節,請參見該鏈接中業務影響分析的摘錄,包括一個BIA形式的示例。
與此同時,實際的真人演習測試本身也會是“破壞性事件”。“如果我讓足夠多的人參與到撰寫和檢查我們的計劃中來,這是否足夠了呢?
讓我們給您舉一個一家企業認為簡單的模擬研究是遠遠不夠的例子吧。以及,為什么他們的經驗證明了他們是正確的。
當金融服務公司USAA公司的前首席信息官史蒂夫·耶茨剛剛加入該公司時,其業務連續性計劃還僅僅只是停留在紙上。而每年,該公司的頂級員工們會聚集在會議室進行角色扮演;他們會花一天時間檢查并模擬不同的場景,并討論他們認為程序應該如何定義,以及他們認為員工們會如何應對。
現場演習僅限于該公司的技術資產。USAA保險公司將對不同的業務部門進行周期性的數據恢復測試,比如讓人壽保險部門從備份進行數據恢復。
耶茨懷疑,這樣被動性的措施是否能夠真實反映公司的現實狀況。他還想知道USAA保險公司的員工們一個真正的緊急情況下是否知道如何遵循這樣的一套備災計劃。當911恐怖襲擊事件出現后,耶茨意識到該公司不得不做更多的工作。“911事件的確強迫我們提高了自己在這方面的標準。”耶茨說。
耶茨所聘請的外部顧問建議該公司在該地區建立第二處數據中心作為備份。而在經過了權衡這樣一個項目的成本和收益之后,USAA保險公司最初認為在東海岸將租用服務空間將更有效。但在發生了世界貿易中心和五角大樓的恐怖襲擊事件之后,耶茨很快意識到將數據中心規劃設計得如此遙遠是得不償失的。而具有諷刺意味的是,USAA保險公司正是在911事件發生那一周簽署的租賃合同的。
相反,USAA保險公司在德克薩斯建立了一處數據中心,距離其辦公地址只有200英里遠,驅車即可前往,同時該距離也足夠能夠利用不同的電網和水源來為該數據中心提供能源支持。該公司還計劃將關鍵員工部署到全國各地的其他辦公地點。
耶茨實地考察了FedEx聯邦快遞、First Union、美林銀行(Merrill Lynch)和美聯銀行(Wachovia)等公司,聽取了這些企業組織應急計劃的方法。USAA也咨詢了公關公司福萊國際傳播咨詢(Fleishman-Hillard)關于如何在發生危機的情況下能夠實現與客戶和員工最有效的溝通。
最后,耶茨提出了一系列的大型業務連續性的方案設計,以測試的該保險公司各個業務部門的性能表現,以及該公司在發生大規模業務中斷的事件后的應對情況。當該公司模擬了其聯邦儲蓄銀行(Federal Savings Bank)的主數據中心發生數據損失的情況時,耶茨發現他們能夠恢復系統、應用程序和所有的19家第三方供應商的聯系。此后,USAA保險公司也對其他業務部門運行了類似的演習。
然而,對于主要的事件,耶茨想要測試的不僅僅只是該公司的技術規程;他想把最不可預測的元素整合到任何應急計劃中來:即人的因素。
USAA保險公司最終發現,經歷過模擬演習的員工能夠觀察到備災計劃的缺陷,并提供建議。此外,那些經歷過緊急情況演習的員工不太可能在真實發生事故時恐慌,而且也更容易記住這些實踐計劃。
您能給我們舉一些企業通過測試演習并發現存在的問題的例子嗎?
一些公司已經發現,盡管他們已經備份了他們的服務器或數據中心,但他們卻忽略了筆記本電腦的備份計劃。許多企業沒有意識到存儲在本地筆記本電腦上的數據的重要性。因為筆記本電腦所具有的移動性質,其可以很容易地被丟失或造成筆記本電腦的損壞。故而并不需要發生一個災難性的事件就足以擾亂企業的正常業務運行,如果員工把關鍵或不可替代的數據存儲在筆記本電腦上的話。
一個公司的報告稱,他們想要從一家為軍事機構提供方便食品(meals ready-to-eat,MRE)的公司進行采購。這些方便食品有很長的保質期,而且不占用太多的空間。如果雇員們需要在您的設施崗位上停留了很長時間的話,這可能是一項值得的投資。
OppenhiemerFunds的信息安全和災難恢復前負責人邁克·海格表示說,911事故帶來了這方面的問題。他說,許多企業組織都能夠恢復數據,但他們并沒有制定替代工作場所方面的計劃。紐約世界貿易中心提供了超過2000萬平方英尺的辦公室空間,而在911事故之后,曼哈頓只有1000萬平方英尺的辦公室空間。當一場災難事故發生后,企業員工們應該立即去哪里的問題,以及他們在故障恢復過程中應該在哪里的問題都應該在事先規劃好,而不是事后才來想辦法解決。
USAA保險公司發現,雖然他們指定了附近的安置區,但電腦和手機的設置過程卻花費了近兩個小時。在此期間,撤離辦公大樓的員工們需要站在德州炎熱的大太陽下。實施備災計劃的演習讓他們看到了幾個沒有完全解決的問題:在此期間是否有一個安全的地方能夠安置這些員工?USAA保險公司應如何確定員工們何時可以被允許回到辦公建筑內?如果他們的車鑰匙還放在桌子上,大量的員工將找到他們的車輛?如果公司需要送員工們回家的話,是否有一個替代性的運輸計劃?
企業組織在災難恢復中的最大的錯誤是什么?
Hager和其他專家指出了企業組織所存在的以下缺陷問題:
1 規劃不足:您企業是否能夠確認所有的關鍵系統,您企業對于在發生災難事故當天對這些關鍵系統執行恢復都有什么樣的詳細計劃?(每個人都認為自己知道他們在他們的網絡上存儲了什么,但大多數人并不知道他們所在的企業有多少服務器;或者這些服務器是如何配置的;或者這些服務器上運行著哪些應用程序或服務;他們使用什么版本的軟件或操作系統。資產管理工具聲稱其具備這些方面的技巧,但他們往往并不能捕獲重要的軟件修改的詳細信息等等)。
2 未能將業務納入恢復工作的規劃和測試中。
3 未能獲得來自企業高層管理者的支持。其中最大的問題是:
a 未能展示出全面的恢復工作所需要的水平。
b 沒有進行業務影響分析,也未能解決在您的恢復模式中的所有的差距問題。
c 沒有制定包括了您的恢復時間目標、關鍵系統和應用程序、業務需要的重要的文件、業務功能的建設計劃在內的足夠的恢復計劃,也沒有在災難之后如何繼續經營活動的計劃。
d 沒有適當的資金來支持至少半年一次的測試。
技術的改變將如何影響企業組織的BC/DR計劃呢?
好問題!首先,您應該定義一個密切關注技術發展趨勢的流程。如下,是四項當前在大多數情況下能夠在實際工作中協助保持業務連續性的技術趨勢。(然而,這些技術也會相應的帶來一些挑戰和并發的問題。)
·虛擬化。讓企業組織得以能夠跟蹤更少的物理設備,較小的數據中心的占地面積,簡單的實現故障轉移功能。
·云計算。幫助企業組織將BC/DR的責任轉移到您的云提供商——從而不僅讓企業組織受益,同時還規避了相應的風險。務必要確保您的合同中清楚地說明您的要求。同時注意,跨多家云提供商進行測試是復雜的。
·移動計算。能夠使危機通信溝通和定位員工可能更容易。
·社交網絡。不僅可以實現與員工的更好的溝通,還能夠讓企業能夠更好的與外界溝通。
應該由誰來負責領導企業組織的BC/DR計劃呢?應該向誰報告呢?
沒有一個放之四海而皆準的答案。成為BCDR項目領導的關鍵是要有一個廣闊的視角和足夠的影響力來獲得正確的要素。
值得重復的是:信息系統無疑是今天企業業務的操作中心。但是,僅僅只涉及到IT的BCDR計劃不是一套完備的計劃。這同樣適用于僅涉及基礎設施的計劃。對于全套資產設備人員、系統和流程的充分理解,才是使得您的業務連續運行成功的關鍵。
越來越多的企業組織正在創造企業風險管理部門或項目,這是一項很自然的確保業務連續性的努力。
企業組織可以外包相關的應急措施嗎?
企業的災難恢復服務,包括異地數據存儲、移動電話、遠程工作站等等經常是采用了外包方式,因為這要比企業自行購買額外的設備或空間更有意義,畢竟這些可能永遠不會被使用。在911恐怖襲擊后的日子里,就有災難恢復供應商提供系統恢復和臨時辦公空間,為受災的企業提供幾十臺電話的配備和互聯網連接服務。
對于那些需要說服他們的CEO或董事會制定相應的災難恢復計劃和功能的企業安全高管們,您會給出什么建議?最有效的執行方案是怎樣的?
Hager建議企業組織的首席安全官通過分析并擬定如果發生災害的潛在經濟損失,及之后相應處理的災難恢復文檔來解決該問題。與您企業的法務和金融財務部門合作,以文檔的形式估算出如果發生災害,而您的公司將面臨沒有快速恢復的能力的話,每天會造成的總的損失。徹底審查您的業務連續性和災難恢復計劃,您可以識別找出其與能夠幫助您企業實現成功的災難恢復的方案的差距。記住:災難恢復和業務連續性只不過是規避風險。而當您能夠向他們展示企業需要冒多大的風險時,高級管理人員才能夠更清楚地理解。”
Hager還表示,較之大型企業來說,規模較小的公司在災難恢復方面會有更多的(更便宜)選擇。例如,數據可以有員工在晚上下班帶回家。這當然是一種低成本的異地離線備份的方法。
這其中有些措施對于某些企業而言是不是有些過頭了?
USAA保險公司精心設計的,將需要不斷開發和測試的應急計劃可能對于一般企業的CSO(或首CEO)而言有些過頭了。對于一些企業來說,這絕對是真的。畢竟,針對20000名員工實施危險品培訓和疏散計劃并不是對每家公司都是必要的。
像許多安全問題一樣,保持業務連續性規劃涉及到基本的風險管理:貴公司能經受得住多大的風險,貴公司愿意花費多少成本來緩解各種風險?
為意外情況提前制定計劃,企業組織必須在權衡風險與成本之后才創造這樣的一個套應急計劃。USAA保險公司的安全助理副總裁Pete Hugdahl表示說這種權衡經常面臨各種問題:“當成本因素發揮作用的時候,做出這種權衡真的相當困難。”他說。“我們要花100000美元來保護我們的資產嗎?我們怎么知道這是值得的呢?”
其實,這方面沒有絕對的答案。不管您企業是準備花錢;還是準備接受這方面的風險,只是一個行政決定,但其應該是一個明智的決定。務必要汲取那些半吊子的災難恢復計劃的教訓(參考2010年英國石油公司泄漏事故、2005年颶風季節、911事件、2003年美國東北大停電事故等),這些計劃都是一個未履行盡職調查而制定的。
還有哪些其他的注意事項?
云服務公司 Evolve IP創造了一份企業高管們可以用來評估他們當前的災難避免計劃的建議清單,以及企業是否需要制定一份這樣的備災計劃,或是應該為他們的信息和通訊系統提供定向的保護措施。
建立一支災難恢復功能團隊
從該團隊選擇一名發言人負責溝通。在企業組織發生多處災害事故時,每處位置都應該有一個核心團隊或代表,來與企業實體配合工作。
風險評估
識別下列領域的風險:
信息——哪些信息和信息系統對于企業業務在一個可接受的水平繼續運行是最為重要的?
通信基礎設施——哪些通信(電子郵件、電話線、呼叫中心、VPN、終端服務)對于企業業務在一個可接受的水平繼續運行是最為重要的?
訪問和授權——在發生災難時,誰需要訪問上述系統,并且需要以怎樣的安全的方式訪問(VPN、SSL、DR站點)?
物理工作環境——在緊急情況下那些要素對于開展業務是有必要的,而這些要素在受災害影響的位置不可用?
內部和外部的溝通——在緊急情況下,企業需要保持怎樣的聯系;哪些信息需要及時互通?
基于云的數據中心和應用
創建一套恢復計劃,并將其遠程托管在一個安全的和冗余的數據中心。每年至少測試一次您的恢復計劃,并根據監管/合規要求及時更新修訂。確保員工可以在故障轉移模式期間能夠在從指定的位置訪問托管環境(包括從內部的業務范圍內和遠程)。