作為一家領先的公共云服務提供商,微軟Azure在宕機中斷方面并不是孤例。谷歌云和亞馬遜AWS的云平臺都經歷過停機中斷,對他們的用戶造成了不利影響。
如果企業尚未修改基于云計算的災難恢復計劃,則需要立即實施。
重新思考災難恢復
“到目前為止,我們還沒有考慮修改自己的災難恢復計劃。”美國西海岸的一家金融服務公司的一位IT經理表示,“當我們回顧與云計算供應商簽署的合同時,我們發現幾乎所有合同都包含免責聲明條款,即如果發生災難,云計算提供商將不會對其服務的安全性或數據恢復服務等級協議(SLA)負責。而這真的讓我們感到擔憂。”
對于使用軟件即服務(SaaS)供應商而又依賴第三方云計算提供商來托管其服務的企業而言,這種擔心將會進一步加劇。
當SaaS公司使用的第三方云計算提供商的服務在遇到宕機中斷時會發生什么? “這種情況很少發生,我們會讓客戶與我們的云計算提供商保持聯系。”加州一家SaaS公司的一名高管表示。
不幸的是,如果企業正在經歷一場災難,可能發現自己的第三方服務商并沒有安全責任。因此,將業務遷移到云中的企業,必須以不同的方式思考。專為內部計算而設計的災難恢復計劃與云計算的應用并不同步,云計算世界需要考慮諸如系統和數據復制,與供應商的協作測試,以及甚至故障轉移到備用供應商等策略。以下是用于修改云計算災難恢復計劃的最佳實踐的7個建議:
(1)定期備份和復制系統和數據
網絡基礎設施供應商Saalex IT公司銷售總監Michael Flavin說:“目前很多企業并沒有考慮到云計算的巨大風險。企業可以保護自己免受云中斷的方法之一是通過對其系統和數據進行安全備份,以便可以實施故障轉移。這可以通過定期將數據復制到第二個備份數據中心來實現。”
(2)了解停機期間還原系統的順序
在原有的數據中心時代,需要確定哪些系統在停機期間必須首先恢復,以及之后的哪些系統恢復相對來說比較簡單。而更容易確定的原因是所有這些系統都在企業自己的直接控制之下。
混合計算的情況并非如此,其中應用程序和數據可以從一個云平臺移動到另一個云平臺,或者在云平臺和內部部署數據中心之間移動。69%的企業領導者認為組織之間的溝通可以幫助他們實現愿景。
“當客戶在與我們溝通合作時,我們做的第一件事就是與他們確定哪些系統需要先恢復,然后我們進行測試,以確保恢復真正有效。”混合IT解決方案提供商US Signal公司云計算工程和研發總監Derrin Rummelt說。
了解恢復順序以及不同系統和數據組的運行和存儲位置對于企業來說至關重要。這是因為在某些情況下,可能需要采用另一個云平臺或數據中心來完成系統事務。因為即使其中一個資源不可用,企業的災難恢復也會受到威脅。隨著應用程序和數據的修改,這將變得更加復雜,因為很多企業無法重新測試新的修改時會引入額外的風險。因此,災難恢復不再有效。
(3)定期測試災難恢復計劃
即使企業的系統和數據保持相對不變,也始終存在風險,也就是云計算供應商為用戶提供的基礎設施和平臺可能會引入新的更改,這些更改會影響用戶自己的系統和數據的性能。防止這種情況發生的唯一方法是每年與云計算供應商一起測試災難恢復計劃,以確保恢復確實有效。
Saalex公司的Flavin說:“一家公司可以在其IT中使用多個SaaS、PaaS和IaaS云平臺。通過定期測試這些系統,甚至通過復制,也可以確保每個云場景中的災難恢復都能正常運行。”
那么,這些用戶能切實地承擔這項任務嗎?“我們最近對一些企業進行了一項調查,34%的受訪者表示他們每年都會測試災難恢復計劃。”美國Signal公司產品和服務執行副總裁Amanda Regnerus表示,“30%的受訪者表示他們每六個月測試一次災難恢復計劃,40%的受訪者表示他們每兩年或更長時間測試一次災難恢復計劃。而這些公司的災難恢復狀況有些令人擔憂。”
(4)定義災難恢復目標
隨著持續復制技術的采用和災難恢復專業化,推動了更多災難恢復即服務(DRaaS)公司的發展和成長,對于那些計劃為其混合計算環境進行災難恢復的公司來說,可以獲得更多可用的幫助。但是,如果沒有定義災難恢復目標,則這些幫助都不會非常有效。
提供虛擬復制服務的Zerto公司技術傳播者Steve Blow說,“我們為企業提出的建議是,根據其IT環境的規模和正在運行的工作負載類型,為數據設定一個30秒以下的恢復點目標(RPO),以及幾分鐘到一小時之間的恢復時間目標(RTO)。”
(5)管理供應商的關系
“在許多方面,用戶還沒有很好地管理與供應商之間的關系。”一家總部位于美國西海岸公司的IT經理表示,“我們還沒有仔細研究合同,還沒有與供應商討論服務等級協議(SLA),我們從未測試過災難恢復,盡管我們知道他們在全國各地都設有數據中心。”
還有很多這樣的案例。除非是擁有專職合同管理人員的大型企業,否則用戶的不堪重負的IT人員可能難以跟蹤供應商或花費時間維護與供應商的良好關系,這可能有助于災難恢復規劃和執行。
“我們與云計算服務提供商合作的一件事就是每年與他們溝通交流。也會定期與他們商討,以確定共同策略,并討論和解決問題。”服務于零售業的SaaS公司Island Pacific公司首席技術官Benjamin Baghdadi說,“這確實幫助我們與云計算提供商建立了密切合作的合作關系。我們知道他們會在災難中迅速做出回應。”
(6)選擇擁有并運營自己的數據中心的SaaS供應商
當用戶與云計算供應商進行合作以獲取SaaS解決方案時,建議邀請書(RFP)的關鍵點應該是他們是否擁有并運營自己的云計算數據中心。擁有和運營其解決方案所運行的云平臺的SaaS運營商在災難恢復方案中是一個更好的選擇,因為如果發生服務中斷,他們應該對故障負全部責任。
(7)管理風險
為混合云環境調整災難恢復計劃的最后一個要素是風險管理。
當一位IT專業人士被問及企業管理層如何評估進入云端的風險時,他說,“我認為高層管理人員將會非常謹慎地權衡風險與成本,但可能傾向于節省成本。”
該聲明在2017年的調查結果中得到證實,這個調查結果表明,三分之二的公司采用云計算的原因主要是因為可以節省成本。
這強調了為什么云計算策略還必須包括與企業管理層和組織董事會進行良好溝通的原因,即向云平臺遷移業務也為用戶帶來了不能獲得完全控制的新風險,尤其是當涉及災難恢復時。
如果企業的管理層已經了解這些風險,并且已相應地重新調整了災難恢復計劃,那么他們應該對自己的云計算戰略感到更加安全。