如果企業已經定義了它們的災難恢復需求并驗證了供應商的功能,那么DRaaS將能夠更容易地應對服務中斷。
AutoNation花費了數年時間試圖建立一個能夠激發信心的災難恢復計劃。它已經經歷了多次失敗的迭代嘗試,包括一個完整的內部部署解決方案和一個完全在云中的解決方案。這家總部位于佛羅里達州勞德代爾堡的汽車零售商在全美16個州經營著300家門店,最終發現,它需要的是一種以災難恢復服務為特色的混合模式。
“內部和公共云災難恢復模式都很昂貴,也沒有經過徹底地測試,而且往往是那些真正經過規劃了的災難實施讓我們面臨了風險,”AutoNation的信息技術和運營副總裁Adam Rasner表示,兩年前,他被請來對災難恢復計劃進行修改。
公共云方法的代價高昂:如果要維持三個月的災難性停機恢復服務,估計需要300萬美元。“完全在云計算中采用災難恢復可能還有點為時過早,”Rasner說,并指出盡管云計算提供商在最近幾年已經相當成熟了。
AutoNation還擁有自已的碰撞中心、拍賣行,并于2018年推出了自己的精密零部件生產線。該公司推出了一項新的災難恢復計劃,融合了基于主機托管和即服務模式的災難恢復功能,75%的應用程序將從丹佛的一個托管設施恢復,25%的應用程序將從亞馬遜的AWS恢復。這些環境是由DRaaS提供商Cohesity及其輔助數據管理平臺進行協調的,后者可以備份和復制虛擬服務器、應用程序和數據到托管設施和AWS。Cohesity還可以用于管理故障轉移和恢復。
Rasner說:“在災難中只要按下開關就能自動啟動虛擬機的能力讓我能夠在晚上睡得更好。”
什么是災難恢復即服務?
DRaaS市場是一個復雜的環境。市場上有數百個DRaaS提供商,它們都在使用不同的方法和功能來復制和托管服務器和數據。
一些DRaaS服務專注于虛擬服務器,而另一些也會使用備份物理服務器;有些依賴于現場備份設備,有些則不需要。這是一個不斷增長的市場,因為企業總希望第三方供應商在發生自然災害或服務中斷時能夠提供更加完美的故障轉移服務。市場研究公司Technavio預測,2018年至2022年間,全球DRaaS市場將以36%的復合年增長率進行增長。
對于巴爾的摩市Miles & Stockbridge公司的CIO Ken Adams來說,DRaaS是一種完全擁抱云計算的方式,但已經可以滿足這家擁有480名員工的律師事務所的合規要求了。ISO標準要求律師事務所需要將數據保存在三個不同的地點。作為云的早期采用者,Adams很早就接受了即服務模型,并看到了將其用于災難恢復的機會。
Miles & Stockbridge使用了ClearSky Data的按需平臺和設備來訪問和存儲本地和弗吉尼亞州托管設施中的虛擬服務器和數據,并會將數據發送到第三個位置:Amazon AWS上的虛擬緩存服務器,Adams稱之為他們最后的保險。
“ClearSky最初只是我們的一個存儲平臺,后來我們才決定試著把我們的服務器放在其具有固態驅動器的設備上。并且沒有對服務器的性能造成影響,我們也得到了額外的保護,使服務器--而不僅僅是數據--在多個位置可用,”他表示。
弗吉尼亞州的設備幾乎是實時更新的,而AWS版本的數據會稍微陳舊一些,以便節省流量。他說,災難恢復現在變得很容易了。“你只需按下適用于VMware的ClearSky控制臺上的一個按鈕,就可以從一個環境轉移到另一個環境。”
Adams擁有來自兩個不同ISP的專用光纖線路來連接ClearSky設備,因此它們可以輕松應對訴訟支持等應用的苛刻需求。然而,他說,他們的負擔其實并不像想象的那么大,因為一些應用程序,比如公司的文檔管理解決方案,已經轉移到了SaaS上面,這就為他們提供了內置的災難恢復功能。
哪些應用適合DRaaS?
康涅狄格州斯坦福德的技術研究和咨詢公司ISG的首席顧問Spencer Suderman表示,隨著對DRaaS興趣的日益濃厚,越來越多的玩家開始進入這個市場,IT團隊不得不開始考慮服務器和數據的需求。雖然一些服務器和應用程序可能很容易地移植到基于云的“即服務”災難恢復環境當中,但是其他服務器和應用程序可能會有所阻滯,因為它們是專有的,或者與其他應用程序高度依賴的。
Suderman說,如果IT一開始就認為將應用程序放到云中是困難的,那么添加DRaaS肯定也會是復雜性的。例如,虛擬服務器中的容器化應用程序可能無法正確地進行故障轉移或恢復。“虛擬服務器仍然具有一定的依賴性,”他說。而且,即使應用程序能夠正常工作,數據傳輸也可能會出現問題。“假設你的目標恢復時間是6小時。而你在100M bit/sec的鏈路上有TB級的數據,那么下載所有的這些數據可能需要23個小時。你將無法滿足你的RTO,”他說。
AutoNation的Rasner發現,適用于DRaaS的應用程序的范圍在汽車行業是有限的,在汽車行業,遺留應用程序通常是定制的,或者有很多觸角伸向其他應用程序,比如已有13年歷史的AutoNation CRM系統。Rasner表示,AWS最適合于現成的、獨立的應用程序,比如AutoNation的權益挖掘工具,它可以幫助服務團隊確定客戶是愿意完成一項昂貴的維修,還是愿意購買一輛新車。AWS還提供超過40天的備份。Rasner說,當舊應用程序被刷新或重構時,它們將被添加到AWS的災難恢復環境中。
ISG的Suderman建議你可以與DRaaS供應商進行密集的規劃以及每月,每兩個月或每季度的演練。“災難恢復可能是計劃中最無法得到保證的服務之一,”他預計,將一些責任移交給提供商只會使情況變得更糟。“每個人都在談論災難恢復,但是你為真正的災難所做的計劃的廣度和深度是什么?對DRaaS演練將告訴你環境的真實可用性。”
注意事項:你所有的應用程序是否都在一個地方,并且都位于可以快速啟動的虛擬機上?你的數據是最新的嗎?你的組織可以承受多久的停機時間,你的提供商是否了解你的應用程序和數據優先級?
如果你在一個高度管制的行業中,可能最重要的問題是:你對災難恢復站點是否具有可視性?“如果您正在使用基于云的基礎架構,那么你可能無法確定應用程序具體的運行位置,”Suderman說。
DRaaS入門
總部位于巴爾的摩的食品制造商TIC Gums的高級IT經理Vishal "Steve" Mathur正在計劃公司的DRaaS之旅。他的第一步是重做公司的廣域網基礎設施,該基礎設施依賴于一條MPLS線路以連接到公司的三個站點。他表示:“當我們的MPLS線路癱瘓時,所有三個網站都將被關閉,因為此時我們就無法連接到Office365或Salesforce的互聯網了。”
現在,TIC Gum已經擁有了內置的冗余線路,從三個獨立的ISP連接過來的三條線路,每個站點上都有獨立的防火墻,為支持基于云的備份、存儲和災難恢復提供了高可用性。“以我們現有的基礎設施,恢復業務可能只需要幾天時間,如果不是幾周的話,”Mathur表示。
盡管該公司最初認為它將在AWS或微軟Azure等平臺上實現災難恢復,但Mathur設計了一個記分卡,將Expective的DRaaS產品的優先級放在了其他產品之前。“我們一直在回答的最大問題是:‘我們能從大公司那里得到什么樣的服務和支持?’”他說:“從長遠來看,我們想要更多的人際關系和支持。”
該公司與Expedient進行了密切合作,以確定需要恢復的核心應用程序堆棧,重新設計這些應用程序的工作也已經完成了80%。“今年,我們將把這些應用遷移到Expedient的數據中心,”Mathur說。TIC Gums的DRaaS RTO不到兩個小時。
“我們將能夠根據標準的操作程序來啟動災難恢復,并能夠通過一個電話將所有內容重新恢復到Expedient,”他說。
Mathur已經制定了每年兩次的測試DRaaS的目標,并可以相應地調整標準操作程序。服務器將根據演習的結果從一層移動到另一層(每層表示服務器可以宕機多少小時),演習是與Expedient合作完成的。Mathur只需要從他的團隊中指定一個系統管理員:“95%的災難恢復任務留給了提供商,”他說。
AutoNation的Rasner也警告其他IT專業人士不要過于大意。“你仍然需要按下按鈕并宣布一場災難的發生。而且還有一些事情需要進行測試、驗證,在某些情況下,還需要人工干預,”他說。
此外,他說,“DRaaS也不是萬能的。”你需要對每個應用程序和基礎設施進行評估,而公司也需要考慮資本支出與運營支出之間的適宜性。你該如何證明這一點:“在災難恢復中,你所做的一切都是在不斷地復制,你可以通過DRaaS來這樣做,而不會導致所有沉重的基礎設施成本的貶值,也不需要增加任何投資。”
總的來說,Rasner對他的DRaaS體驗非常滿意:“我們已經對它進行了測試,它堅如磐石。盡管到達這里的過程有些痛苦,但我們的災難恢復情況比過去好得多了。”