故障切換到遠程站點是一項成熟的技術,云存儲也是一項成熟的技術。但是如果用戶們在遇到故障后想把虛擬環境切換到云端,他們就面臨獨特的挑戰。
雖然這兩個過程都用到復制,但云故障切換要雙將備份內容復制到云端以便之后恢復復雜得多。故障切換過程使用云作為輔助的災難恢復站點。備用服務器接手處理出現故障的虛擬機環境,確保應用程序性能不受影響,然后等問題解決后,再切換回到主數據中心。出現故障后切換到云的過程可能是自動化,也可能是人工的,各自有其優缺點。
不妨定義一些細節。我們在此談論的是虛擬機到虛擬機。使用裸機恢復(BMR)技術,將內部物理服務器故障切換到云端物理服務器在技術上可行的,但是這不切實際。很少有云災難恢復廠商支持這么做,因為它們基于虛擬服務器技術。虛擬機架構讓用戶得以避免在輔助數據中心維護相同的硬件這個問題,這是基于云的災難恢復解決方案的一大賣點。
我們還會探討公有云環境下的故障切換。雖然故障切換在公司自身擁有的私有云中肯定可行,但是它有悖于公有云提供的易于擴展這個初衷。
你需要了解的方面
為何故障切換到遠程站點是一項成熟技術,而故障切換到云端卻不是?云本身是區別所在。
毫無疑問,云因靈活擴展、經濟實惠而很吸引人;一旦故障切換站點經過了測試,而且很全面,維護起來就比較簡單。就虛擬環境故障切換而言,你不需要像在遠程站點那樣非要維護幾乎相同的硬件,能夠獲得近乎無限擴展的好處。然而,將生產環境數據故障切換到云端也確實存在諸多挑戰。
保持服務級別
單單備份數據的風險相當低。公有云的可靠性很高,可用性也很高,而且因分布式操作而在不斷提高。但是說到關鍵的業務應用程序,備份和存儲引起的云存儲風險就會急劇加大。由于通過互聯網傳輸數據速度緩慢,在恢復時間目標(RTO)和恢復點目標(RPO)可以接受的情況下,將虛擬化生產數據遠程故障切換到云端是相當新穎的做法。
如果你有必要的帶寬,將服務器映像備份到云端相當簡單。但是在故障切換場景下在云端運行那些應用程序卻完全不同。首先,VMware和Hyper-V需要各自不同的故障切換域;此外,特定的應用程序可能需要配置不同的域,以便為故障切換的應用程序提供合適的服務級別。
將應用程序交給云端災難恢復站點之前先要進行測試。亞馬遜、谷歌、Azure及其他大型公有云都能滿足以較低服務提供較高性能的需要,但是你需要測試自己的帶寬和配置。
要在帶寬方面投入
帶寬在使用云端作為災難恢復站點方面起到了重要作用。虛擬化數據中心會生成龐大快照,而且是大量的龐大快照。想有效地管理云端故障切換災難恢復站點,有效管理快照是關鍵所在,如果你在考慮一款可以縮短數據傳輸時間的云網關產品,更是如此??煺赵诘土髁凯h境下完全沒有問題,但是在大容量復制環境下,快照會成為瓶頸。
無論你是否使用云網關,只需復制變化的增量數據,并實行重復數據刪除和壓縮。如果你的服務級別允許,還需要避免不斷地復制快照。不斷或近乎不斷地復制快照會耗用以太網資源,更不用說耗用互聯網帶寬了。不管怎么樣,高效的快照算法對成功的云端故障切換而言必不可少。
安全性和可用性
另一個挑戰是安全性。為云端備份和歸檔數據確保安全很重要;保護及訪問生產數據更是重要得多。你同時需要可靠性和可用性:之所以需要可靠性,是因為那樣云服務提供商不會丟失你的數據;之所以需要可用性,是因為那樣你在需要訪問自己的數據時,可以隨時訪問。與服務提供商一起敲定服務級別。雖然你支付的費用高于簡單的備份和恢復,但是說到應用程序,你不希望有任何閃失。
在加密級別方面做好調查工作,并且決定要不要加密靜態數據(可能需要)和傳輸中數據(可能需要,也可能不需要)。另外要留意多租戶問題。公有云是一種大規模的多租戶環境。一個風險是,如果其他租戶突然耗用大量資源,你的性能就會下降。你最不希望看到的一幕是,就在你的應用程序從云端災難恢復站點啟動運行時,別人的突然使用搶占了你的資源。要弄明白公有云提供商和災難恢復廠商如何保護你,遠離其他租戶及系統故障的影響。
另一個潛在問題出現在自動化故障切換上。災難恢復自動化通常來說是關鍵災難恢復的一個最佳實踐,但由于所謂的腦裂事件(split-brain event),它也不是什么“靈丹妙藥”。當虛擬機層面的錯誤引發自動化故障切換時,盡管虛擬機實際上并未處于故障狀態,就會出現腦裂事件。2015年,出現故障后自動切換到云端在監測路徑和事件方面有所改進,但這仍是需要留意的一個問題。就許多情況而言,一旦虛擬機出現故障,立即提醒IT團隊,這也許是比純粹自動化更合理的解決方案。
動態云
云是個動態環境,不過成功的故障切換有賴于用戶能夠找到遷移后的應用程序及其數據。廠商提供的一種選擇就是,使用基于云的集群作為故障切換災難恢復站點。
微軟Windows Server使用集群方法作為內部站點與遠程站點之間一種成熟可靠的災難恢復技術。然而,基于Windows的集群需要訪問活動目錄。這就意味著IT人員需要將活動目錄擴展到云端,而這又需要網絡活動目錄與云活動目錄不斷同步。
一種更常見的方法是,將虛擬機及其數據復制到云端,那樣萬一內部環境出現故障,用戶可以被透明地重定向至云端。這種架構的缺點在于需要解析IP地址和DNS記錄的變更,以便適應出現變化的生產站點。
如今,大多數服務提供商和廠商為你傳輸變更內容,或者提供更容易這么做的工具。比如說,Amazon Route 53的DNS Web服務就可以為開發人員和用戶使這兩種類型的變更實現自動化,因而更容易在云端執行故障切換過程。解決地址問題的另一個辦法就是,新廠商從頭開始開發基于云的災難恢復解決方案。Zadara公司推出了虛擬專用存儲陣列(VPSA),在AWS及其他云服務提供商的平臺上,使用公有云提供企業級災難恢復服務,并且使地址動態變更實現自動化。
為何操這份心?因為值得一做
你做好了設置和服務級別后,虛擬故障切換到云端是一種出色的災難恢復方案。盡管初始的設置和測試很復雜,但是這比租用遠程站點、實際構建另一個輔助數據中心來得容易,更不用說確保軟硬件基本相同帶來的麻煩和風險了。相反,你將復制到一個高度靈活、可動態擴展的環境;對于試圖讓兩個數據中心確保步伐一致的人來說,這是需要考慮的重大因素。
你可能想花錢購置更高的帶寬,或者至少花錢購置提供帶寬優化技術的產品――最好同時在這兩方面有所投入。然而,一旦你進行了額外的投入,所需的日常成本相當合理。除了可以避免建立和維護輔助數據中心的費用外,沒必要花錢為輔助數據中心雇用工作人員。你還可以讓現有的IT工作人員騰出手來,處理不同的高價值項目。
管理起來與平常的管理很相似。如果你已經在使用VMware或Hyper-V工具復制到輔助數據中心,可以使用同樣的工具復制到云端。第三方產品也是如此,因為它們會保留盡可能多的熟悉的虛擬機管理程序控制臺和工具集。
比如說,Hyper-V就使用以Azure為中心的Hyper-V Replica以及Azure站點恢復管理器,在Azure里面的虛擬機管理器(VMM)云中實現虛擬機的復制和故障切換。Hyper-V恢復管理器(HRM)可以使這個過程的更多環節實現自動化。VMware提供了站點恢復管理器(SRM);其新的公有云恢復產品是VMware vCloud Air Disaster Recovery。與SRM不同,Air DR為VMware vSphere提供了原生的云端災難恢復。vCloud Air DR建立在vSphere Replication的異步復制和故障切換技術上。
不僅僅用于災難恢復
云端故障切換的驅動因素不一而足。災難恢復是最大的驅動因素,不過數據遷移、測試/開發和另外的過程也能從中得益。
· 虛擬機遷移。云端故障切換還適用于虛擬機遷移等規劃的過程。Nutanix用戶曾聲稱,他們使用Nutanix Cloud Connect作為故障切換站點,用于遷移虛擬化的Web應用程序。Nutanix使用Nutanix Prism和Cloud Connect,管理公有云中的備份和恢復、災難恢復及測試/開發?;谠频目刂破魈摂M機(CVM)集群運行起來與遠程集群如出一轍。數據從內部集群相應地傳輸到云端。
在規劃遷移前幾天,該用戶將所有受影響的應用程序及數據統統傳輸到云端,具體方法是:手動關閉虛擬機,等待自動化故障切換完成,然后激活云集群。然后,等一切準備就續后,他們將應用程序及數據恢復到新的環境。
· 災難恢復測試。災難恢復測試傳統上很麻煩、不現實、耗費時間,這就是為什么許多公司很少測試災難恢復方案。有了云端故障切換,IT人員就很容易測試故障切換程序和恢復時間,不需要花心思建立相同的遠程數據中心。Zerto Virtual Replication是一款基于虛擬機管理程序的復制產品,它支持云端的大規模災難恢復和測試,另外還支持自動化故障切換和故障恢復。 Unitrends Reliable DR則為多虛擬機應用程序管理針對特定應用程序的測試,并使這種測試實現自動化,而且確保了在虛擬化生產環境下的故障切換。
·裸機恢復(BMR)。云端虛擬化還能幫助裸機恢復。裸機恢復是指萬一出現故障,恢復一個相同的系統這個過程,從操作系統、驅動程序、應用程序一直到生產數據。物理裸機恢復需要相同的硬件環境,確保無差錯恢復,不然你會遇到嚴重錯誤。在虛擬機環境中,Zetta.net等廠商能恢復虛擬機映像,以便啟動裸機。這有助于裸機恢復過程大大提高效率,并大大減少差錯。
考慮到隨之而來的種種問題,基于云的故障切換值得研究和投入嗎?對許多公司來說,答案是肯定的;但并非對每家公司都是如此。如果你有效果良好的遠程災難恢復環境,就不需要丟棄這個環境。如果貴公司擁有多個數據中心,這些數據中心之間又有復制和災難恢復系統,肯定不需要丟棄現有環境。
然而,即便那樣,IT人員也應該考慮測試基于云的災難恢復,作為虛擬化服務器環境下的試點項目。虛擬網絡正在非常迅速地擴大,它們在生成大量數據??伸`活擴展的云在這些特定的環境提供了實實在在的優點。