雖然災難事件的發生是無法完全杜絕的,但是由災難事件所導致的業務中斷卻是可以避免的。通過使用正確的工具和采用合適的測試策略,多云中的主動-主動故障轉移可確保企業的一切業務正常運行。
對于某些企業(例如金融企業)來說,每一次業務中斷事件所帶來的經濟損失常常是以每小時百萬美元計算的,更不用說此類事件對客戶、公共關系以及企業形象所帶來的負面影響了。一個多云災難恢復計劃可有助于降低此類可避免的損失。公共云供應商們在多個不同區域部署了若干數據中心,因此,如果發生人為的或自然的災害,另一家供應商的云平臺是不太可能受到影響的。
即便是在云面世之前,企業用戶也可以通過在遠離主機站點意外地方設置備份站點的方法來實現這種災難恢復(DR)。這種模式被稱為主動-主動故障轉移,該模式主要包括了兩個運行著完全相同平臺、應用程序、存儲資源以及其他所需組件的副本的站點。
云技術讓這個主動-主動故障轉移模式的應用成本變得更為低廉,這是因為采用云技術就無需用戶自行購買備份站點所需的軟硬件配置。但是,多云環境中主動-主動自動化故障轉移的設置是略有復雜的。
自動化故障轉移與擴展的挑戰
第一個挑戰就是創建平臺副本,或者在兩個或兩個以上公共基礎設施即服務(IaaS)云品牌的平臺上創建平臺副本。雖然亞馬遜網絡服務(AWS)和Azure都提供了類似的平臺,例如Linux和Windows,但是它們可能并不會提供完全相同的配置。
通常來說,用戶必須依靠類似的平臺和配置來實現主動-主動故障轉移。即便兩個副本環境之間并不完全相同,那也是可以的,但是需要對故障轉移過程進行完整的測試。
第二個挑戰在于實現自動化故障轉移的云平臺與配置管理系統。這些工具被部署在兩個或兩個以上的IaaS云平臺上,并提供自動調節功能,以及實現從主要IaaS云到輔助備用IaaS云故障轉移的自動化。
在這里選擇正確的技術是最為至關重要的。目前還沒有哪一個單一工具能夠同時提供擴展與故障轉移功能、配置管理,以及應用程序與數據的復制自動化。用戶可能需要予以權衡并使用多個工具。例如,包括CloudSigma在內的云故障轉移工具,而一些數據復制工具則會被內置到基于云的數據庫應用程序中,例如Oracle。自動擴展功能通常是云平臺本身功能的一部分,例如AWS的Auto Scaling。但是,對于多云來說,用戶將需要投資搭建一個第三方云管理平臺,例如CA科技、思科或惠普企業等公司所提供的云管理平臺,以用于實現跨多個平臺環境的監控與擴展。
用戶需要在組件級別進行測試,以確保應用程序能夠在工作負載出現額外負載時實現自動擴展。用戶應每個月定期使用預制腳本程序來測試其故障轉移策略,以模擬當主平臺或備份平臺發生故障時故障轉移功能的實際運行情況。持續尋找各種方法來改進故障轉移程序,以及提升主要IaaS云和輔助IaaS云自動擴展的能力。了解是否有新的工具或流程可有助于降低延遲時間或恢復生產所需的時間。
支持多云中自動化故障轉移功能的新技術新技術的不斷涌現總是伴隨著新機遇的出現。這些新技術包括了無服務器和容器,這類新技術有可能幫助企業用戶在如今更多傳統技術的基礎上在多云上建立這些自動化功能。
無服務器計算消除了管理員對于公共IaaS資源所需數量與配置的擔憂,例如存儲與計算。雖然大多數公共云中都存在著無服務器系統(其中包括了AWS和Azure),但是這些系統之間的兼容性和可移植性仍然是一大挑戰,這是因為不同供應商使用了不同的編程語言和數據。
容器技術實現了更多的承諾。它們可實現跨多個主流公共云供應商的可移植性,其中包括了AWS、Azure和谷歌。容器技術還提供了一些已經通過容器編排和集群子系統(如Kubernetes)內置實現自動故障轉移和擴展的功能。