近年來,很多企業都在面臨一大難題,即:如何對他們的基礎設施、技術和網絡進行災難備份與恢復,以保證其業務連續性。
一個高性價比的容災解決方案可以幫助企業以一定的IT投入獲得最大的產出,同時很好地保護企業的業務免于災難事件的影響。
在多年以前的主機時代,很多企業選擇建設第二數據中心,以此來平衡生產中心的工作量,并對企業的備份能力進行測試和改進,從而滿足業務運營的要求并提供災難恢復保障。
隨著時代的變遷,數據中心的工作量不斷膨脹,對第二數據中心的管理和協調也越來越困難。為滿足由于業務增長而急劇增加的數據量對數據中心的要求,更大、更復雜的數據中心環境開始出現。
除此之外,眾多分布式技術平臺和安裝在各種層面上的系統軟件不斷出現,而網絡技術的發展也使得“隨時隨地任意互聯”成為可能。
很多企業開始認識到技術已經越來越難以維護和管理,這不僅增加了維持災難恢復能力的復雜性,也導致了管理一個完全冗余的第二數據中心無法實現,特別是考慮到對財務、運營和技術方面的整體影響。
為了幫助解決這些問題,IT服務提供商引進了多企業共享災難恢復設施的概念——建設一個配備各種必需技術的綜合基礎設施,它可以被虛擬地劃分為任意大小并進行相應的配置。這一“熱站”概念為客戶的個性化需求提供了一個資源池,并且全部都由第三方供應商在異地管理,因此可以遠離企業的生產中心。這第一次證明了虛擬化災難恢復策略的可實現性。
了解虛擬化方法
從整體上看,虛擬化方法的主要好處是可以通過整合來實現規模效應。大量的服務器、存儲和網絡集中在一個資源池中管理,并可以按需配置。從災難恢復的角度來看,當災難發生時,資源池可以配置更多的容量和網絡接入來幫助恢復主要生產環境。虛擬化方法有其獨特的吸引力,但還需要考慮很多潛在的因素。
在虛擬化技術下,服務提供商可以在個性化需求的基礎上為企業提供約定的資源。為實現對硬件的最大化利用,單一物理設備將被虛擬化為多個分區,從而實現對多個環境進行恢復。同時,這種方式也允許企業只購買其需要的資源。
隨著時間的推移,對分布式處理恢復的更大需求越來越明顯和必要。企業開始認識到利用軟件去裝備虛擬機器的技術,這種技術可以在恢復場地的獨立硬件設備上進行恢復,同時使得明確和描述恢復過程變得更加容易——只需明確定義備份,以及嚴格遵守硬件的具體要求即可。假設容量、存儲和界面足夠充分可以為每個個體提供相等或更多吞吐量,就可以實現大量的虛擬機器恢復到一個物理點上。
虛擬化災難恢復策略的要點
在使用虛擬化災難恢復策略時需要考慮以下要點:
1、恢復容量
制定虛擬化災難恢復策略的時候很重要的一點是考慮容量。企業通常會認為恢復時容量利用率不會超過100%.事實上,由于恢復的啟動階段會將系統推向極致,所需容量可能會超過生產容量。此外,恢復過程中有大量的跟進工作,這些工作也需要容量。
2、配套資源
恢復能力雖然是需要考慮的重點,但其它各種支持生產環境的要素也要考慮在內。這些要素包括處理器資源(存儲、設備界面等)、磁盤資源(存儲陣列、存儲場地網絡SANs、磁盤簇等)、外圍設備(控制單元、終端、刀片等)、基礎設施(外部交換機)和網絡連通性(交換機、帶寬等)。
3、資源獨立、網絡冗余和可測量性
避免災難恢復失敗的一個重點是確保虛擬化資源保持獨立,而不需要依賴主生產環境。網絡冗余是指不僅為內部用戶,還必須為外部用戶(如客戶、業務伙伴、供應商等)提供接入。可測量性則是處理災難恢復和生產運營的工作量峰值所必需的。
4、恢復計劃測試
制定虛擬化災難恢復策略非常重要的一點是考慮對計劃的有效測試。測試應在系統層面上全面進行,以有效地了解特定時間段內工作量對虛擬化資源的要求,同時驗證業務的完整性和基礎設施的有效性。雖然局部的功能測試更容易安排,但卻無法保證測試結果的真實性,因此會導致測試的效果大打折扣。
5、重設工作量計劃
不論是真實情況下還是演練過程中,恢復時都應該制定詳細的計劃來管理整個過程中不斷變化的工作量。該計劃應該包括一份高層認可的正式時間表,一份恢復時資源分配的備選工作計劃,一個對偏移工作量的日常備份流程,以及一份在備用場地復原這些工作的經過測試的恢復計劃。
6、災難恢復風險控制
在制定虛擬化災難恢復策略時應考慮到給業務帶來的風險。由于虛擬化的固有弱點,距離可能會受到限制,但地理的多樣性必須被考慮在內。恢復場所應該與企業已有的風險規避策略所明確的風險承受能力相符,而不應該是滿足技術要求的結果。
7、清晰明確的工作量
在確定構成虛擬池的具體資源之前,很重要的一點是要了解災難恢復的工作量。明確業務的優先次序和臨界點,制定出與處理流程、應用的集成和相互依賴性、以及IT支持模塊相關的詳細計劃,從而保證虛擬化環境的可恢復性。
8、保持完整性的規則
包括問題、變更、事件、配置和資產管理在內的嚴格的系統管理規則是實施任何新的虛擬化災難恢復策略的前提。這對保持恢復環境的完整性是至關重要的,同時對虛擬化資源池的最終操作、監控和維護的有效性也是至關重要的。
9、業務和IT報告
對災難恢復項目進程的跟蹤、狀態的傳遞和結果的報告是所有災難恢復項目的重要輸出,對于判斷IT功能虛擬化所進行的大量投入的效果是非常重要的。