對今天任何企業而言,信息和數據都已成為其核心資產,維護這部分信息正是IT部門的關鍵要務。在常見的業務流程中,IT人員會將每天的數據備份復制,用于其他各種用途。不幸的是,這部分數據存儲往往消耗過量的存儲空間,從而加緊了原本便不寬裕的存儲預算。
數據無休止增長的解決方案之一便是使用拷貝管理系統。雖然這仍屬于較新出現的技術,但市場上已經有不少小型的拷貝數據管理(CDM)廠商,而大型存儲系統供應商則將此功能添加到現有產品之中。
為何針對拷貝?
數據副本對IT部門有許多種用途。除了用于災難恢復的拷貝會實際將所有數據都遷移至另一個平臺,絕大多數的只是時間點拷貝,表示其只代表數據在某個特定時刻的狀態。舉例而言,快照每小時或每天都會生成,以便在發生用戶錯誤刪除等操作時,IT部門能夠快速找回或更正相關數據。
數據拷貝亦可以用于搭建測試環境,供應用程序開發使用。這種使用場景會從主備份中復制出一份拷貝,以確保主拷貝不會損壞而無法滿足合規或引起生產數據無法恢復的風險。
在服務器虛擬化技術出現之前,應用程序使用專門的開發與用戶驗收培訓(UAT)系統,并在開發環境中測試代碼,由UAT測試系統負載。
現在,伴隨著應用程序變得越來越虛擬化,并采用容器技術,更改應用程序的過程更多采取DevOps的方式,從而確??焖俚c上市。這意味著開發人員需要同時提供多個測試數據副本,即使其中的大部分只會保留幾個小時或幾天。
維護多個數據副本令企業組織頭疼不已。每個副本必須有負責人跟進其狀態,以便在某個時刻將其釋放。在備份領域,已經有些許流程來對此做生命周期管理。備份通常根據時間周期循環往復。
但這不適合測試或開發數據,因此仍需要開發出新的流程。這或將成為拷貝數據管理的潛在市場。
海量復制
伴隨著向服務器虛擬化的轉變,我們之前所討論的二級數據使用都通過虛擬機鏡像中獲得?,F代化的虛擬機管理程序(Hypervisor)提供接口和API ,從而可以在數據塊層級提取虛擬機數據,讓備份過程相對簡單化。
虛擬機管理程序通常也能實現快照功能,但這絕非是無償的。保留多份快照,尤其是在后期合并這些快照更新,會對運行在虛擬機中的應用程序性能產生重大影響。這是拷貝管理系統可以解決的另一項問題。
整合帶來效益
有許多內部的IT流程和系統會為各種用途進行時間點拷貝。隨著服務器虛擬化技術的高度滲透,大多數通過API采集數據的業務流程都用這些相同或相似的接口來提取數據。將這些功能整合至單一平臺頗具意義。
整合能夠帶來下列顯著的改善之處:
節省成本。因各種用途而產生的數據(歸檔、備份、測試和開發)可以集中到單個硬件集群上,避免了同時運行多個平臺,減少相關的部署、維護和升級成本。同時,這樣做也減少了硬件和相應的空間,并降低冷卻成本。
避免對業務運營的影響。將事務性工作遷移到另一平臺上可以減少對生產系統的影響。這樣做可以消除快照管理(和性能)的開支。你可以在輔助平臺上管理數據恢復,而非去影響生產系統。這樣還能降低意外覆蓋生產系統的風險。
減少安全風險。對業務運營而言,將二級數據放在另一個平臺上可以輕松分割安全權限。對需要訪問生產鏡像的團隊,無論其處于何種目的,都可以從安全的角度分離出來,單獨審計。
那么,市場上為什么直到今天才出現CDM的成功部署?有一些技術創新使得拷貝管理系統比運行單獨的平臺更具吸引力。
第一項創新技術是重復數據刪除,通過消除重復的數據塊(通常在數據塊級別)從數據集合中消除冗余的物理數據。事實上,該技術僅保留單個物理副本,然后用元數據和指針來映射數據的邏輯和物理關系。
二級數據通常是高度冗余的,其中創建了虛擬機和虛擬機下層鏡像的多個副本。這使得重復數據刪除能夠節省下相當可觀的存儲量,尤其是在組合了多個時間點的數據源(如備份和數據鏡像)時。
今天硬件平臺(其中的絕大部分基于Intel x86架構)處理能力的提高代表著你可以無需額外的定制化硬件,即可執行諸如重復數據刪除、過零檢測和壓縮等技術。這使得拷貝管理技術更專注于通過軟件提升價值,即便在最終產品上,仍會以軟硬件組合的形式銷售。
我們還能夠為這項創新增添閃存技術。閃存為隨機數據訪問操作(通常是經過重復數據刪除帶來了極高的性能,并且伴隨著價格持續下降,其在設備內的部署會逐漸增多。
從硬件上分離開
拷貝管理系統通常被部署為獨立的平臺,而非直接對接生產系統。這樣的設計有助于遵循最基本的備份原則,即從物理上分開平臺與生產系統的數據聯系。從邏輯上將主數據與二級數據隔離開,甚至在需要的情況下將數據存儲到遠程。
二級平臺還可以處理與主存儲不同的數據。對生產端的主數據而言,其目的是盡可能快地滿足應用程序的I / O請求,而不需要快照。通過拷貝管理技術,數據不斷變化,應用程序不斷更新存儲,而將訪問歷史數據留給輔助平臺完成。
因此,拷貝管理系統中的數據存儲和檢索方式必須結構化,以便不論是訪問六個月或五分鐘之前的數據都不會對性能產生什么影響。這也意味著數據的內部結構需要不同于生產系統。數據結構和相關元數據要能夠提供諸如搜索之類的高級功能,這樣增加了作為備份和歸檔平臺的CDM的總體價值。
擴展至云端
拷貝管理系統可以重復利用公有云帶來的靈活性。諸如Amazon Web Services、Microsoft Azure和Google Cloud Platform所帶來的超大規模服務可以提供近乎無限的計算和存儲資源,根據實際消費逐月收費。公有云將資產購置轉化為服務購買,只收取所使用的資源,而不用為資源的建設買單。
拷貝管理系統擴展至公有云意味著企業組織能夠卸下陳舊數據的包袱,這些數據不太會馬上被用來進行恢復或測試。CDM系統可以有效地成為應用程序的歸檔工具(這也就是為什么搜索會成為一項重要的特性)。
伴隨著CDM在云端技術支持的日益成熟,我們可以想象未來可以將應用程序直接部署在公有云端,進行測試/開發工作,不需要將數據存儲到現場。這會大幅度降低成本,而且只是運營成本。
領先的拷貝數據管理廠商能夠提供哪些功能?
現在我們對CDM可以實現的內容有更清晰地認識,那么接下來簡要介紹下今天市場上領先的拷貝管理系統。這些產品經由市場權威人士的廣泛研究確定,其中涉及到哪些產品最適合用于作為行業購買標準。
Rubrik和Cohesity都通過軟硬件結合的方式來處理拷貝管理。 這些拷貝管理系統通??梢詸M向擴展,并支持與公有云的對接。
Actifio和Druva提供的軟件都可以獲取現有硬件平臺上的數據,包括虛擬服務器環境和傳統應用環境。
Catalogic Software可以利用底層存儲平臺的快照功能,管理來自EMC、IBM和NetApp存儲陣列上的快照。
Hitachi Data的Instance Director可以管理Hitachi Data System的企業級的Virtual Storage Platform 和Hitachi NAS Platform,支持諸如Oracle、Exchange、SQL Server和SAP HANA等傳統應用程序。
Dell EMC所提供Enterprise Copy Data Management可以管理Dell EMC的 VMAX,XtremIO以及Data Domain平臺之間的數據。
Delphix軟件專注于解決數據庫的拷貝管理問題。
Commvault在其包羅萬象的數據管理平臺中提供了一系列類似CDM的功能。