1. 備份是不能獨立數據容器存在,永遠構建于存儲之上
存儲是數據保存容器的統稱,比如軟盤,光盤,磁盤,磁盤陣列,中小規模業務用的NAS,專業的磁帶庫,專業的光纖存儲網絡SAN。存儲容量從幾MB,到上100TB,甚至P級。最近幾年出現新的一種方案,云存儲。云存儲有個好處是可以動態擴展存儲空間,平臺提供商由于采用低成本硬盤等方案,采用分布式技術,把本身廉價的硬盤聚集起來,構建成1個具備較高可靠性的存儲方案; 一些大平臺,當具備規模效應后,平攤到用戶,TCO成本會低不少,這是傳統存儲方案比較軟肋的一個地方。
備份是一種數據保護的機制和方案,其實現必須依賴于具體的存儲容器。目前在備份這塊的市場有非常多的品牌,如Symantec 的NBU ,CommVault的備份產品,IBM的TSM,EMC的NetWorker,還有專注混合云數據備份保護服務的多備份。備份通常用于保護業務系統產生的核心數據或個人重要的數據。一般的備份系統,通常會與硬件存儲設備搭配組合成備份方案。
2. 存儲通常解決地理空間的訪問問題;而備份解決地理空間上的冗余保存問題
我們工作用的WORD軟件,如果沒有數據存儲介質,編輯產生的文檔無法保存,配上IDE或SATA硬盤后,應用軟件產生的數據可以很快保存在硬盤上。這是一個簡單的硬盤存儲支持軟件工作的例子。一旦本地硬盤如果壞掉,努力工作一周的成功,可能得重新再來。
通常的重要業務系統架構設計的時候,會充分考慮存儲方案的構成,什么樣的業務系統,在幾個位置,數據如何分布,需要的容量,擴展需求等進行規劃設計,重點解決業務系統不斷增長的數據存儲問題。一般會就近業務應用服務器來部署存儲架構。不管是云存儲,還是傳統的存儲架構,都有一個目標:讓業務系統,在不同的位置和存儲在空間上的訪問可以穩定、連續進行。
數據在一個地方始終是不可靠,機房斷電,線路故障,硬件故障,火災等,特別對于重要業務系統,如支付系統,一旦業務系統為了保持業務連續訪問,考慮到了多個地點的數據鏡像,就有一點備份的味道。云存儲目前在空間數據冗余保存方面,一般也有做數據垮地區的冗余保存,防止災難的發生。
備份在此基礎上,進一步封裝邏輯,對數據在不同的地方,可以訂制不同的復制策略。較重要的數據,通常可以在一個地方進行冗余,比如用戶產生的日志,圖片等可以冗余一份;對于更關鍵的數據,如用戶注冊數據,數據存儲索引數據,交易數據,金融系統相關數據等,必要時得多做冗余。云存儲的出現,使得基于云的備份方案,實現起來更加容易,輕易按需構建不同的地理位置的通道,只要你愿意,數據備份到全球幾十個地區的云存儲中心都可以。這一切可以用最簡單的手動復制方案,也可以用自動管理的方案,比如多備份等。
3. 存儲通常解決連續數據讀寫,保存問題 ;備份解決時間版本凍結和回溯問題
保存一個word文檔,上傳完一部電影,修改一個帖子,發送一條微信消息,這些要么被順序寫入硬盤,要么被寫入專業的數據庫或文件系統。這是存儲典型的一個應用場景,就是不斷響應從業務或軟件發送的數據保存需求,文檔,電影,帖子最后只會有最新的一個狀態,歷史的狀態一直被最新的狀態覆蓋。
既然有新增,那就也有刪除,也有修改,所以存儲并不識別上層軟件的意圖,可能是正常,也可能是惡意入侵,或誤操作,新增和刪除同樣在底層會進行操作。部分存儲設計,帶有一定的備份恢復能力,當然要想使用備份恢復能力,可能比部署一套備份方案,來的成本會更大。我們都知道恢復一個硬盤的數據,通常得數上千塊,硬盤不值錢,但里面的數據值錢。
解決新增,刪除,修改等有意無意的行為對數據存儲系統帶來的影響,這時候得專業功能-備份上場。備份系統最主要考慮的一個功能就是時間線版本凍結和回溯。每次對存儲系統的備份,都會形成一個當前備份時刻的數據鏡像版本,恢復的時候就可以直接選擇對應的版本恢復,數據就回到從前那一時刻狀態。當然不同的產品實現備份方案不一樣,對于基于混合云架構的多備份來說,版本理論上可以一直保持下來,想怎么恢復,就怎么恢復。另外,不同的實現,鏡像的一致性結果不盡相同。對于一致性要求高的場景,版本可能會凍結寫請求,如數據庫備份直接加寫鎖,這時候對業務會有短時間影響;如果你說自己是土豪出得起價,需要對業務系統幾乎無干擾,幾十上百萬無所謂,則可以購買比較牛的連續數據保護方案(CDP)。
4. 存儲通常面向硬件故障為安全設計目標;備份解決軟硬件故障在內的多種因素引起的數據安全問題
在日常概念中,存儲就等于安全,特別是云計算概念出現后,包括周邊的一些技術高手也有類似看法,實際上這是一個誤區。
從最常用的機械硬盤開始,通常圍繞溫度,讀寫壽命,抗沖擊力等設計,一些硬盤在讀寫超過幾百TB后,就開始工作不正常,SSD硬盤在環境溫度變化,可能也會引起數據有效性變化。隨著存儲安全技術的加強,出現了冗余整理的技術,把多塊硬盤進行聚合,數據寫入多塊硬盤;提高了單塊硬盤的可靠性。進入到NAS,SAN等專用存儲解決方案后,通過冗余陣列,通道冗余,快照鏡像等技術,進一步提高了存儲容量和整個讀寫環節的可靠性。但這些都是圍繞硬件故障或存儲區域故障進行設計。云存儲,包括對象存儲和彈性塊存儲,核心設計目標依然是數據在硬件或存儲節點或區域系統出問題時候,有能力從其它節點恢復。
備份系統一個重要設計思想就是圍繞恢復設計。備份把數據從一個節點,一個系統復制到另外一個節點,一個系統,規避了硬件、軟件在同一時期發生問題的可能性;備份系統通常會在數據存儲這里增加高級別的冗余配置,或冗余復制,或低成本的算術冗余數據分布。備份系統通過時間版本化,空間冗余分布進一步規避了因為各種有意,無意的數據讀寫動作,包括人為操作,系統故障,軟件缺陷,黑客入侵,病毒,自然災難等,引起的數據丟失,新增,修改等問題。一些設計得比較好的方案,會輕松還原數據。即時在備份系統軟件出現問題,也能把數據通過一定的流程還原回去。多備份在業務系統出現問題后,甚至可以在選定數據庫表或某1個文件獨立恢復;如果數據采用混合云模式,數據再TB級別,也可以在極其短暫的情況下恢復到業務系統中。
5. 存儲通常關注訪問性能指標設計;備份重點關注一次備份和恢復的時間開銷
電腦從IDE硬盤,升級到SSD硬盤,操作系統啟動速度,軟件運行的速度明顯不一樣。業務系統從普通的硬盤存儲,過度到專業級SAN全光纖存儲,甚至對數據進行上幾百GB的全內存加速,目的就是為了提高數據讀寫的速度,提升終端用戶的體驗。所以,存儲系統通常會圍繞IOPS指標來選型,場景不一樣IOPS的選擇也不一樣。當然價格也不一樣。云存儲涉及到的彈性塊存儲,以及對象存儲都有同樣的考量指標 ,目標筆者了解到的是,彈性塊存儲通常在幾十MB左右,而結合SSD方案的,則可以到上百MB。云存儲為了提高讀的能力,通常結合了CDN技術,部分廠家還提供了上傳加速。
備份系統,非常關注一次備份和恢復的時間窗口,主要原因在于大部分備份系統是構建在生產主系統之上。通常備份越快,對業務系統的影響越小。業務系統的場景非常復雜,有的是文件大,如視頻,圖片,系統壓縮文件,如多備份不少客戶是數據庫壓縮后的文件進行備份,但單個文件得幾百GB ;有的客戶是海量的文件,如郵件系統,規模上TB級,數量也在億級別。如何在最短之內把數據備份完成,通常是一個比較辣手的問題。在這塊包括先壓縮后備份,先歸檔再備份,或者直接快照后再備份等各種方案都有。基本上總結起來就包括文件系統級的,IO塊級別的,或者快照級別的備份。
文件系統級實施簡單,價格低,性能受限文件系統IO能力;IO塊級別實施復雜,價格貴,通常需要變化存儲架構;快照級別可能對存儲架構會有調整,適合規模小一點的。傳統主流大廠的方案一般都會有以上幾個組合。多備份目前聚焦在文件系統對象級,IO塊和快照方案作為輔組;結合變掃描邊備份,實時發現,智能壓縮,自適應CPU硬件加密等方案,盡可能減低處理時間。依賴備份方案,恢復的機制相應也不一樣,恢復速度也不一樣; 對于純粹的備份來說,按照備份對象序列差異式的恢復變化的內容,依然是一個可靠與速度平衡的解決思路,且在目標系統可用的情況下,是非常合適的一個方案。如果對于做了異地備份的情況,災難式的恢復通常會受限于網絡通道。
6. 存儲通常以數據規模變”大”為美,而備份通常以最大程度把數據變“小”為美
這里的變大,是指存儲解決的問題是如何存儲超大規模的數據。在我們日常話題中,通常溝通交流的是誰家的硬盤支持1TB,2TB,4TB等,業務系統支持多少用戶規模,產生了多少TB數據,數據庫存儲規模如何等, 衡量一個存儲系統設計的是否好,就是在大規模數據下,系統反應良好,用戶感覺流暢。而支持這一目標,通常會說存儲服務器支持的硬盤塊數,單塊硬盤的容量,當然IO通道能力也是配套指標。
為了支持足夠的大,配上專門的存儲交換機,快速把大容量存儲陣列映射到不同的服務器上;而數據集中存儲在SAN網絡中,有的高達幾百TB甚至PB級別。即使這樣,支持壓縮的特性也能派上用場,特別巨大的數據量,對存儲的數據默認進行壓縮或去重,降低數據占用空間。云存儲的出現,更是把容量推向了幾乎無限;單個云平臺或者準確受限于存儲機房區域的容量和區域的數量。由于動態擴容特性,當存儲網絡不夠時,在IDC空間足夠的情況下,可以不斷增加節點完成存儲節點的增加。
通常當數據足夠大,數據足夠久的時候,數據就需要歸檔備份起來。而備份就是解決如何保持完整的數據同時,能更好的減低存儲開銷。所以,一般來說,由于備份會采取在原端去重,或存儲端全局去重等技術,保持最小的備份空間。同時包括壓縮等方案,也會自動在備份流程中引入。在傳統的實施方案中,由于要定期作全量,數據會變得很大,所以一般保留3個月或半年,或按年做次全量等策略。在快照模型下,由于產生的數據規模比較大,通常云主機對云磁盤采取的快照備份一般也保持幾個快照。傳統備份產品也有全增量策略,只是結合硬件存儲方案,使用和管理成本依然還是比較高;多備份采取的全增量策略,優勢主要集中在混合云索引增量模型,數據保持最小增長規模可靠存儲的同時,還可以保持更簡單的快速恢復體驗,大規模數據備份非常省空間。
存儲和備份的差異總結
存儲主要重點解決原始產生數據的正常存放和讀取問題,包括媒介,以及存放讀取方法,
比如數據通過文件系統或專門的訪問接口保存在U盤,硬盤,光盤,磁盤陣列,NAS,SAN存儲網絡,云存儲等。一般個人存儲和企業存儲在讀寫性能,安全,可靠性,可管理性,服務質量承諾等方面存在本質區別。正如硬盤,網盤永遠是解決個人照片,非敏感資料等存儲需求,而SAN,NAS,企業級云存儲服務則是企業重要資料存取方案。性能,容量,規避單節點,單區域依然是最求的最大設計目標,備份依然不是其重點解決點;進一步,基于云存儲的模型,產生了用于保存相對冷數據的服務,這為歷史累計不常用的數據歸檔備份打下了基礎,但普通個人或企業也難于直接使用。
備份則通過定期或實時復制技術,應對各類人為,軟件故障,系統故障,自然災難引起的數據丟失,損壞,出錯等問題
U盤備份,硬盤備份,磁帶備份,光盤備份,本地備份,異地備份,云備份,本地與云結合的混合云模式備份等類型,以及CDP 實時備份保護等。手動復制到U盤,硬盤構成一個最簡單的備份方案。但涉及到大規模數據,保護服務或系統數量增加,以及資料的敏感控制,生產系統資源占用控制管理等需求,只要用專業的保護方案才能解決。
最新的系統與數據備份保護趨勢將逐步超出備份范疇,智能化數據管理,數據保護虛擬化以及和各種云環境的融合,與數據安全的融合將是重要的發展方向 ;備份即是立即可用的服務,備份即是保護服務,備份即是數據虛擬化,備份即是數據服務,備份即是數據遷移服務等是重要的數據管理和數據應用發展方向。目前巨頭和多備份等一些創新類企業等已經在加快邁向這個趨勢。