一提到數據,不少人腦海里馬上就會想到數據庫,這個詞能有如此高的知名度,完全得益于此前結構化數據在數據管理中的統治地位與人們對于其的重視。的確,在過去相當長的時期內,企業是數據制造的主體,而對于企業來講,存在于數據庫,應用于ERP、CRM等系統的結構化數據無疑是最為重要的部分。而現在,隨著信息制造主體的轉變與信息化的普及,非結構化數據的管理日益成為業界熱點,并且即使在企業內,非結構化數據的管理也逐漸成為了IT部門的重點課題。
激增的非結構化數據
據IDC的報告顯示,現在全球數據量每18個月就要翻一番,每年全球產生的數據量已經高達40EB(1EB=1000PB)。而這些瘋狂增長的數據主要來自非結構化數據。非結構化數據是相對于結構化數據而言,結構化數據主要是指那些數字的或能用統一的結構來表示的數據,如存儲在數據庫中的數據,這些數據基本上是以塊(Block)的形式呈現。而非結構化數據是指那些無法用數字或統一的結構來表示的數據,像文本、圖像、視頻、音頻、報表、網頁等都是非結構化數據,它們大多以文件(File)的形式保存。
造成非結構化數據激增的原因主要有兩個:一是云時代的到來使得數據創造的主體由企業逐漸轉向用戶個體,而個體所產生的絕大部分數據均為圖片、文檔、視頻等非結構化數據;另一方面,信息化技術的普及使得企業更多的辦公流程通過網絡得以實現,以往紙質的表單、票據等現在都實現了數字化存檔,而這方面產生的數據也以非結構化數據為主。
事實上,非結構化數據成為主流早有征兆,2008年,基于文件的存儲系統容量出貨量就以微弱的優勢首次超過了基于塊的存儲系統容量的出貨量,而近幾年,這一差距正在逐漸拉大,據Gartner預計,到2012年,基于文件的存儲系統容量將占到總容量的70%。而
IDC也同時預測,鑒于基于文件類型的非結構化數據的增速極快,到2012年,全球存儲市場的總出貨量中將有80%的容量被文件級數據所覆蓋。
非結構化數據的特點
相比于業界一直重點關注的結構化數據,非結構化數據在生產、存儲、使用上都有著不同的特點。
1、 生產速度快
一條結構化數據的大小往往是Byte級別,而非結構化數據的增長量級往往在MB級別,兩者在生產速度上的差別顯而易見,反映在存儲容量上的區隔同樣明顯,一個結構化數據庫的級別大都在GB級別,如果一個結構化數據庫達到TB級別就算超大規模,而對于類似影視制作等以非結構化數據為主的企業來說,其所需要的存儲空間往往有接近PB的規模。
非結構化數據這一特點反映在對于存儲設備的的需求便是大的存儲空間與方便靈活的擴展性能。
2、 文件級別的管理
與結構化數據使用的塊級別存儲不同的是,非結構化數據需要的是文件級別的存儲技術。
在存儲區域網絡這種塊級別存儲架構中,主機直接通過SCSI或FC協議控制數據,而SAN存儲設備無需完成文件的識別、管理等工作,這些工作都由主機來完成。
而面對非結構化數據,再采取這樣的方式無疑會加大主機的壓力,因此非結構化數據需要文件級的存儲設備,如何去處理這樣的需求呢,按照傳統的方式我們通常有兩種方法,一方面,我們可以很容易的利用Windows或者Linux的文件服務器再加上直連存儲系統或者SAN存儲系統來構建出一臺文件服務器來存放非結構化數據;另一種方法就是使用傳統的NAS設備,NAS是一個擁有自己文件系統的存儲設備,通過NFS或CIFS協議實現文件級的傳輸,但是,傳統的NAS往往受到擴展性方面的限制,縱向(Scale-Up)擴展的方式很難適應當今非結構化數據激增的現實。
3、 共享需求
相比于結構化數據往往有專一的應用對象——數據庫服務器而言,非結構化數據所要面對的客戶端往往更加復雜與多樣化,共享的需求不可避免,這一點也決定了其與結構化數據在存儲上的不同要求,后者更需要的是SAN這樣的分配即占有的存儲方式,而結構化數據更多的需要能夠被多臺設備共享的存儲方式。
4、 對吞吐率需求更高
結構化數據的訪問是小數據大密集的方式,一次數據庫的寫入讀出產生的數據量只有幾Byte或者是幾KB,但是他需要的是非常密集的訪問,對于一個大型企業的數據庫而言,其每秒的調用次數一般會達到幾十數百次,因此對于數據庫存儲設備的考量指標是IOps,也就是一秒能夠完成的I/O數量。而結構化數據不同,對于典型的非結構化數據生產企業,如電影公司等而言,一個文件的規模非常大,往往是幾百MB到GB的級別,一次讀取時間很長,但并不密集,因此,一個好的非結構化數據存儲架構將能夠提供非常大的I/O吞吐量,也就是傳輸帶寬。
集群存儲大有用武之地
非結構化數據的激增為集群存儲技術的發展提供了前所未有的良機,目前市場上生產集群存儲的廠商不少,但是能真正做到分布式的文件存儲的廠商并不多,初志科技憑借國際領先的CZSS集群存儲技術,創造性地滿足了用戶的需求。針對上面提到的四點,我們來看以CZSS集群存儲為代表的分布式存儲產品是如何滿足用戶的非結構化數據存儲需求的。
1、 快速擴展
針對非結構化數據生產速度快的特點,初志CZSS集群存儲有著快速擴展的特性。
初志CZSS集群存儲系統采用先進的橫向(Scale-Out)擴展技術,避免了傳統縱向(Scale-In)擴展技術所存在的存儲容量的增加為主機頭帶來的難易承受的壓力的問題。橫向擴展技術能夠將訪問壓力均衡地分配在各個節點上,避免了機頭瓶頸的形成。
初志CZSS集群存儲采用Doubl-Cluster雙集群架構,將元數據集群與數據集群分離并可隨時根據需要進行獨立擴展,用戶既可以通過擴展元數據集群獲得更多文件管理的能力,又可通過擴展數據存儲集群獲得更大的聚合帶寬與存儲容量,靈活、平滑的擴展方式讓用戶可以有效地控制成本。
CZSS集群存儲系統采用動態擴展技術,用戶無需中斷應用的運行就可以通過CZSS 的配置工具動態添加節點以擴大系統的容量、性能和規模,系統自動實現負載均衡。同時,隨著存儲服務器數據的增多,整套系統的聚合帶寬也會線性的增長,完全可以滿足業務不斷發展所產生的容量和性能需求,保持用戶業務連續性的同時帶來性能的提升。
2、 文件管理
初志CZSS集群存儲采用自有CZFS文件系統,通過將元數據與數據分離的技術,實現文件的緊耦合管理與快速的訪問傳輸。并且在文件傳輸上,其采用了自有傳輸協議,但完全兼容通用的NFS與CIFS文件傳輸協議,因此在實現廣泛的共享的同時還可以保證傳輸的私密性。可以說,在文件管理上,CZSS集群存儲系統集合了SAN的訪問方便與NAS的文件級別存儲的優點。
初志CZSS集群存儲采用統一命名空間,將多個存儲節點整合成一個全局的單一的命名空間,以一個卷的形式呈現于用戶面前,無論使用多少節點,客戶端所看到的都是一個單一命名空間,初志CZSS集群存儲的單卷空間可以達到64PB,這在所有同類廠商中絕無僅有。
3、 方便共享
與結構化數據只向單一的數據庫服務器提供應用不同,以視頻、圖片等形式存在的非結構化數據需要面對多個用戶的使用,因此有著共享性的需求,傳統的SAN設備需要連接在文件服務器上才能夠達到該目的,但這顯然增加了用戶的成本投入,而傳統的NAS雖然可以實現共享,但是由于缺乏權限管理機制而無法保證數據的安全性。
初志CZSS集群存儲結合了以上兩種方式的優點并有所創新,其在掛載方式上類似與SAN設備但又有所不同,CZSS僅僅是將統一卷中的目錄掛載給用戶,并且其還具備完善的權限管理機制,不同的用戶可以自行決定自己所掛載的空間或是空間內的某個文件共享給哪個用戶,在保證信息私密性的同時避免了數據重復拷貝所帶來的存儲資源浪費。
4、 高I/O
初志CZSS集群存儲系統采用聚合存儲技術,將文件分布存儲在不同的存儲節點中,實現了多臺設備的并發讀寫與所有節點的帶寬聚合,克服了傳統存儲設備單一出口的瓶頸,可輕松提供高達數十GB/s的I/O帶寬和上百萬的IOps,保證性能隨存儲規模線性增長。
從上面的分析不難看到,非結構化數據的快速增長為以初志CZSS集群存儲為代表的分布式存儲技術帶來了廣大的應用領域與良好的市場預期,而作為云計算技術的底層架構,集群存儲在未來無疑會迎來更加廣闊的應用前景。