大數(shù)據(jù)是時下最熱門的企業(yè)IT話題,那么大數(shù)據(jù)對存儲有什么要求呢?
為了解決這個問題,我們首先來分析一下大數(shù)據(jù)的特點。
Gartner對大數(shù)據(jù)下了一個簡潔的定義:“大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。”
所以,大數(shù)據(jù)既包含結(jié)構(gòu)化數(shù)據(jù)也包括非結(jié)構(gòu)化數(shù)據(jù),而且是以數(shù)量巨大、變化率高的形式存在。
大數(shù)據(jù)如此熱門的主要原因是因為它能提供可行性的見解。企業(yè)通常使用分析應(yīng)用來提取大數(shù)據(jù)里的本來難以挖掘的信息,而這是用現(xiàn)有的技術(shù)和方法不可能辦到的。
像石化工業(yè)和金融服務(wù)行業(yè)已經(jīng)使用數(shù)據(jù)倉庫技術(shù)來處理大量的數(shù)據(jù)幾十年了。但這并不是指現(xiàn)在所謂的大數(shù)據(jù)。
主要區(qū)別在于,現(xiàn)在的大數(shù)據(jù)包括非結(jié)構(gòu)化數(shù)據(jù),并且可以從各種數(shù)據(jù)中提取有用的信息,比如郵件、日志文件、社交多媒體、商業(yè)交易及其他數(shù)據(jù)。
比如,保存在數(shù)據(jù)庫里的一家連鎖零售商店的某商品的銷售圖表數(shù)據(jù)。對這些數(shù)據(jù)的獲取就不是大數(shù)據(jù)范疇的問題。
但是如果企業(yè)需要把某商品的銷售量和特定時刻的天氣狀況,或者不同的消費者信息聯(lián)系起來,并且要求能快速獲取這些信息,這需要密集處理,這就是大數(shù)據(jù)技術(shù)的一種應(yīng)用。
大數(shù)據(jù)存儲和傳統(tǒng)的數(shù)據(jù)存儲相比有什么不同?
大數(shù)據(jù)應(yīng)用的一個主要特點是實時性或者近實時性。比如,如果警察攔住一輛車,想得到這輛車的相關(guān)信息,那么這對時間的要求是越快越好。
類似的,一個金融類的應(yīng)用,能為業(yè)務(wù)員從數(shù)量巨大種類繁多的數(shù)據(jù)里快速挖掘出相關(guān)信息,能幫助他們領(lǐng)先于競爭對手做出交易的決定。
數(shù)據(jù)通常以每年增長50%的速度快速激增,尤其是非結(jié)構(gòu)化數(shù)據(jù)。隨著科技的進步,有越來越多的傳感器采集數(shù)據(jù)、移動設(shè)備、社交多媒體等等,所以數(shù)據(jù)只可能繼續(xù)增長。
總而言之,大數(shù)據(jù)需要非常高性能、高吞吐率、大容量的基礎(chǔ)設(shè)備。
大數(shù)據(jù)存儲選擇
選擇存儲大數(shù)據(jù)方法時需要考慮到應(yīng)用特點和使用模式。
在傳統(tǒng)的數(shù)據(jù)倉庫上進行對相似數(shù)據(jù)集的挖掘操作,一般都在一個單獨的存儲設(shè)備上進行。現(xiàn)在這種方法對處理能力和存儲容量的可擴展性來說已經(jīng)不是最優(yōu)的選擇了。
相反,一個web分析工作負載要求能在低延遲的情況下訪問大量的小文件,使用大量的電腦或者存儲單元,性能和容量都可以在一定條件下進行擴展。這種存儲方式更適合大數(shù)據(jù)。
這里提到了多種存儲方法。
首先是橫向擴展(scale-out)NAS。
橫向擴展NAS是文件級別的訪問存儲器,它是由多個連接在一起的存儲節(jié)點構(gòu)成,而且存儲容量和處理能力會隨著節(jié)點的增加而提升。同時,支持數(shù)十億文件和PB級存儲容量的并行文件系統(tǒng)允許把不同位置的大量數(shù)據(jù)連接起來。
橫向擴展NAS產(chǎn)品主要包括:EMC Isilon及其OneFS分布式文件系統(tǒng);HDS的 Cloudera Hadoop Distribution Cluster 基準體系架構(gòu);Data Direct Networks hScaler Hadoop NAS平臺;IBM的SONAS;HP的X9000;還有DATA Ontap橫向擴展操作系統(tǒng)版本已經(jīng)到8.2的NetApp。
另外一個適合處理大量數(shù)據(jù)的技術(shù)是對象存儲。對象存儲有可能替代傳統(tǒng)的樹形文件系統(tǒng)。對象存儲支持平行的數(shù)據(jù)結(jié)構(gòu),所有文件都有唯一的ID標識,類似于網(wǎng)上的DNS系統(tǒng)。在平行的文件系統(tǒng)結(jié)構(gòu)中比在垂直的文件系統(tǒng)結(jié)構(gòu)中處理大量的對象要簡單的多。
對象存儲產(chǎn)品越來越多的支持大數(shù)據(jù)分析環(huán)境,其產(chǎn)品主要有Scality的RING體系結(jié)構(gòu),Dell 的DX,還有EMC的Atmos平臺。
Hyperscale、大數(shù)據(jù)和ViPR
一個被稱作hyperscale的計算機/存儲體系結(jié)構(gòu)憑借其被諸如Facebook和Google等公司的使用,而日益突顯。Hyperscale使用許多相對簡單常見的基于硬件的直連式存儲計算機節(jié)點,來提高大數(shù)據(jù)分析環(huán)境的性能,比如Hadoop。
和傳統(tǒng)的企業(yè)級計算和存儲構(gòu)架不同,hyperscale在完整的計算機/DAS節(jié)點上進行冗余備份。如果一部分節(jié)點遇到故障,失敗的任務(wù)將會交給另一個備份節(jié)點。整個出故障的單元都會被替換。
這個方法適合非常大規(guī)模數(shù)據(jù)的用戶,比如前面提到的一些網(wǎng)絡(luò)先驅(qū)者。
但是這也不一定,因為一些有實力的供應(yīng)商已經(jīng)意識到hyperscale體系結(jié)構(gòu)給他們帶來的機會和威脅,同時隨著數(shù)據(jù)的增長,大數(shù)據(jù)種類也紛繁復雜。
這似乎就是EMC推出其軟件定義存儲ViPR的原因了。今年EMC World 公布,ViPR在現(xiàn)有的存儲設(shè)備上放置了一個橫向擴展對象,能將這些存儲設(shè)備——EMC或者其它供應(yīng)商的存儲陣列、DAS和商品存儲——管理起來作為一個單獨的存儲池。另外,ViPR的存儲容量可以通過API連接到Hadoop或者其它大數(shù)據(jù)分析引擎,使數(shù)據(jù)可以在數(shù)據(jù)存儲的位置進行分析查詢。
Nutanix被稱為高度融合的存儲和計算節(jié)點的出現(xiàn)也反應(yīng)了這個趨勢。
這個初創(chuàng)公司將計算和存儲系統(tǒng)合并到了一起,并出售其支持集群的2U系統(tǒng),該系統(tǒng)為Hadoop用戶提供hyperscale節(jié)點,每個節(jié)點有四個CPU插槽。使用SSD和旋轉(zhuǎn)介質(zhì),提供數(shù)據(jù)分層和壓縮,能達到宣稱的2GBps的吞吐量。