大數(shù)據(jù)在IT行業(yè)是與云計算并駕齊驅(qū)的另一大熱門話題。“大數(shù)據(jù)”指的是那些數(shù)量巨大、難于收集、處理、分析的數(shù)據(jù)集,這就容易出現(xiàn)存儲問題,本文介紹的容易出現(xiàn)的幾大問題。
“大數(shù)據(jù)”通常指的是那些數(shù)量巨大、難于收集、處理、分析的數(shù)據(jù)集,亦指那些在傳統(tǒng)基礎(chǔ)設(shè)施中長期保存的數(shù)據(jù)。這里的“大”有幾層含義,它可以形容組織的大小,而更重要的是,它界定了企業(yè)中IT基礎(chǔ)設(shè)施的規(guī)模。業(yè)內(nèi)對大數(shù)據(jù)應(yīng)用寄予了無限的期望商業(yè)信息積累的越多價值也越大只不過我們需要一個方法把這些價值挖掘出來。
為什么現(xiàn)在要大數(shù)據(jù)?
與以往相比,我們除了有能力存儲更多的數(shù)據(jù)量之外,還要面對更多的數(shù)據(jù)類型。這些數(shù)據(jù)的來源包括網(wǎng)上交易、網(wǎng)絡(luò)社交活動、自動傳感器、移動設(shè)備以及科學(xué)儀器等等。除了那些固定的數(shù)據(jù)生產(chǎn)源,各種交易行為還可能加快數(shù)據(jù)的積累速度。比如說,社交類多媒體數(shù)據(jù)的爆炸性增長就源于新的網(wǎng)上交易和記錄行為。數(shù)據(jù)永遠都在增長之中,但是,只有存儲海量數(shù)據(jù)的能力是不夠的,因為這并不能保證我們能夠成功地從中搜尋出商業(yè)價值。
數(shù)據(jù)是重要的生產(chǎn)要素
信息時代,數(shù)據(jù)儼然已成為一種重要的生產(chǎn)要素,如同資本、勞動力和原材料等其他要素一樣,而且作為一種普遍需求,它也不再局限于某些特殊行業(yè)的應(yīng)用。各行各業(yè)的公司都在收集并利用大量的數(shù)據(jù)分析結(jié)果,盡可能的降低成本,提高產(chǎn)品質(zhì)量、提高生產(chǎn)效率以及創(chuàng)造新的產(chǎn)品。例如,通過分析直接從產(chǎn)品測試現(xiàn)場收集的數(shù)據(jù),能夠幫助企業(yè)改進設(shè)計。此外,一家公司還可以通過深入分析客戶行為,對比大量的市場數(shù)據(jù),從而超越他的競爭對手。
存儲技術(shù)必須跟上
隨著大數(shù)據(jù)應(yīng)用的爆發(fā)性增長,它已經(jīng)衍生出了自己獨特的架構(gòu),而且也直接推動了存儲、網(wǎng)絡(luò)以及計算技術(shù)的發(fā)展。畢竟處理大數(shù)據(jù)這種特殊的需求是一個新的挑戰(zhàn)。硬件的發(fā)展最終還是由軟件需求推動的,就這個例子來說,我們很明顯的看到大數(shù)據(jù)分析應(yīng)用需求正在影響著數(shù)據(jù)存儲基礎(chǔ)設(shè)施的發(fā)展。
從另一方面看,這一變化對存儲廠商和其他IT基礎(chǔ)設(shè)施廠商未嘗不是一個機會。隨著結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)量的持續(xù)增長,以及分析數(shù)據(jù)來源的多樣化,此前存儲系統(tǒng)的設(shè)計已經(jīng)無法滿足大數(shù)據(jù)應(yīng)用的需要。存儲廠商已經(jīng)意識到這一點,他們開始修改基于塊和文件的存儲系統(tǒng)的架構(gòu)設(shè)計以適應(yīng)這些新的要求。在這里,我們會討論哪些與大數(shù)據(jù)存儲基礎(chǔ)設(shè)施相關(guān)的屬性,看看它們?nèi)绾斡哟髷?shù)據(jù)的挑戰(zhàn)。
容量問題
這里所說的“大容量”通常可達到PB級的數(shù)據(jù)規(guī)模,因此,海量數(shù)據(jù)存儲系統(tǒng)也一定要有相應(yīng)等級的擴展能力。與此同時,存儲系統(tǒng)的擴展一定要簡便,可以通過增加模塊或磁盤柜來增加容量,甚至不需要停機。基于這樣的需求,客戶現(xiàn)在越來越青睞Scale-out架構(gòu)的存儲。Scale- out集群結(jié)構(gòu)的特點是每個節(jié)點除了具有一定的存儲容量之外,內(nèi)部還具備數(shù)據(jù)處理能力以及互聯(lián)設(shè)備,與傳統(tǒng)存儲系統(tǒng)的煙囪式架構(gòu)完全不同,Scale- out架構(gòu)可以實現(xiàn)無縫平滑的擴展,避免存儲孤島。
“大數(shù)據(jù)”應(yīng)用除了數(shù)據(jù)規(guī)模巨大之外,還意味著擁有龐大的文件數(shù)量。因此如何管理文件系統(tǒng)層累積的元數(shù)據(jù)是一個難題,處理不當(dāng)?shù)脑挄绊懙较到y(tǒng)的擴展能力和性能,而傳統(tǒng)的NAS系統(tǒng)就存在這一瓶頸。所幸的是,基于對象的存儲架構(gòu)就不存在這個問題,它可以在一個系統(tǒng)中管理十億級別的文件數(shù)量,而且還不會像傳統(tǒng)存儲一樣遭遇元數(shù)據(jù)管理的困擾。基于對象的存儲系統(tǒng)還具有廣域擴展能力,可以在多個不同的地點部署并組成一個跨區(qū)域的大型存儲基礎(chǔ)架構(gòu)。
延遲問題
“大數(shù)據(jù)”應(yīng)用還存在實時性的問題。特別是涉及到與網(wǎng)上交易或者金融類相關(guān)的應(yīng)用。舉個例子來說,網(wǎng)絡(luò)成衣銷售行業(yè)的在線廣告推廣服務(wù)需要實時的對客戶的瀏覽記錄進行分析,并準(zhǔn)確的進行廣告投放。這就要求存儲系統(tǒng)在必須能夠支持上述特性同時保持較高的響應(yīng)速度,因為響應(yīng)延遲的結(jié)果是系統(tǒng)會推送 “過期”的廣告內(nèi)容給客戶。這種場景下,Scale-out架構(gòu)的存儲系統(tǒng)就可以發(fā)揮出優(yōu)勢,因為它的每一個節(jié)點都具有處理和互聯(lián)組件,在增加容量的同時處理能力也可以同步增長。而基于對象的存儲系統(tǒng)則能夠支持并發(fā)的數(shù)據(jù)流,從而進一步提高數(shù)據(jù)吞吐量。
有很多“大數(shù)據(jù)”應(yīng)用環(huán)境需要較高的IOPS性能,比如HPC高性能計算。此外,服務(wù)器虛擬化的普及也導(dǎo)致了對高IOPS的需求,正如它改變了傳統(tǒng)IT環(huán)境一樣。為了迎接這些挑戰(zhàn),各種模式的固態(tài)存儲設(shè)備應(yīng)運而生,小到簡單的在服務(wù)器內(nèi)部做高速緩存,大到全固態(tài)介質(zhì)的可擴展存儲系統(tǒng)等等都在蓬勃發(fā)展。
并發(fā)訪問一旦企業(yè)認識到大數(shù)據(jù)分析應(yīng)用的潛在價值,他們就會將更多的數(shù)據(jù)集納入系統(tǒng)進行比較,同時讓更多的人分享并使用這些數(shù)據(jù)。為了創(chuàng)造更多的商業(yè)價值,企業(yè)往往會綜合分析那些來自不同平臺下的多種數(shù)據(jù)對象。包括全局文件系統(tǒng)在內(nèi)的存儲基礎(chǔ)設(shè)施就能夠幫助用戶解決數(shù)據(jù)訪問的問題,全局文件系統(tǒng)允許多個主機上的多個用戶并發(fā)訪問文件數(shù)據(jù),而這些數(shù)據(jù)則可能存儲在多個地點的多種不同類型的存儲設(shè)備上。
安全問題
某些特殊行業(yè)的應(yīng)用,比如金融數(shù)據(jù)、醫(yī)療信息以及政府情報等都有自己的安全標(biāo)準(zhǔn)和保密性需求。雖然對于IT管理者來說這些并沒有什么不同,而且都是必須遵從的,但是,大數(shù)據(jù)分析往往需要多類數(shù)據(jù)相互參考,而在過去并不會有這種數(shù)據(jù)混合訪問的情況,因此大數(shù)據(jù)應(yīng)用也催生出一些新的、需要考慮的安全性問題。
成本問題
“大”,也可能意味著代價不菲。而對于那些正在使用大數(shù)據(jù)環(huán)境的企業(yè)來說,成本控制是關(guān)鍵的問題。想控制成本,就意味著我們要讓每一臺設(shè)備都實現(xiàn)更高的“效率”,同時還要減少那些昂貴的部件。目前,像重復(fù)數(shù)據(jù)刪除等技術(shù)已經(jīng)進入到主存儲市場,而且現(xiàn)在還可以處理更多的數(shù)據(jù)類型,這都可以為大數(shù)據(jù)存儲應(yīng)用帶來更多的價值,提升存儲效率。在數(shù)據(jù)量不斷增長的環(huán)境中,通過減少后端存儲的消耗,哪怕只是降低幾個百分點,都能夠獲得明顯的投資回報。此外,自動精簡配置、快照和克隆技術(shù)的使用也可以提升存儲的效率。
很多大數(shù)據(jù)存儲系統(tǒng)都包括歸檔組件,尤其對那些需要分析歷史數(shù)據(jù)或需要長期保存數(shù)據(jù)的機構(gòu)來說,歸檔設(shè)備必不可少。從單位容量存儲成本的角度看,磁帶仍然是最經(jīng)濟的存儲介質(zhì),事實上,在許多企業(yè)中,使用支持TB級大容量磁帶的歸檔系統(tǒng)仍然是事實上的標(biāo)準(zhǔn)和慣例。