驅(qū)動(dòng)大數(shù)據(jù)增長(zhǎng)的主要因素包括移動(dòng)設(shè)備和社交網(wǎng)絡(luò)的大幅度增長(zhǎng)、以往紙質(zhì)文件的數(shù)字化以及科研數(shù)據(jù)的增長(zhǎng)。“他們的存檔文件正在高速增長(zhǎng),因?yàn)樗麄儾⒉磺宄男┬枰4妫男┎恍枰4妫?rdquo;EMC旗下的Isilon公司美國(guó)首席技術(shù)官Rob Peglar說(shuō)道。
各個(gè)產(chǎn)業(yè)的公司都在為大數(shù)據(jù)分析投入大量資金。其中一個(gè)產(chǎn)業(yè)為對(duì)病人數(shù)據(jù)進(jìn)行分析診療的醫(yī)療產(chǎn)業(yè)。Peglar說(shuō),在金融服務(wù)產(chǎn)業(yè),對(duì)數(shù)據(jù)進(jìn)行定性分析也頗受關(guān)注。在這方面,分析的是雜亂無(wú)章的股票交易數(shù)據(jù)。大數(shù)據(jù)分析在制造和設(shè)計(jì)業(yè)的應(yīng)用也有所增長(zhǎng),但增長(zhǎng)最快的市場(chǎng)還是對(duì)用戶行為數(shù)據(jù)進(jìn)行分析以獲得市場(chǎng)情報(bào)信息的社會(huì)媒體和電子商務(wù)產(chǎn)業(yè)。
Hadoop——處理大數(shù)據(jù)的寵兒
在眾多的大數(shù)據(jù)分析平臺(tái)當(dāng)中,最為人所知的是ApacheHadoop平臺(tái)。這是一個(gè)用于分布式計(jì)算的開(kāi)源軟件框架。Hadoop源于Google的MapReduce軟件框架以及Google使用的專有文件系統(tǒng)“Google文件系統(tǒng)”。Hadoop項(xiàng)目的參與者包括雅虎、LinkedIn、Facebook、Twitter、加州大學(xué)伯克利分校、Last.fm等。
大數(shù)據(jù)分析需求的增長(zhǎng)主要受雜亂無(wú)章的數(shù)據(jù)的驅(qū)動(dòng),這正是Hadoop所擅長(zhǎng)處理的數(shù)據(jù)。“這是對(duì)傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)庫(kù)的補(bǔ)充,”Peglar說(shuō)道。“結(jié)構(gòu)化數(shù)據(jù)在增長(zhǎng),但是雜亂無(wú)章的數(shù)據(jù)的增長(zhǎng)率要快得多。”
除非能部署一個(gè)由Isilon、Teradata或Oracle等公司提供的大數(shù)據(jù)應(yīng)用,否則公司很有可能將類似Hadoop的分析平臺(tái)的計(jì)算基礎(chǔ)設(shè)施部署在商用硬件上。451集團(tuán)的資深分析師RachelChalmers稱,“Hadoop對(duì)其運(yùn)行的基礎(chǔ)設(shè)施平臺(tái)做出了某些假設(shè)。”
由于Hadoop基于Google的MapReduce,因此設(shè)想它將運(yùn)行在類似Google的同質(zhì)商用基礎(chǔ)設(shè)施之上。此外,它還了解哪些CPU將用于服務(wù)器硬盤存儲(chǔ),”Chalmers解釋道。
沒(méi)有處理大數(shù)據(jù)的通用平臺(tái)
部署哪種類型的分析系統(tǒng)將取決于客戶的特定需求。數(shù)據(jù)分析領(lǐng)域的主要公司Teradata的產(chǎn)品營(yíng)銷總監(jiān)JimDietz稱,某些客戶對(duì)處理速度的需求高于對(duì)處理數(shù)量的需求。在這種情況下,他們會(huì)購(gòu)買一個(gè)超高性能的應(yīng)用。而對(duì)于那些希望存儲(chǔ)并分析數(shù)千用戶行為數(shù)據(jù)的客戶,他們則需要可存儲(chǔ)各種海量數(shù)據(jù),并具有高處理性能的解決方案。
對(duì)于專業(yè)存儲(chǔ)廠商來(lái)說(shuō),“我們與大數(shù)據(jù)廠商更多的是合作,不是競(jìng)爭(zhēng),因?yàn)楫a(chǎn)品架構(gòu)不一樣。硬盤廠商將硬盤提供給專業(yè)存儲(chǔ)廠家,專業(yè)存儲(chǔ)廠家再將多顆硬盤整合到一起提供給IT存儲(chǔ)廠商,IT存儲(chǔ)廠商的任務(wù)是將這些基礎(chǔ)存儲(chǔ)介質(zhì)整合成一個(gè)應(yīng)用系統(tǒng)給上端大量的數(shù)據(jù)來(lái)做存儲(chǔ)、交換、分析和保護(hù)。
此外,公司所部署的解決方案設(shè)計(jì)還必須具有足夠的靈活性,以應(yīng)對(duì)未來(lái)的強(qiáng)勁增長(zhǎng)需求。
大數(shù)據(jù)意味著高密度
Peglar說(shuō),可能影響數(shù)據(jù)中心管理者大數(shù)據(jù)(尤其是雜亂無(wú)章的大數(shù)據(jù))基礎(chǔ)設(shè)施部署的首要因素是存儲(chǔ)。這些存儲(chǔ)陣列的面積和電力需求取決于它們對(duì)能源及對(duì)可用存儲(chǔ)空間的使用效率。
計(jì)劃實(shí)施大數(shù)據(jù)分析
“例如,IT工作人員需要到各業(yè)務(wù)部門進(jìn)行咨詢,看看這些業(yè)務(wù)部門是否有部署大數(shù)據(jù)應(yīng)用程序,如Hadoop的需求,結(jié)果是沒(méi)有任何部門對(duì)其感興趣。”科爾特說(shuō)。“如果沒(méi)有具體的業(yè)務(wù)需求或應(yīng)用程序,那么其就變成了僅僅只是一種單純的技術(shù)。”
科爾特說(shuō),那些推出了大數(shù)據(jù)分析的企業(yè),往往是在金融服務(wù)和醫(yī)療保健領(lǐng)域,在這些領(lǐng)域,大量的數(shù)據(jù)可以被用于歸結(jié)揭示趨勢(shì)和最佳做法。
TheInfoPro公司每年進(jìn)行一次熱門技術(shù)指數(shù)調(diào)查,詢問(wèn)數(shù)百名IT專業(yè)人士關(guān)于他們的技術(shù)計(jì)劃相關(guān)問(wèn)題。該公司最新調(diào)查活動(dòng)是在2011年8月至今年四月期間進(jìn)行的。
不足為奇的是,受訪者再次選擇服務(wù)器虛擬化技術(shù)作為企業(yè)能力增長(zhǎng)的主要驅(qū)動(dòng)力,與光纖通道SAN是企業(yè)數(shù)據(jù)存儲(chǔ)的主要目標(biāo)。67%的受訪者表示,他們將80%到100%的生產(chǎn)服務(wù)器連接到光纖通道SAN。
驅(qū)動(dòng)器容量的增長(zhǎng)
然而,去年,隨著SAS、固態(tài)硬盤(SSD)和SATA驅(qū)動(dòng)器逐漸占據(jù)企業(yè)占主導(dǎo)地位,使得光纖通道硬盤驅(qū)動(dòng)器市場(chǎng)大受打擊。
如果問(wèn)問(wèn)這些企業(yè)在2011年購(gòu)買了什么新的磁盤存儲(chǔ)設(shè)備,48%的受訪者表示購(gòu)買了光纖通道驅(qū)動(dòng)器,31%的表示SATA驅(qū)動(dòng)器,19%的為SAS,2%的為SSD固態(tài)硬盤驅(qū)動(dòng)器。但是,當(dāng)被問(wèn)及這些企業(yè)今年采購(gòu)增長(zhǎng)最多的設(shè)備,41%的受訪者表示他們購(gòu)買了SAS驅(qū)動(dòng)器,35%的為SSD固態(tài)硬盤驅(qū)動(dòng)器;23%的為SATA驅(qū)動(dòng)器;11%的表示為光纖通道。
2011年企業(yè)購(gòu)買的驅(qū)動(dòng)器類型
在調(diào)查中發(fā)現(xiàn),規(guī)劃部署SSD技術(shù)的企業(yè)數(shù)量從去年的7%躍升至今年的37%。
“這是一個(gè)非常大的飛躍,畢竟這些企業(yè)在之前并沒(méi)有計(jì)劃使用SSD固態(tài)硬盤。這一比例從42%下降到23%。”庫(kù)爾特說(shuō)。
混合陣列和SSD固態(tài)硬盤
大多數(shù)企業(yè)數(shù)據(jù)中心使用SSD固態(tài)硬盤與旋轉(zhuǎn)盤的混合陣列,而新建的數(shù)據(jù)中心很多采用全固態(tài)陣列和服務(wù)器SSD固態(tài)硬盤。EMC作為固態(tài)混合陣列第一的供應(yīng)商,遠(yuǎn)遠(yuǎn)超過(guò)競(jìng)爭(zhēng)對(duì)手。緊隨EMC之后的是由NetApp、日立數(shù)據(jù)系統(tǒng)(日立)、IBM公司、惠普、甲骨文和戴爾。
哪些供應(yīng)商的產(chǎn)品正在使用混合陣列固態(tài)硬盤?
當(dāng)被問(wèn)及哪些供應(yīng)商提供固態(tài)存儲(chǔ)服務(wù)器,F(xiàn)usion-io則高居榜首,其次是IBM、惠普、甲骨文、戴爾和希捷。EMC為列第九,落后于NetApp。
調(diào)查顯示,排名前列的固態(tài)供應(yīng)商分別為:Fusion-io公司、PureStorage公司、NimbusData、NimbleStorage公司、GridironSystems公司和Kove。Kove公司除了生產(chǎn)所有DRAM設(shè)備之外,該公司同時(shí)還出售接口閃存卡和all-flash陣列或用具。
供應(yīng)商固態(tài)服務(wù)器首選是Fusion-io,其次是IBM公司、惠普、甲骨文和戴爾。希捷位列第六。
當(dāng)被問(wèn)及他們是否會(huì)實(shí)施all-flash陣列,7%的受訪者表示他們已經(jīng)在使用該技術(shù),而86%的受訪者表示目前沒(méi)有實(shí)施的計(jì)劃。另外,有4%的受訪者表示他們計(jì)劃購(gòu)買all-flash陣列,但應(yīng)該是在之后的半年到18個(gè)月的時(shí)間內(nèi)。2%的受訪者表示他們18個(gè)月之后實(shí)施該計(jì)劃。
馬特 沃特爾斯,是三菱電力系統(tǒng)美洲分公司的企業(yè)基礎(chǔ)設(shè)施的建筑師,并未參與TheInfoPro公司的調(diào)查。但他表示,他所在的企業(yè)在去年十二月安裝了來(lái)自NimbusStorage公司的all-flash陣列,以解決他們企業(yè)的SAP環(huán)境的I/O放緩問(wèn)題。
沃特爾斯最初試圖把第二組處理器放入他所有的SAP服務(wù)器中,升級(jí)內(nèi)存達(dá)到其最大容量,但問(wèn)題依然存在。他最后回到TB尺寸的SAP數(shù)據(jù)庫(kù)和主存儲(chǔ)裝載數(shù)據(jù)縮小了性能問(wèn)題,這在當(dāng)時(shí)是采用的一個(gè)惠普的EVA陣列。增加SSD到EVA的成本比購(gòu)買all-flash陣列更昂貴,沃特爾斯說(shuō)。
Nimbus公司的陣列支持2TB的存儲(chǔ)容量,成本約40000美元,他說(shuō)。
Nimbus公司性能優(yōu)越的快閃存儲(chǔ)陣列,不僅消除了數(shù)據(jù)庫(kù)的瓶頸,也將數(shù)據(jù)備份的時(shí)間從在EVA上的四小時(shí)削減到全新閃存陣列的15分鐘。
“到目前為止,其性能表現(xiàn)都讓我十分滿意。沒(méi)有一個(gè)單一的故障。”他說(shuō)。我在上午想到一個(gè)陣列,下午就可以上線了。就這么簡(jiǎn)單。”
沃特爾斯的環(huán)境隔離閃存存儲(chǔ)到一個(gè)應(yīng)用程序:SAP。但是,那些參與了TheInfoPro公司調(diào)查的人發(fā)現(xiàn),數(shù)據(jù)自動(dòng)分層,或陣列中的各個(gè)驅(qū)動(dòng)器類型之間遷移數(shù)據(jù)的能力,成為了最熱門的存儲(chǔ)技術(shù)。
自動(dòng)分層將數(shù)據(jù)在高效固態(tài)硬盤之間移動(dòng),或隨著數(shù)據(jù)訪問(wèn)頻率降低,從硬盤移動(dòng)到大容量,低性能的磁盤。
“其中的一個(gè)基本組件為磁盤驅(qū)動(dòng)器,以及所選平臺(tái)對(duì)該磁盤空間的使用效率,”Peglar說(shuō)道。目前,功率密度是部署大數(shù)據(jù)分析平臺(tái)過(guò)程中計(jì)算領(lǐng)域的一個(gè)主要關(guān)注點(diǎn);此外,磁盤陣列所消耗的電力也越來(lái)越成為關(guān)注的重點(diǎn),他說(shuō)道。
該關(guān)注主要源于所需存儲(chǔ)陣列的規(guī)模,以及這些存儲(chǔ)需求的增長(zhǎng)率。Peglar發(fā)現(xiàn),在短短幾年的時(shí)間里,某些客戶的集群從1拍字節(jié)(petabyte)增長(zhǎng)到了5拍字節(jié)(petabyte)。
大數(shù)據(jù)計(jì)算節(jié)點(diǎn)部署的密度可能非常高。Peglar說(shuō),這些部署的功率密度可達(dá)到3kW或更高。這對(duì)于數(shù)據(jù)中心的管理者確定電力和制冷基礎(chǔ)設(shè)施的規(guī)格具有明顯意義。