大數(shù)據(jù)對于數(shù)據(jù)中心管理者會帶來怎樣的影響呢?
驅(qū)動大數(shù)據(jù)增長的主要因素包括移動設(shè)備和社交網(wǎng)絡(luò)的大幅度增長、以往紙質(zhì)文件的數(shù)字化以及科研數(shù)據(jù)的增長。這也就是EMC旗下的Isilon公司美國首席技術(shù)官RobPeglar所說的“隱性增長”。這是公司檔案和備份文件帶來的增長。“他們的存檔文件正在高速增長,因?yàn)樗麄儾⒉磺宄男┬枰4?,哪些不需要保存?rdquo;Peglar說道。
各個(gè)產(chǎn)業(yè)的公司都在為大數(shù)據(jù)分析投入大量資金。其中一個(gè)產(chǎn)業(yè)為對病人數(shù)據(jù)進(jìn)行分析診療的醫(yī)療產(chǎn)業(yè)。Peglar說,在金融服務(wù)產(chǎn)業(yè),對數(shù)據(jù)進(jìn)行定性分析也頗受關(guān)注。在這方面,分析的是雜亂無章的股票交易數(shù)據(jù)。大數(shù)據(jù)分析在制造和設(shè)計(jì)業(yè)的應(yīng)用也有所增長,但增長最快的市場還是對用戶行為數(shù)據(jù)進(jìn)行分析以獲得市場情報(bào)信息的社會媒體和電子商務(wù)產(chǎn)業(yè)。
Hadoop——處理大數(shù)據(jù)的寵兒
在眾多的大數(shù)據(jù)分析平臺當(dāng)中,最為人所知的是ApacheHadoop平臺。這是一個(gè)用于分布式計(jì)算的開源軟件框架。Hadoop源于Google的MapReduce軟件框架以及Google使用的專有文件系統(tǒng)“Google文件系統(tǒng)”。Hadoop項(xiàng)目的參與者包括雅虎、LinkedIn、Facebook、Twitter、加州大學(xué)伯克利分校、Last.fm等。
大數(shù)據(jù)分析需求的增長主要受雜亂無章的數(shù)據(jù)的驅(qū)動,這正是Hadoop所擅長處理的數(shù)據(jù)。“這是對傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)庫的補(bǔ)充,”Peglar說道。“結(jié)構(gòu)化數(shù)據(jù)在增長,但是雜亂無章的數(shù)據(jù)的增長率要快得多。”
除非能部署一個(gè)由Isilon、Teradata或Oracle等公司提供的大數(shù)據(jù)應(yīng)用,否則公司很有可能將類似Hadoop的分析平臺的計(jì)算基礎(chǔ)設(shè)施部署在商用硬件上。451集團(tuán)的資深分析師RachelChalmers稱,“Hadoop對其運(yùn)行的基礎(chǔ)設(shè)施平臺做出了某些假設(shè)。”
由于Hadoop基于Google的MapReduce,因此設(shè)想它將運(yùn)行在類似Google的同質(zhì)商用基礎(chǔ)設(shè)施之上。此外,它還了解哪些CPU將用于服務(wù)器硬盤存儲,”Chalmers解釋道。
沒有處理大數(shù)據(jù)的通用平臺
部署哪種類型的分析系統(tǒng)將取決于客戶的特定需求。數(shù)據(jù)分析領(lǐng)域的主要公司Teradata的產(chǎn)品營銷總監(jiān)JimDietz稱,某些客戶對處理速度的需求高于對處理數(shù)量的需求。在這種情況下,他們會購買一個(gè)超高性能的應(yīng)用。而對于那些希望存儲并分析數(shù)千用戶行為數(shù)據(jù)的客戶,他們則需要可存儲各種海量數(shù)據(jù),并具有高處理性能的解決方案。
此外,公司所部署的解決方案設(shè)計(jì)還必須具有足夠的靈活性,以應(yīng)對未來的強(qiáng)勁增長需求。
大數(shù)據(jù)意味著高密度
Peglar說,可能影響數(shù)據(jù)中心管理者大數(shù)據(jù)(尤其是雜亂無章的大數(shù)據(jù))基礎(chǔ)設(shè)施部署的首要因素是存儲。這些存儲陣列的面積和電力需求取決于它們對能源及對可用存儲空間的使用效率。
“其中的一個(gè)基本組件為磁盤驅(qū)動器,以及所選平臺對該磁盤空間的使用效率,”Peglar說道。目前,功率密度是部署大數(shù)據(jù)分析平臺過程中計(jì)算領(lǐng)域的一個(gè)主要關(guān)注點(diǎn);此外,磁盤陣列所消耗的電力也越來越成為關(guān)注的重點(diǎn),他說道。
該關(guān)注主要源于所需存儲陣列的規(guī)模,以及這些存儲需求的增長率。Peglar發(fā)現(xiàn),在短短幾年的時(shí)間里,某些客戶的集群從1拍字節(jié)(petabyte)增長到了5拍字節(jié)(petabyte)。
大數(shù)據(jù)計(jì)算節(jié)點(diǎn)部署的密度可能非常高。Peglar說,這些部署的功率密度可達(dá)到3kW或更高。這對于數(shù)據(jù)中心的管理者確定電力和制冷基礎(chǔ)設(shè)施的規(guī)格具有明顯意義。