大數(shù)據(jù)正在徹底改變IT世界。那么,什么樣的數(shù)據(jù)談得上數(shù)據(jù)呢?
根據(jù)IDC的報告,未來十年全球大數(shù)據(jù)將增加50倍。僅在2011年,我們就將看到1.8ZB(也就是1.8萬億GB)的大數(shù)據(jù)創(chuàng)建產(chǎn)生。這相當(dāng)于每位美國人每分鐘寫3條Tweet,而且還是不停地寫2.6976萬年。在未來十年,管理數(shù)據(jù)倉庫的服務(wù)器的數(shù)量將增加10倍以便迎合50倍的大數(shù)據(jù)增長。
毫無疑問,大數(shù)據(jù)將挑戰(zhàn)企業(yè)的存儲架構(gòu)及數(shù)據(jù)中心基礎(chǔ)設(shè)施等,也會引發(fā)云計算、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、商業(yè)智能等應(yīng)用的連鎖反應(yīng)。2011年企業(yè)會將更多的多TB(1TB=1000GB)數(shù)據(jù)集用于商務(wù)智能和商務(wù)分析;到2020年,全球數(shù)據(jù)使用量預(yù)計暴增44倍,達(dá)到35.2ZB(1ZB=10億TB)。
大數(shù)據(jù)面臨的挑戰(zhàn)——RISC已無法滿足未來的企業(yè)架構(gòu)需求
對于海量的數(shù)據(jù)信息,如何對這些數(shù)據(jù)進行復(fù)雜的應(yīng)用成了現(xiàn)今數(shù)據(jù)倉庫、商業(yè)智能和數(shù)據(jù)分析技術(shù)的研究熱點。數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的內(nèi)容,解決數(shù)據(jù)的應(yīng)用質(zhì)量問題。充分利用有用的數(shù)據(jù),廢棄虛偽無用的數(shù)據(jù),是數(shù)據(jù)挖掘技術(shù)的最重要的應(yīng)用。傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)結(jié)構(gòu)性很強,即其中的數(shù)據(jù)為完全結(jié)構(gòu)化的數(shù)據(jù),而目前數(shù)據(jù)最大特點就是半結(jié)構(gòu)化,因此此類數(shù)據(jù)挖掘比面向單個數(shù)據(jù)倉庫的數(shù)據(jù)挖掘要復(fù)雜得多。
談到傳統(tǒng)數(shù)據(jù)倉庫的時候,大家不免就會買存儲設(shè)備,選服務(wù)器,不管是IBM Power或者是Oracle架構(gòu)的,這些其實都是在傳統(tǒng)時代非常有名的數(shù)據(jù)庫品牌,把它構(gòu)建在一起,構(gòu)成數(shù)據(jù)倉庫,微軟、COCNOS等都提供解決方案。
但從目前來看,現(xiàn)有的數(shù)據(jù)倉庫已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足未來的企業(yè)大數(shù)據(jù)架構(gòu)。
對企業(yè)業(yè)務(wù)來說,不光要有高擴展性,而且是動態(tài)的需求,能夠讓設(shè)備自由擴充,不用去管數(shù)據(jù)倉庫、應(yīng)用具體運行在這些機器的哪一臺上,這些計算能力的耗費完全是根據(jù)業(yè)務(wù)的伸縮而來的。
傳統(tǒng)的架構(gòu)做這類的項目十年到二十年的時間,它們有一個特點,數(shù)據(jù)倉庫的訪問和傳統(tǒng)的不同,所謂的不同就是查詢特別大,查詢的語句特別長、特別復(fù)雜,不像去銀行的存提款只是在眾多的記錄中查詢一兩條,它符合大數(shù)據(jù)查詢的特征,傳統(tǒng)的查詢索引作用非常有限。在數(shù)據(jù)庫中涉及多張表的連接,同時還有匯總、算標(biāo)準(zhǔn)差等復(fù)雜的運算。但是相反它的并發(fā)請求不是很多,一個企業(yè)就是人再多,不會同時超過一千個業(yè)務(wù)分析員在分析數(shù)據(jù)。
因此,在數(shù)據(jù)倉庫誕生的第一天,系統(tǒng)一直就有一個瓶頸,要把大查詢分解成小任務(wù),這些小任務(wù)由并行的服務(wù)器來完成,我們強調(diào)小的機器要多,而不要大的機器CPU數(shù)少。因此,數(shù)據(jù)倉庫天生就是MPP、開放架構(gòu)的CPU加上并行擴展橫向擴展數(shù)量,從這方面來看,擴展性較差,并行處理能力有限的RISC架構(gòu)已經(jīng)不能代表未來的企業(yè)架構(gòu)。
而以英特爾為代表的X86處理器天生就是為大數(shù)據(jù)應(yīng)用而生,Oracle推出的Exadata數(shù)據(jù)倉庫服務(wù)器采用了英特爾至強(Nehalem)處理器、DDR3內(nèi)存和40Gbps InfiniBand,Exadata數(shù)據(jù)庫機第二版的CPU、內(nèi)存和網(wǎng)絡(luò)速度分別提高了80%、200%、100%,單個數(shù)據(jù)庫服務(wù)器內(nèi)存容量則達(dá)到了72GB,原始磁盤容量和每機架磁盤容量達(dá)到100TB、336TB,Sun FlashFire內(nèi)存卡則實現(xiàn)了高性能的OLTP。
當(dāng)大數(shù)據(jù)遭遇云計算
云計算為什么能盛行呢?在互聯(lián)網(wǎng)領(lǐng)域應(yīng)用系統(tǒng)的構(gòu)建:客戶群體是不確定的、系統(tǒng)規(guī)模不確定、系統(tǒng)投資不固定、業(yè)務(wù)應(yīng)用有很清晰的并行分割特征、數(shù)據(jù)倉庫系統(tǒng)的構(gòu)建、數(shù)據(jù)倉庫規(guī)模可估算、數(shù)據(jù)倉庫的系統(tǒng)投資與業(yè)務(wù)分析的價值和回報相關(guān)、商業(yè)智能應(yīng)用屬于整體應(yīng)用、Saas模式構(gòu)建數(shù)據(jù)倉庫系統(tǒng)。
在大數(shù)據(jù)技術(shù)上用云計算構(gòu)建下一代數(shù)據(jù)倉庫成為熱門話題,這當(dāng)中包括大數(shù)據(jù)管理,分布式進行文件系統(tǒng),如Hadoop、Mapreduce數(shù)據(jù)分割與訪問執(zhí)行;同時SQL支持,以Hive HADOOP為代表的SQL界面支持。從系統(tǒng)需求來看,大數(shù)據(jù)的架構(gòu)對系統(tǒng)提出了新的挑戰(zhàn):
1、集成度更高:這意味著一個標(biāo)準(zhǔn)機箱最大限度完成特定任務(wù),華碩不久推出的一款高密度機架式服務(wù)器RS720,2U高度最大能采用支持4個雙路計算節(jié)點,實現(xiàn)單機8個英特爾5600系列處理器和高達(dá)總計768G內(nèi)存資源。
2、配置更合理、速度更快:存儲、控制器、I/O通道、內(nèi)存、CPU、網(wǎng)絡(luò)均衡設(shè)計,針對數(shù)據(jù)倉庫訪問最優(yōu)設(shè)計,比傳統(tǒng)類似平臺高出一個數(shù)量級以上,這方面的經(jīng)典案例是數(shù)據(jù)倉庫頭號廠商Teradata,其采用雙路Xeon六核處理器的企業(yè)級數(shù)據(jù)倉庫5650可輕松為數(shù)千名用戶處理更復(fù)雜、更大量的工作負(fù)載、持續(xù)負(fù)載以及批負(fù)載、操作性查詢、簡單報表和復(fù)雜的分析,所有功能均在同一個平臺上運行。與上一代產(chǎn)品相比,動態(tài)企業(yè)級數(shù)據(jù)倉庫5650的性能提高了43%,占地面積保持不變,減少了能源消耗和空間需求。
3、整體能耗更低:同等計算任務(wù),能耗最低。
4、系統(tǒng)更加穩(wěn)定可靠:能夠消除各種單點故障環(huán)節(jié),統(tǒng)一一個部件、器件的品質(zhì)和標(biāo)準(zhǔn)。
5、管理維護費用低:數(shù)據(jù)藏的常規(guī)管理全部集成。
6、可規(guī)劃和預(yù)見的系統(tǒng)擴容、升級路線圖。
云計算環(huán)境作為大數(shù)據(jù)處理平臺
1.云計算環(huán)境中基本計算單元的分化
企業(yè)云計算平臺上雖然有多個并行計算的CPU,但并沒有創(chuàng)造出具有超強數(shù)據(jù)處理能力的超級CPU,因此云計算平臺需要的是有并行運算能力的軟件系統(tǒng)。同時,當(dāng)所有用戶的數(shù)據(jù)全部放在云端時,雖然存儲容量可以很方便地擴充,但面對大量用戶同時發(fā)起的海量數(shù)據(jù)處理請求,簡單的數(shù)據(jù)處理邏輯已經(jīng)無法滿足需要。
可以看到,國內(nèi)有相當(dāng)多的電商企業(yè),用小型機和Oracle扛了好幾年,并請了全國最牛的Oracle的專家不停優(yōu)化他的Oracle和小型機,初期發(fā)展可能很快,但是后來由于數(shù)據(jù)量激增,業(yè)務(wù)開始受到嚴(yán)重影響,最典型的例子無疑是京東商城前段時間發(fā)生的大規(guī)模訪問請求宕機事件,因此他們開始逐漸放棄了Oracle或者MS-SQL,并逐漸轉(zhuǎn)向MySQL X86的分布式架構(gòu)。
目前的基本計算單元常常是普通的X86服務(wù)器,它們組成了一個大的云,而未來的云計算單元里有可能有存儲單元、計算單元、協(xié)調(diào)單元,總體的效率會更高。
2、對系統(tǒng)穩(wěn)定性的需求
在應(yīng)對大規(guī)模訪問的時候有一些系統(tǒng)穩(wěn)定性的追求,來自很多方面,來自網(wǎng)絡(luò)穩(wěn)定性、數(shù)據(jù)庫穩(wěn)定性。對系統(tǒng)而言,需要把握一個大原則,需要消除任何單點故障。不光是網(wǎng)絡(luò)上單點故障,還有來自你呼叫中心里的單點故障,只要有單點故障一定要消除掉。因為對于電商行業(yè)而言,每一秒都是錢,電子商務(wù)業(yè)務(wù)如果宕機一個小時,損失多少是可以算出來的,電商行業(yè)需要非常全面的技術(shù)系統(tǒng)監(jiān)控報警系統(tǒng)。有時候你會發(fā)現(xiàn)你如果通過技術(shù)系統(tǒng)的監(jiān)控去推導(dǎo)出你的技術(shù)發(fā)生問題已經(jīng)晚了。