海量數(shù)據(jù)來襲：大數(shù)據(jù)需要分析云平臺

責(zé)任編輯：vivian |來源：企業(yè)網(wǎng)D1Net 2012-04-12 08:56:02 本文摘自：論壇

大數(shù)據(jù)時代最熱的三個關(guān)鍵詞為：云、大數(shù)據(jù)、分析。云計算之熱在此不必贅述，因為不管你看微博也好，瀏覽網(wǎng)站也好，如果三頁看不到一個云字的話，那說明你一定不在IT業(yè)。

何為大數(shù)據(jù)？何以據(jù)？

我們先一起看看大數(shù)據(jù)這個詞發(fā)展的歷史。

60年代的時候，人們提起數(shù)據(jù)這個詞的時候，都只提Data。70年代創(chuàng)建了一個詞叫Database，從數(shù)據(jù)變成了數(shù)據(jù)庫，庫這個詞就顯得很大了。1975年創(chuàng)建了一個詞叫VLDB，80年代又創(chuàng)建了一個詞叫Data Warehouse，數(shù)據(jù)倉庫比數(shù)據(jù)庫還要大。到了90年代，人們才開始對數(shù)據(jù)倉庫里面的數(shù)據(jù)做了一些事情，叫做數(shù)據(jù)挖掘Data Mining。隨著90年代末期中期到2000年這個新的世紀(jì)里面，互聯(lián)網(wǎng)行業(yè)社交媒體還有云計算等等這些技術(shù)不斷地發(fā)展，人們又覺得這些詞都不夠了，于是就有了大數(shù)據(jù)Big Data。現(xiàn)在在國外已經(jīng)創(chuàng)建了一個叫Extreme Data，也就是說大數(shù)據(jù)也不夠，還有極端數(shù)據(jù)，為什么呢？

在我看來，大數(shù)據(jù)不過是人們在三、四十年前對數(shù)據(jù)的理解，以及對數(shù)據(jù)管理和運用手段的不斷提升，所以不要管這些詞的叫法，我們先看看大數(shù)據(jù)都做了哪些事情。

以中國的某電信運營商短信業(yè)務(wù)的數(shù)據(jù)來看，每年7000多億條短信，5年下來就是3萬多億，其實這些短信里面還是有很多價值可以挖掘的。想要挖掘這個東西難不難？3萬多億行數(shù)據(jù)，先不說這個表有多寬，先說做一些數(shù)學(xué)的統(tǒng)計、分析，就已經(jīng)是一件非常困難的事情。

大數(shù)據(jù)的4V理論

目前業(yè)界對大數(shù)據(jù)總結(jié)出來一些特征，在這里，我用了4V理論來概括。

第一個V，數(shù)據(jù)量，它決定了大數(shù)據(jù)的基礎(chǔ)架子;

第二個V，速度。既使在大數(shù)據(jù)的數(shù)據(jù)量的規(guī)模下，企業(yè)其實還在要求能不能夠很快地把一些分析做出來。

第三個V，就是數(shù)據(jù)類型。過去我們在金融、電信行業(yè)里面經(jīng)常做一些非常簡單的數(shù)據(jù)集，比如說號碼、姓名、年齡、主叫人的號碼、被叫號碼、主叫時間等很結(jié)構(gòu)化、很整齊的一些數(shù)據(jù)。現(xiàn)在有大量的數(shù)據(jù)不是結(jié)構(gòu)化的，是半結(jié)構(gòu)化的，比如一些文字，微博上的信息如何去分析，這就是大數(shù)據(jù)要解決的問題;

第四個V，變異，就是不管人們怎么去想象這些數(shù)據(jù)，它隨時還都是在變的，變動越快、越大，對我們的處理能力提出的挑戰(zhàn)越大。現(xiàn)在大家手上已經(jīng)不光是微博了，還有微信，已經(jīng)加上了聲音的信號，已經(jīng)有圖象甚至視頻。如何通過一個短信或者說彩信的方式發(fā)出去，怎么樣去處理這些信息，其實都是我們要面臨的問題。

大數(shù)據(jù)需要分析云平臺

分析這個詞，是在大數(shù)據(jù)或是云計算里面，必須要提到一個戰(zhàn)略高度來認(rèn)識的詞。如果你的云計算平臺沒有考慮如何對存儲下來的一些數(shù)據(jù)進行分析的話，那你存的又是什么？如果你沒有辦法把這里面的價值挖掘出來的話，你怎么區(qū)分一個是金礦，一個是垃圾堆？我存了大量的垃圾能夠有用嗎？當(dāng)然，沒有用處的。

大數(shù)據(jù)面臨的問題之一就是如何對數(shù)據(jù)進行快速地采集。數(shù)據(jù)的采集是非常困難的事情，對比現(xiàn)在的數(shù)據(jù)庫水平和數(shù)據(jù)增長的趨勢，可以看出，數(shù)據(jù)增長速度比我們現(xiàn)在數(shù)據(jù)庫的處理能力要大得多。

這里，大家可以看到一些耳熟能詳?shù)年P(guān)健詞，像Hadoop、MapReduce，像Sybase IQ代表的列式數(shù)據(jù)庫，還有Sybase Event Stream Processor事件流處理器，怎么樣對流數(shù)據(jù)進行實時的加工，都是企業(yè)現(xiàn)在需要掌握的一些技術(shù)。

大數(shù)據(jù)的分析還有一些周邊的、外延的工具，比如說像Matlab、SAS、SPSS或者現(xiàn)在非常火的Revolution R。開源的里邊有Hive、SciPy，Mahout、AMPL等等這些技術(shù)，在不同的領(lǐng)域里面都有很多人在研究、在分析著。

信息價值的挖掘有很多方法論和手段，比如說怎么樣去做社交媒體的分析，怎么樣去做行為分析、情緒分析。還有就是業(yè)務(wù)場景上個性化的服務(wù)、個性化的分析、個性化的推薦等等。

現(xiàn)在的數(shù)據(jù)庫市場在面臨這么大的數(shù)據(jù)，這么復(fù)雜的數(shù)據(jù)類型，以及這么快的變化面前，已經(jīng)不再是一統(tǒng)天下的格局，沒有一個數(shù)據(jù)庫產(chǎn)品，或者沒有一種數(shù)據(jù)庫產(chǎn)品可以完全地解決大數(shù)據(jù)的問題。未來的格局可能是什么呢？

在一個企業(yè)或者是像一個IDC這樣的架構(gòu)里邊，必須要面臨一個工具箱的狀態(tài)，這個工具箱里面有各種各樣的工具，每個工具的體驗點都是不一樣的，互相之間幾乎是不可取代的。現(xiàn)在的數(shù)據(jù)庫市場也面臨這樣一個格局，很多時候做OLTP，要用行式數(shù)據(jù)庫，做大量的數(shù)據(jù)分析時要用列式數(shù)據(jù)庫，因為它可以帶來十倍、百倍的速度提高。

那么對大數(shù)據(jù)實時的處理，我們要用做數(shù)據(jù)流的分析數(shù)據(jù)庫、內(nèi)存數(shù)據(jù)庫;在手機上或者說一些移動設(shè)備上要想做一些小的應(yīng)用，我們需要一些嵌入式的數(shù)據(jù)庫;還有面向?qū)ο髷?shù)據(jù)庫等等。在大數(shù)據(jù)的處理格局下，大家必須要接受這樣的一個觀點，就是專項的數(shù)據(jù)庫用于解決專項的問題。

分析云需要注意的事項

海量數(shù)據(jù)分析的云平臺，需要注意什么東西？它是按需分配的，這個和傳統(tǒng)的云計算概念是很相似的，就是資源就像水龍頭里的水一樣，人們可以不用去考慮后面的水是如何加工出來的，只需要打開龍頭就知道水會流出來。那么現(xiàn)在像SaaS、PaaS、IaaS等等這些技術(shù)，必須要做到低成本、高性能。怎么樣更好地利用低端的硬件設(shè)備，而不是靠垂直擴展，能不能用低端的PC服務(wù)器搭成一個集群，將數(shù)據(jù)用何種方式來分置也好，統(tǒng)一管理也好，這是現(xiàn)在云計算或者說大數(shù)據(jù)分析必須要解決的問題。

另外，還要有豐富的數(shù)據(jù)類型的支持。在互聯(lián)網(wǎng)和電信行業(yè)，面臨各種各樣新的數(shù)據(jù)類型的產(chǎn)生，企業(yè)需要能夠處理各種各樣的數(shù)據(jù)類型，同時備份和恢復(fù)也是一個容易忽視，但是又非常難、非常重要的一個問題。中國的很多企業(yè)在IT架構(gòu)上，尤其在數(shù)據(jù)庫平臺上，都處于一個裸奔的狀態(tài)，賭天不會下雨，數(shù)據(jù)庫不需要備份。尤其是到上TB甚至幾十TB甚至上PB的時候，怎么樣做數(shù)據(jù)備份，怎么樣能夠持續(xù)地給你的用戶提供這樣的服務(wù)就值得思考了。

像亞馬遜這樣的國外大型互聯(lián)網(wǎng)企業(yè)，他們在災(zāi)備或者是復(fù)制、恢復(fù)這些問題上，都是投入了大量的精力，而且有非常成熟的理論和方向，可供大家借鑒。

SAP 和Sybase領(lǐng)先的分析云平臺

SAP公司在云計算、分析云平臺上可謂是業(yè)界的領(lǐng)導(dǎo)者。在Gartner 2012年的數(shù)據(jù)倉庫四象限的評比中，SAP旗下的Sybase公司列式數(shù)據(jù)庫產(chǎn)品——Sybase IQ牢牢地占據(jù)領(lǐng)導(dǎo)者象限。

在數(shù)據(jù)庫市場，新老技術(shù)發(fā)展方向還有著一個非常明顯的對峙狀態(tài)。老技術(shù)基本上是以行式數(shù)據(jù)庫加上一些列式的存儲或者說列式的索引機制來提高性能的，而以Sybase IQ列式數(shù)據(jù)庫為代表的新技術(shù)，以優(yōu)異的性能和低廉的成本，在數(shù)據(jù)倉庫以及大數(shù)據(jù)分析領(lǐng)域，占據(jù)著非常重要的地位。

Sybase IQ，到現(xiàn)在已經(jīng)是第15版了。那么，Sybase IQ在過去的一段時間里都解決了哪些問題呢？Sybase IQ解決了整個數(shù)據(jù)庫平臺底層非常強大的列式數(shù)據(jù)庫的功能、數(shù)據(jù)的生命周期管理，以及面對數(shù)據(jù)的高速加載，對結(jié)構(gòu)化和非結(jié)構(gòu)化的統(tǒng)一處理。特別要強調(diào)的一點，在中文的環(huán)境里面，列式數(shù)據(jù)庫現(xiàn)在就可以把中文的文本信息放到庫里面做好分詞的索引，然后可以和結(jié)構(gòu)化和非結(jié)構(gòu)化信息，在一個查詢里面進行統(tǒng)一的查詢，這是一個目前非常領(lǐng)先的技術(shù)，尤其對中文環(huán)境來說。

此外，Sybase IQ在數(shù)據(jù)庫的平臺上提供了很多重要的應(yīng)用服務(wù)，比如說像上面提到的內(nèi)置的文本分析、數(shù)據(jù)庫內(nèi)分析，還有一些WEB2.0的接口，還有大數(shù)據(jù)的開發(fā)接口，比如說像Hadoop、MapReduce，Sybase IQ都是支持的。另外，Sybase IQ提供了一整套的方法來扶持和擴充圍繞大數(shù)據(jù)的一個完整的生態(tài)環(huán)境，比如說生態(tài)環(huán)境里面有各種各樣的開放工具與監(jiān)測工具，現(xiàn)在，Sybase IQ開放了很多接口，可以使大家把過去在類似像Hadoop或是MapReduce，或者自己寫的一些東西可以直接嵌入到Sybase IQ里面來。

列式數(shù)據(jù)庫有幾個大的特點，在分析領(lǐng)域里面獨樹一幟。

首先是壓縮。很多用戶的數(shù)據(jù)從裸數(shù)據(jù)到行式數(shù)據(jù)庫里面可能需要占有一定的空間，但在列式數(shù)據(jù)庫里面，基本上會有將近10倍左右的壓縮比，這些壓縮比直接換到云計算平臺或者說大數(shù)據(jù)的處理平臺上，就是TCO。究竟是用10T來存儲1T的數(shù)據(jù)，還是用0.5T來存儲1T的數(shù)據(jù)？而真正的列式數(shù)據(jù)庫的壓縮，是沒有解壓縮過程的。也就是說，列式數(shù)據(jù)庫以壓縮的形式進行運算，所以整個運算的成本非常低。真正的列式數(shù)據(jù)庫的運算效果相比行式數(shù)據(jù)庫、甚至相比某些帶了列式壓縮的行式數(shù)據(jù)庫，要好很多，而且還有著非常高的查詢效能。

在這里，必須要提一下內(nèi)存計算。我引用1998年一位圖靈獎獲得者的一句話，Tape is Dead, Disk is Tape, Main memory is Disk, CPU Cache is Main Memory。Sybase在3、4年前就已經(jīng)不再推薦使用磁帶來做Sybase IQ的備份了。

其次就是存儲。舉個例子，CPU里面有Level 1 Cache(一級緩存)，它訪問的速度只有1納秒，就好像坐在家里沙發(fā)的我想喝一杯茶，最好這杯茶是在我沙發(fā)邊上的茶幾上，我一伸手就可以拿到。Level 2 Cache(二級緩存)，訪問速度為5納秒，可以想象我是到了另外一個房間里面去拿這杯茶。Level 3 Cache(三級緩存)20納秒，我是出了房間到隔壁的房子里去拿這杯茶，Main Memory是100個納秒，好像是我要過馬路，到另外一個房子里面去拿。而Disk就好像是從北京到上海，從上海到廣州這樣一個遙遠的距離。

所以，大家要認(rèn)識到存儲永遠是數(shù)據(jù)庫的一個非常重要的載體，同時存儲也是數(shù)據(jù)庫性能的一個最大的瓶頸，如何能夠提高存儲的效率，如果解決了這個問題，就解決了數(shù)據(jù)庫以及數(shù)據(jù)分析的效率問題。

另外，我還必須提到SAP的HANA。HANA是業(yè)界第一個完全基于內(nèi)存的、高性能的分析服務(wù)器，專門用于分析的一體機，其內(nèi)存計算對分析領(lǐng)域有著里程碑式的貢獻。HANA把所有的分析都放在內(nèi)存里面進行，整個架構(gòu)非常地優(yōu)越，可以有列式數(shù)據(jù)庫，也有行式數(shù)據(jù)庫，有內(nèi)置的數(shù)據(jù)復(fù)制軟件，也有各種各樣的建模軟件，是新一代的分析服務(wù)器。在HANA的架構(gòu)下，我們可以對一個企業(yè)下面70幾個分公司，幾千億條記錄，50個TB的數(shù)據(jù)進行分析，而它的分析速度僅為零點零幾秒，這個是以前不敢想象、也不敢去圍繞這樣的情境去提應(yīng)用需求的劃時代產(chǎn)品。

綜上所述，SAP公司在硬盤級、內(nèi)存級甚至加上CPU的緩存級，為業(yè)界提供了非常優(yōu)秀的分析平臺，在分析云、大數(shù)據(jù)的分析領(lǐng)域是一個非常重要的提供商。

關(guān)鍵字：大數(shù)據(jù)