當(dāng)前位置：大數(shù)據(jù) → 業(yè)界動態(tài) → 正文

大數(shù)據(jù)，怎么搞？

責(zé)任編輯：editor005 作者：三劫散仙 |來源：企業(yè)網(wǎng)D1Net 2015-01-07 13:29:40 本文摘自：36大數(shù)據(jù)

隨著大數(shù)據(jù)的爆紅，數(shù)據(jù)分析師這個(gè)職位也得到了越來越多的關(guān)注，千千萬萬懂些大數(shù)據(jù)技術(shù)的少年們都渴望成為高大上的“大數(shù)據(jù)科學(xué)家”，可是，你們真的準(zhǔn)備好了嗎？

大數(shù)據(jù)

1、最早的數(shù)據(jù)分析可能就報(bào)表目前很多數(shù)據(jù)分析后的結(jié)果，展示的形式很多，有各種圖形以及報(bào)表，最早的應(yīng)該是簡單的幾條數(shù)據(jù)，然后搞個(gè)web頁面，展示一下數(shù)據(jù)。早期可能數(shù)據(jù)量也不大，隨便搞個(gè)數(shù)據(jù)庫，然后SQL搞一下，數(shù)據(jù)報(bào)表就出來了。但是數(shù)據(jù)量大起來怎么分析呢？數(shù)據(jù)分析完了怎么做傳輸呢？這么大的數(shù)據(jù)量怎么做到實(shí)時(shí) 呢？分析的結(jié)果數(shù)據(jù)如果不是很大還行，如果分析的結(jié)果數(shù)據(jù)還是很大改怎么辦呢？這些問題在這篇文章中都能找到答案，下面各個(gè)擊破。

2、要做數(shù)據(jù)分析，首先要有數(shù)據(jù)

這個(gè)標(biāo)題感覺有點(diǎn)廢話，不過要做飯需要食材一樣。有些數(shù)據(jù)時(shí)業(yè)務(wù)積累的，像交易訂單的數(shù)據(jù)，每一筆交易都會有一筆訂單，之后再對訂單數(shù)據(jù)作分析。但是有些場景下，數(shù)據(jù)沒法考業(yè)務(wù)積累，需要依賴于外部，這個(gè)時(shí)候外部如果有現(xiàn)成的數(shù)據(jù)最好了，直接join過來，但是有時(shí)候是需要自己獲取的，例如搞個(gè)爬蟲爬取網(wǎng)頁的數(shù)據(jù)，有時(shí)候單臺機(jī)器搞爬蟲可能還爬不完，這個(gè)時(shí)候可能就開始考慮單機(jī)多線程爬取或者分布式多線程爬取數(shù)據(jù)，中間涉及到一個(gè)步驟，就是在線的業(yè)務(wù)數(shù)據(jù)，需要每天晚上導(dǎo)入到離線的系統(tǒng)中，之后才可以進(jìn)行分析。

3、有了數(shù)據(jù)，咋分析呢？

先將數(shù)據(jù)量小的情況下，可能一個(gè)復(fù)雜的SQL就可以搞出來，之后搞個(gè)web服務(wù)器，頁面請求的時(shí)候，執(zhí)行這個(gè)SQL，然后展示數(shù)據(jù)，好了，一個(gè)最簡單的數(shù)據(jù)分析，嚴(yán)格意義上講是統(tǒng)計(jì)的分析。這種情況下，分析的數(shù)據(jù)源小，分析的腳本就是在線執(zhí)行的SQL，分析的結(jié)果不用傳輸，結(jié)果的展示就在頁面上，整個(gè)流程一條龍。

4、數(shù)據(jù)量大了，無法在線分析了，咋辦呢？

這個(gè)時(shí)候，數(shù)據(jù)量已經(jīng)大的無法用在線執(zhí)行SQL的形式進(jìn)行統(tǒng)計(jì)分析了。這個(gè)時(shí)候順應(yīng)時(shí)代的東西產(chǎn)生了（當(dāng)然還有其他的，我就知道這個(gè)呵呵），數(shù)據(jù)離線數(shù)據(jù)工具h(yuǎn)adoop出來了。這個(gè)時(shí)候，你的數(shù)據(jù)以文件的形式存在，可能各個(gè)屬性是逗號分隔的，數(shù)據(jù)條數(shù)有十幾個(gè)億。這時(shí)候你可能需要構(gòu)建一個(gè) hadoop集群，然后把自己的文件導(dǎo)入到集群上面去，上了集群之后，文件就是HDFS的格式了，然后如果要做統(tǒng)計(jì)分析，需要寫mapreduce程序，所謂的mapreduce程序，就是實(shí)現(xiàn)map和reduce的接口，按照自己的業(yè)務(wù)邏輯寫分析流程，之后把程序打成jar包上傳到集群，之后開始執(zhí)行。分析后的結(jié)果還是文件的形式產(chǎn)生。

5、分析個(gè)數(shù)據(jù)還要寫java代碼是不是效率低了點(diǎn)？

這個(gè)確實(shí)是，mapreduce的程序，本身的可測性沒有執(zhí)行一個(gè)簡單的單元測試來的爽，所以效率確實(shí)不高。這個(gè)時(shí)候，hive出現(xiàn) 了，hive是一個(gè)數(shù)據(jù)倉庫分析的語言，語法類似于數(shù)據(jù)庫的SQL，但是有幾個(gè)地方是不同的。有了hive之后，數(shù)據(jù)分析就好之前寫SQL一樣了，按照邏輯編寫hive SQL，然后控制臺執(zhí)行。可能最大的感覺是，數(shù)據(jù)庫的sql很快就能有結(jié)果，但是hive的，即使很小的一個(gè)數(shù)據(jù)分析，也需要幾分鐘時(shí)間。構(gòu)建hive，需要在hadoop的集群上，原理很簡單，就是把文件構(gòu)建成表的形式（有一個(gè)數(shù)據(jù)庫或者內(nèi)存數(shù)據(jù)庫維護(hù)表的schema信息），之后提交寫好的hive sql的時(shí)候，hadoop集群里面的程序把hive腳本轉(zhuǎn)換成對應(yīng)的mapreduce程序執(zhí)行。這個(gè)時(shí)候，做離線的數(shù)據(jù)分析簡單寫腳本就行了，不用再搞java代碼，然后上傳執(zhí)行了。

6、數(shù)據(jù)產(chǎn)生的結(jié)果，怎么搞到線上提供服務(wù)的數(shù)據(jù)庫中呢？

這個(gè)時(shí)候分析的結(jié)果有了，可能是一個(gè)很寬很長的excel表格，需要導(dǎo)入到線上的數(shù)據(jù)庫中，可能你想到了，如果我的數(shù)據(jù)庫是mysql，我直接執(zhí)行 load 命令就搞進(jìn)去了，哪有那么麻煩。但是數(shù)據(jù)源可能有多了，mysql/oracle/hbasefs 按照笛卡爾積的形式，這樣搞要搞死程序員了。這個(gè)時(shí)候datax（已經(jīng)開源）出現(xiàn)了，能夠?qū)崿F(xiàn)異構(gòu)數(shù)據(jù)源的導(dǎo)入和導(dǎo)出，采用插件的形式設(shè)計(jì)，能夠支持未來的數(shù)據(jù)源。如果需要導(dǎo)數(shù)據(jù)，配置一下datax的xml文件或者在web頁面上點(diǎn)擊下就可以實(shí)現(xiàn)了。

7、離線分析有時(shí)間差，實(shí)時(shí)的話怎么搞呢？

要構(gòu)建實(shí)時(shí)的分析系統(tǒng)，其實(shí)在結(jié)果數(shù)據(jù)出來之前，架構(gòu)和離線是截然不同的。數(shù)據(jù)時(shí)流動的，如果在大并發(fā)海量數(shù)據(jù)流動過程中，進(jìn)行自己的業(yè)務(wù)分析呢？這里其實(shí)說簡單也簡單，說復(fù)雜也復(fù)雜。目前我接觸過的，方案是這樣的，業(yè)務(wù)數(shù)據(jù)在寫入數(shù)據(jù)庫的時(shí)候，這里的數(shù)據(jù)庫mysql，在數(shù)據(jù)庫的機(jī)器上安裝一個(gè)程序，類似JMS的系統(tǒng)，用于監(jiān)聽binlog的變更，收到日志信息，將日志信息轉(zhuǎn)換為具體的數(shù)據(jù)，然后以消息的形式發(fā)送出來。這個(gè)時(shí)候?qū)崿F(xiàn)了解耦，這樣的處理并不影響正常的業(yè)務(wù)流程。這個(gè)時(shí)候需要有個(gè)Storm集群，storm集群干啥事情呢？就一件事情，分析數(shù)據(jù)，這個(gè)集群來接收剛才提到的JMS系統(tǒng)發(fā) 送出來的消息，然后按照指定的規(guī)則進(jìn)行邏輯合并等計(jì)算，把計(jì)算的結(jié)果保存在數(shù)據(jù)庫中，這樣的話，流動的數(shù)據(jù)就可以過一遍篩子了。

8、分析的結(jié)果數(shù)據(jù)特別大，在線請求這些結(jié)果數(shù)據(jù)數(shù)據(jù)扛不住了，咋搞？

一般的結(jié)果數(shù)據(jù)，數(shù)據(jù)量沒有那么大，也就幾十萬的樣子，這樣的數(shù)據(jù)級別，對于mysql這樣的數(shù)據(jù)庫沒有任何壓力，但是這個(gè)數(shù)據(jù)量如果增加到千萬或者億級別，同時(shí)有復(fù)雜的SQL查詢，這個(gè)時(shí)候mysql肯定就扛不住了。這個(gè)時(shí)候，可能需要構(gòu)建索引（例如通過lucene來對于要檢索的字段添加索引），或者用分布式的內(nèi)存服務(wù)器來完成查詢。總之，兩套思路，一個(gè)是用文件索引的形式，說白來就是空間換時(shí)間，另外一種是用內(nèi)存，就是用更快的存儲來抗請求。

9、在線的數(shù)據(jù)庫，除了mysql、oracle之外，還有其他選擇不？

其實(shí)目前大家的思維定勢，往往第一個(gè)選擇就是oracle或者mysql，其實(shí)完全可以根據(jù)場景來進(jìn)行選擇，mysql和oracle是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫，目前nosql類的數(shù)據(jù)庫也很多，例如HBase就是其中一個(gè)重要的代表。如果數(shù)據(jù)離散分布比較強(qiáng)，且根據(jù)特定的key來查詢，這個(gè)時(shí)候 HBase其實(shí)是一個(gè)不錯(cuò)的選擇。

10、空間的數(shù)據(jù)怎么分析？

上面的分析大都是統(tǒng)計(jì)維度的，其實(shí)最簡單的描述就是求和或者平均值等，這個(gè)時(shí)候問題來了，大數(shù)據(jù)量的空間數(shù)據(jù)如何分析呢？對于我們電子商務(wù)而言，空間數(shù)據(jù)可能就是海量的收貨地址數(shù)據(jù)了。需要做分析，第一步就是先要把經(jīng)緯度添加到數(shù)據(jù)中（如果添加經(jīng)緯度，這個(gè)可以搞http的請求來通過地圖服務(wù)提供商來或者，或者是根據(jù)測繪公司的基礎(chǔ)數(shù)據(jù)來進(jìn)行文本切割分析），之后空間數(shù)據(jù)是二維的，但是我們常見的代數(shù)是一維的，這個(gè)時(shí)候一個(gè)重要的算法出現(xiàn) 了，geohash算法，一種將經(jīng)緯度數(shù)據(jù)轉(zhuǎn)換為一個(gè)可比較，可排序的字符串的算法。然后，這樣就可以再空間距離方面進(jìn)行分析了，例如遠(yuǎn)近，例如方圓周邊等數(shù)據(jù)的分析。

11、上面這些僅僅是統(tǒng)計(jì)，如果想搞算法或者挖掘之類的，怎么搞呢？

上述的分析，大多數(shù)是統(tǒng)計(jì)分析，這個(gè)時(shí)候如果想高一點(diǎn)高級的，例如添加一個(gè)算法，咋搞呢？其他復(fù)雜的算法我沒咋接觸過。將拿一個(gè)我練過手的算法來講吧。邏輯回歸，如果樣本數(shù)據(jù)量不是很大，可以采用weka來做了個(gè)回歸，獲得一個(gè)表達(dá)式，然后在線上系統(tǒng)中應(yīng)用這個(gè)表達(dá)式，這種類似的表達(dá)式獲取對于實(shí)時(shí) 性要求不是很高，所以公式每天跑一次就行了。如果數(shù)據(jù)量比較大，單機(jī)的weka無法滿足需求了，可以將weka的jar包集成在系統(tǒng)中分析，當(dāng)然也可以通過hadoop中的mahout來進(jìn)行離線分析，獲取這個(gè)表達(dá)式。

12、我就是想離線分析數(shù)據(jù)，但是受不了hive或者h(yuǎn)adoop的速度，咋搞？

其實(shí)搞過一段時(shí)間hadoop的人肯定有一點(diǎn)不爽，就是離線分析的速度太慢了，可能需要等很久，這個(gè)時(shí)候spark出現(xiàn)了，他和hadoop類似，不過由于是內(nèi)存中計(jì)算，所以速度快了很多，底層可以介入HDFS的文件系統(tǒng)，具體我沒有使用過，但是公司內(nèi)部一個(gè)團(tuán)隊(duì)目前已經(jīng)用spark來進(jìn)行分析了。

13、這就是搞大數(shù)據(jù)了？有了這些工具就是搞大數(shù)據(jù)了？

答案肯定不是，這個(gè)僅僅是工具罷了。真正搞大數(shù)據(jù)的可能在于思維的變化，用數(shù)據(jù)來思考，用數(shù)據(jù)來做決定。目前的無線和大數(shù)據(jù)啥關(guān)系？我覺得無線的終端是數(shù)據(jù)的來源和消費(fèi)端，中間需要大數(shù)據(jù)的分析，兩者密不可分啊

14，注意大數(shù)據(jù)，和數(shù)據(jù)大是二碼事，如何利用海量的數(shù)據(jù)并結(jié)合互聯(lián)網(wǎng)思維來挖掘出各種有價(jià)值的信息，才是真正的大數(shù)據(jù)。

關(guān)鍵字：lucene mahout 大數(shù)據(jù)