毫無疑問,數(shù)據(jù)正呈現(xiàn)出爆炸式的增長趨勢。無論是傳統(tǒng)的業(yè)務系統(tǒng)數(shù)據(jù),還是新型的非結(jié)構(gòu)化數(shù)據(jù),隨著IT技術(shù)的不斷發(fā)展,我們能夠利用起來并轉(zhuǎn)化為有用信息的數(shù)據(jù)變得越來越多,它們也包含了各種各樣的結(jié)構(gòu)與類型,這就是我們常說的“大數(shù)據(jù)”。
現(xiàn)如今,大數(shù)據(jù)這個名詞幾乎是無人不知、無人不曉,但真正能夠理解其內(nèi)涵,真正能夠利用好的企業(yè)還是少數(shù)。為什么?我們可以簡單地用一句話來總結(jié):數(shù)據(jù)太多,信息太少。信息是經(jīng)過梳理之后的數(shù)據(jù),它包含了真正有價值的業(yè)務洞察。然而就是將數(shù)據(jù)轉(zhuǎn)化為有用信息的這一步,成為了許多企業(yè)邁不過去的一道坎,也是許多大數(shù)據(jù)項目倉促上馬但最終失敗的主要原因。
分析大數(shù)據(jù)?要先有數(shù)據(jù)!
大數(shù)據(jù)分析可以支撐企業(yè)做出關(guān)鍵的決策,通過對市場趨勢的預測來獲得差異化的競爭力。相信有許多企業(yè)管理者明白這個道理,他們希望通過大數(shù)據(jù)分析來回答那些之前無法給出答案的業(yè)務難題。然而,我的數(shù)據(jù)從哪里來?我如何收集這些數(shù)據(jù)并進行整理?我如何根據(jù)業(yè)務需求建立分析模型?這些問題并不是上一套Hadoop系統(tǒng)就能夠簡單搞定,更何況真正能搞定Hadoop的人本來就不多。
要做大數(shù)據(jù),首先要解決的一個問題就是數(shù)據(jù)收集。如果無法將數(shù)據(jù)有效收集起來,要對大量碎片化的數(shù)據(jù)源進行分析簡直就是天方夜譚。并不是說把數(shù)據(jù)直接放在源頭就無法進行分析,但擁有這樣能力的公司只有數(shù)得上來的那幾家。絕大部分企業(yè)還是需要將數(shù)據(jù)先集中存儲到一個地方,然后再進行分析。
其次,這些數(shù)據(jù)收集起來放到什么地方?有人說Hadoop是個不錯的選擇。沒錯,Hadoop作為一個開源的分布式數(shù)據(jù)存儲平臺能夠存儲各種各樣的數(shù)據(jù)并方便地對其進行分析,而且基于Hadoop的一整套生態(tài)系統(tǒng)包括了各種工具,可以說它幾乎是為分布式計算和大數(shù)據(jù)分析而生的一種技術(shù)。但是不是所有企業(yè)都需要將大數(shù)據(jù)存儲到HDFS中呢?也并不是。因為,Hadoop作為一項相對較新的技術(shù),能夠熟練掌握的人并不多,而且其開源的本質(zhì)就決定了你沒法獲得商業(yè)上的技術(shù)支持,出了問題誰來負責?這些都是Hadoop目前所存在的弊端。
有人說,大數(shù)據(jù)宣告了數(shù)據(jù)倉庫時代的終結(jié)。然而專家建議,要做好大數(shù)據(jù)分析項目的企業(yè)應該從“小”做起。即應該先夯實傳統(tǒng)數(shù)據(jù)管理系統(tǒng),然后再逐漸嘗試新的技術(shù)。這里所說的小并不是數(shù)據(jù)量上的小,而是指包括數(shù)據(jù)庫、數(shù)據(jù)倉庫在內(nèi)的這些傳統(tǒng)平臺中的數(shù)據(jù)。事實上,如今的數(shù)據(jù)倉庫已經(jīng)能夠處理各種各樣類型的數(shù)據(jù),包括文本數(shù)據(jù)、XML等這些非結(jié)構(gòu)化或者半結(jié)構(gòu)化的數(shù)據(jù)。而你所需要的大部分業(yè)務洞察,也都隱藏在這些高價值的數(shù)據(jù)背后。
最后,大數(shù)據(jù)同樣要關(guān)注的一點就是數(shù)據(jù)質(zhì)量。有人說,大數(shù)據(jù)不需要準確的數(shù)據(jù),只要數(shù)據(jù)量夠大就能從中分析出趨勢。這其實是大數(shù)據(jù)的一個主要誤區(qū),數(shù)據(jù)質(zhì)量并沒有因為數(shù)據(jù)量的增加而變得不重要。恰恰相反,數(shù)據(jù)質(zhì)量從沒有像現(xiàn)在這么重要過。根據(jù)Gartner機構(gòu)的調(diào)查數(shù)據(jù)顯示,數(shù)據(jù)質(zhì)量工具市場規(guī)模正在逐年增長,不關(guān)注數(shù)據(jù)質(zhì)量的大數(shù)據(jù)集成注定無法成功,高質(zhì)量的數(shù)據(jù)對于大數(shù)據(jù)分析項目的成功將起到關(guān)鍵作用。
大數(shù)據(jù)時代,ETL仍將是主流
以上分析了要做好大數(shù)據(jù)項目的最重要的前提,那么接下來我們回到正題上:大數(shù)據(jù)時代,我們到底還需不需要ETL工具?如果認真閱讀了文章的朋友應該已經(jīng)能夠得出答案了。是的,即使是進行大數(shù)據(jù)分析,ETL仍然是不可或缺的一個工具。
縱觀現(xiàn)在的數(shù)據(jù)集成手段,除了ETL之外,還包括了數(shù)據(jù)虛擬化甚至數(shù)據(jù)湖(Data Lake)這樣的概念。雖然承諾可以實現(xiàn)更好的數(shù)據(jù)集成效果,但無論是數(shù)據(jù)虛擬化還是數(shù)據(jù)湖都是比較新的技術(shù),很大程度上它們也是IT廠商所宣傳的理念,為的是更好地銷售其解決方案。而且采用這些技術(shù)需要對原有的架構(gòu)進行一定的改造,甚至是推倒重來。這對于在傳統(tǒng)數(shù)據(jù)管理系統(tǒng)已經(jīng)進行大量投入的企業(yè)來說,是難以接受的。更何況它最終實現(xiàn)的效果是否真的有那么好?誰也沒有把握。因此在目前階段,ETL毫無疑問依舊是企業(yè)最能依仗并且最成熟的數(shù)據(jù)集成工具。而且其自帶的數(shù)據(jù)清洗與數(shù)據(jù)質(zhì)量管理功能也是其他解決方案所無法比擬的。
在目前的ETL工具市場中,我們可以大致分成兩種類型。一種是數(shù)據(jù)庫廠商自帶的工具,比如IBM的Datastage、Oracle的GoldenGate等;還有一種就是第三方工具,比如Informatica或者國內(nèi)的BeeDI等。那么現(xiàn)在的問題是,我們究竟選擇一款什么樣的ETL工具?
簡單總結(jié)起來,我們可以注意以下幾點:
第一、盡可能支持多種數(shù)據(jù)源。如果一款ETL工具只支持一種或有限的幾種數(shù)據(jù)源,那么它的應用范圍就會非常窄。這樣的ETL工具往往是與數(shù)據(jù)庫產(chǎn)品做捆綁的,對于異構(gòu)系統(tǒng)的支持不好。如果你需要從多種數(shù)據(jù)源來進行數(shù)據(jù)集成,我們建議盡量不要采用這樣的工具。
第二、操作要盡可能簡單。DBA的首要工作并不是做數(shù)據(jù)集成,而是要對整個數(shù)據(jù)庫環(huán)境進行維護,從而保證業(yè)務的穩(wěn)定運行。如果一款ETL工具過于復雜,且用戶界面不夠友好的話,那么你的DBA就要花很多時間來熟悉,造成不必要的時間浪費。
第三、要具備足夠的安全性。許多企業(yè)在做數(shù)據(jù)集成的時候往往會忽略數(shù)據(jù)的安全性問題,但如果在一個環(huán)節(jié)出現(xiàn)漏洞,那么就可能對你的企業(yè)造成難以彌補的損失。因此一款好的ETL工具,必須要具備足夠的安全保障,在數(shù)據(jù)傳輸?shù)倪^程中不會出現(xiàn)漏洞和數(shù)據(jù)丟失的情況。
當然,最重要的是企業(yè)需要根據(jù)自身的業(yè)務需求來選擇ETL工具,也許適合你的并不適合他。但以上所提到的,是在選擇ETL工具時最基本的考量因素,只有達到這幾點,才能成為真正的企業(yè)級ETL產(chǎn)品。