開源大數(shù)據(jù)平臺(tái)實(shí)施的難點(diǎn)

責(zé)任編輯：editor005 作者：劉剛 |來源：企業(yè)網(wǎng)D1Net 2016-03-23 14:29:46 本文摘自：TechTarget中國(guó)

開源大數(shù)據(jù)技術(shù)是一種新一代技術(shù)和構(gòu)架，它以成本較低、以快速的采集、處理和分析技術(shù)，從各種超大規(guī)模的數(shù)據(jù)中提取價(jià)值。大數(shù)據(jù)技術(shù)不斷涌現(xiàn)和發(fā)展，讓我們處理海量數(shù)據(jù)更加容易、更加便宜和迅速，成為分析和挖掘海量數(shù)據(jù)價(jià)值的一個(gè)利器，甚至可以改變?cè)S多行業(yè)的商業(yè)模式。

龐大的開源大數(shù)據(jù)技術(shù)體系，使得大數(shù)據(jù)平臺(tái)在實(shí)施和使用的過程中遇到很多難點(diǎn)，Think Big團(tuán)隊(duì)總結(jié)了在開源大數(shù)據(jù)平臺(tái)設(shè)施的整個(gè)過程及花費(fèi)的時(shí)間，如下圖所示：

　　1大數(shù)據(jù)平臺(tái)的優(yōu)化和運(yùn)維

大數(shù)據(jù)平臺(tái)的優(yōu)化和運(yùn)維應(yīng)該是開源大數(shù)據(jù)平臺(tái)實(shí)施的難點(diǎn)、也是構(gòu)建大數(shù)據(jù)平臺(tái)對(duì)人員的技術(shù)和經(jīng)驗(yàn)要求最高的階段，貫穿整個(gè)大數(shù)據(jù)平臺(tái)實(shí)施過程。

2大數(shù)據(jù)平臺(tái)的數(shù)據(jù)整合、數(shù)據(jù)治理和數(shù)據(jù)湖

對(duì)于傳統(tǒng)的企業(yè)使用大數(shù)據(jù)平臺(tái)，數(shù)據(jù)整合、數(shù)據(jù)治理和數(shù)據(jù)湖也是非常重要和比較困難的階段，全公司不同數(shù)據(jù)源之間的數(shù)據(jù)整合面臨：數(shù)據(jù)的一致性、數(shù)據(jù)的完整性、數(shù)據(jù)的準(zhǔn)確性、數(shù)據(jù)的安全等問題如何解決，當(dāng)然還有不同數(shù)據(jù)(如：冷數(shù)據(jù)、溫?cái)?shù)據(jù)和熱數(shù)據(jù))怎么來存放，進(jìn)而實(shí)現(xiàn)高效的數(shù)據(jù)存儲(chǔ)和分析。這些都是我們?cè)诖髷?shù)據(jù)實(shí)施過程中需要花很多時(shí)間和經(jīng)驗(yàn)來實(shí)現(xiàn)的，很多的公司基本上都在直接或間接的使用大數(shù)據(jù)技術(shù)，有可能感覺大數(shù)據(jù)整合、治理、數(shù)據(jù)湖沒有那么重要，把功能實(shí)現(xiàn)了，就覺得把大數(shù)據(jù)平臺(tái)用的非常好了，其實(shí)不然，就像我上面提到的那張圖，功能的實(shí)現(xiàn)只占大數(shù)據(jù)平臺(tái)實(shí)施的一小部分。

3大數(shù)據(jù)平臺(tái)上面的數(shù)據(jù)建模

由于大數(shù)據(jù)平臺(tái)面臨數(shù)據(jù)的一致性、數(shù)據(jù)的完整性、數(shù)據(jù)的準(zhǔn)確性等問題所以導(dǎo)致大數(shù)據(jù)平臺(tái)上面的建模變得比較困難，此外還有不同行業(yè)面臨的大數(shù)據(jù)平臺(tái)建模問題各不相同。傳統(tǒng)行業(yè)在大數(shù)據(jù)上面的建模面臨的挑戰(zhàn)還是非常多的，有的模型甚至不適合在開源大數(shù)據(jù)平臺(tái)上面建模，不要一味的去和互聯(lián)行業(yè)大數(shù)據(jù)平臺(tái)上面的應(yīng)用做比較，因?yàn)椋ヂ?lián)網(wǎng)的業(yè)務(wù)比傳統(tǒng)的業(yè)務(wù)模型簡(jiǎn)單很多。

4數(shù)據(jù)挖掘和算法的實(shí)現(xiàn)

大數(shù)據(jù)平臺(tái)的數(shù)據(jù)挖掘技術(shù)有Hadoop的Mahout、Spark的Mllib、SparkR等，這個(gè)現(xiàn)有的挖掘庫存在很多問題，如：分布式計(jì)算。對(duì)整個(gè)團(tuán)隊(duì)的人員要求非常的高。

5應(yīng)用開發(fā)(類似于傳統(tǒng)EDW的BI功能)

類似于在Hadoop上面實(shí)現(xiàn)一個(gè)傳統(tǒng)的EDW的功能，常見用的比較多的就是SQL on Hadoop技術(shù)，如：Hive、Impala、Tez、Presto、Kylin、SparkSQL等。

6大數(shù)據(jù)平臺(tái)的選擇和搭建

主要是Apache Hadoop、Hortonworks HDP和Cloudera CDH的選擇，Apache Hadoop是純開源的，Hortonworks HDP是開源Hadoop生態(tài)系統(tǒng)的管理，Cloudera CDH是開源Hadoop生態(tài)系統(tǒng)的增強(qiáng)。

關(guān)鍵字：數(shù)據(jù)平臺(tái)開源數(shù)據(jù)整合