開源大數(shù)據(jù)技術(shù)是一種新一代技術(shù)和構(gòu)架,它以成本較低、以快速的采集、處理和分析技術(shù),從各種超大規(guī)模的數(shù)據(jù)中提取價(jià)值。大數(shù)據(jù)技術(shù)不斷涌現(xiàn)和發(fā)展,讓我們處理海量數(shù)據(jù)更加容易、更加便宜和迅速,成為分析和挖掘海量數(shù)據(jù)價(jià)值的一個(gè)利器,甚至可以改變?cè)S多行業(yè)的商業(yè)模式。
龐大的開源大數(shù)據(jù)技術(shù)體系,使得大數(shù)據(jù)平臺(tái)在實(shí)施和使用的過程中遇到很多難點(diǎn),Think Big團(tuán)隊(duì)總結(jié)了在開源大數(shù)據(jù)平臺(tái)設(shè)施的整個(gè)過程及花費(fèi)的時(shí)間,如下圖所示:
1大數(shù)據(jù)平臺(tái)的優(yōu)化和運(yùn)維
大數(shù)據(jù)平臺(tái)的優(yōu)化和運(yùn)維應(yīng)該是開源大數(shù)據(jù)平臺(tái)實(shí)施的難點(diǎn)、也是構(gòu)建大數(shù)據(jù)平臺(tái)對(duì)人員的技術(shù)和經(jīng)驗(yàn)要求最高的階段,貫穿整個(gè)大數(shù)據(jù)平臺(tái)實(shí)施過程。
2大數(shù)據(jù)平臺(tái)的數(shù)據(jù)整合、數(shù)據(jù)治理和數(shù)據(jù)湖
對(duì)于傳統(tǒng)的企業(yè)使用大數(shù)據(jù)平臺(tái),數(shù)據(jù)整合、數(shù)據(jù)治理和數(shù)據(jù)湖也是非常重要和比較困難的階段,全公司不同數(shù)據(jù)源之間的數(shù)據(jù)整合面臨:數(shù)據(jù)的一致性、數(shù)據(jù)的完整性、數(shù)據(jù)的準(zhǔn)確性、數(shù)據(jù)的安全等問題如何解決,當(dāng)然還有不同數(shù)據(jù)(如:冷數(shù)據(jù)、溫?cái)?shù)據(jù)和熱數(shù)據(jù))怎么來存放,進(jìn)而實(shí)現(xiàn)高效的數(shù)據(jù)存儲(chǔ)和分析。這些都是我們?cè)诖髷?shù)據(jù)實(shí)施過程中需要花很多時(shí)間和經(jīng)驗(yàn)來實(shí)現(xiàn)的,很多的公司基本上都在直接或間接的使用大數(shù)據(jù)技術(shù),有可能感覺大數(shù)據(jù)整合、治理、數(shù)據(jù)湖沒有那么重要,把功能實(shí)現(xiàn)了,就覺得把大數(shù)據(jù)平臺(tái)用的非常好了,其實(shí)不然,就像我上面提到的那張圖,功能的實(shí)現(xiàn)只占大數(shù)據(jù)平臺(tái)實(shí)施的一小部分。
3大數(shù)據(jù)平臺(tái)上面的數(shù)據(jù)建模
由于大數(shù)據(jù)平臺(tái)面臨數(shù)據(jù)的一致性、數(shù)據(jù)的完整性、數(shù)據(jù)的準(zhǔn)確性等問題所以導(dǎo)致大數(shù)據(jù)平臺(tái)上面的建模變得比較困難,此外還有不同行業(yè)面臨的大數(shù)據(jù)平臺(tái)建模問題各不相同。傳統(tǒng)行業(yè)在大數(shù)據(jù)上面的建模面臨的挑戰(zhàn)還是非常多的,有的模型甚至不適合在開源大數(shù)據(jù)平臺(tái)上面建模,不要一味的去和互聯(lián)行業(yè)大數(shù)據(jù)平臺(tái)上面的應(yīng)用做比較,因?yàn)椋ヂ?lián)網(wǎng)的業(yè)務(wù)比傳統(tǒng)的業(yè)務(wù)模型簡(jiǎn)單很多。
4數(shù)據(jù)挖掘和算法的實(shí)現(xiàn)
大數(shù)據(jù)平臺(tái)的數(shù)據(jù)挖掘技術(shù)有Hadoop的Mahout、Spark的Mllib、SparkR等,這個(gè)現(xiàn)有的挖掘庫存在很多問題,如:分布式計(jì)算。對(duì)整個(gè)團(tuán)隊(duì)的人員要求非常的高。
5應(yīng)用開發(fā)(類似于傳統(tǒng)EDW的BI功能)
類似于在Hadoop上面實(shí)現(xiàn)一個(gè)傳統(tǒng)的EDW的功能,常見用的比較多的就是SQL on Hadoop技術(shù),如:Hive、Impala、Tez、Presto、Kylin、SparkSQL等。
6大數(shù)據(jù)平臺(tái)的選擇和搭建
主要是Apache Hadoop、Hortonworks HDP和Cloudera CDH的選擇,Apache Hadoop是純開源的,Hortonworks HDP是開源Hadoop生態(tài)系統(tǒng)的管理,Cloudera CDH是開源Hadoop生態(tài)系統(tǒng)的增強(qiáng)。