精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:大數(shù)據(jù)業(yè)界動(dòng)態(tài) → 正文

開源大數(shù)據(jù)平臺(tái)實(shí)施的難點(diǎn)

責(zé)任編輯:editor005 作者:劉剛 |來源:企業(yè)網(wǎng)D1Net  2016-03-23 14:29:46 本文摘自:TechTarget中國(guó)

開源大數(shù)據(jù)技術(shù)是一種新一代技術(shù)和構(gòu)架,它以成本較低、以快速的采集、處理和分析技術(shù),從各種超大規(guī)模的數(shù)據(jù)中提取價(jià)值。大數(shù)據(jù)技術(shù)不斷涌現(xiàn)和發(fā)展,讓我們處理海量數(shù)據(jù)更加容易、更加便宜和迅速,成為分析和挖掘海量數(shù)據(jù)價(jià)值的一個(gè)利器,甚至可以改變?cè)S多行業(yè)的商業(yè)模式。

龐大的開源大數(shù)據(jù)技術(shù)體系,使得大數(shù)據(jù)平臺(tái)在實(shí)施和使用的過程中遇到很多難點(diǎn),Think Big團(tuán)隊(duì)總結(jié)了在開源大數(shù)據(jù)平臺(tái)設(shè)施的整個(gè)過程及花費(fèi)的時(shí)間,如下圖所示:

  1大數(shù)據(jù)平臺(tái)的優(yōu)化和運(yùn)維

大數(shù)據(jù)平臺(tái)的優(yōu)化和運(yùn)維應(yīng)該是開源大數(shù)據(jù)平臺(tái)實(shí)施的難點(diǎn)、也是構(gòu)建大數(shù)據(jù)平臺(tái)對(duì)人員的技術(shù)和經(jīng)驗(yàn)要求最高的階段,貫穿整個(gè)大數(shù)據(jù)平臺(tái)實(shí)施過程。

2大數(shù)據(jù)平臺(tái)的數(shù)據(jù)整合、數(shù)據(jù)治理和數(shù)據(jù)湖

對(duì)于傳統(tǒng)的企業(yè)使用大數(shù)據(jù)平臺(tái),數(shù)據(jù)整合、數(shù)據(jù)治理和數(shù)據(jù)湖也是非常重要和比較困難的階段,全公司不同數(shù)據(jù)源之間的數(shù)據(jù)整合面臨:數(shù)據(jù)的一致性、數(shù)據(jù)的完整性、數(shù)據(jù)的準(zhǔn)確性、數(shù)據(jù)的安全等問題如何解決,當(dāng)然還有不同數(shù)據(jù)(如:冷數(shù)據(jù)、溫?cái)?shù)據(jù)和熱數(shù)據(jù))怎么來存放,進(jìn)而實(shí)現(xiàn)高效的數(shù)據(jù)存儲(chǔ)和分析。這些都是我們?cè)诖髷?shù)據(jù)實(shí)施過程中需要花很多時(shí)間和經(jīng)驗(yàn)來實(shí)現(xiàn)的,很多的公司基本上都在直接或間接的使用大數(shù)據(jù)技術(shù),有可能感覺大數(shù)據(jù)整合、治理、數(shù)據(jù)湖沒有那么重要,把功能實(shí)現(xiàn)了,就覺得把大數(shù)據(jù)平臺(tái)用的非常好了,其實(shí)不然,就像我上面提到的那張圖,功能的實(shí)現(xiàn)只占大數(shù)據(jù)平臺(tái)實(shí)施的一小部分。

3大數(shù)據(jù)平臺(tái)上面的數(shù)據(jù)建模

由于大數(shù)據(jù)平臺(tái)面臨數(shù)據(jù)的一致性、數(shù)據(jù)的完整性、數(shù)據(jù)的準(zhǔn)確性等問題所以導(dǎo)致大數(shù)據(jù)平臺(tái)上面的建模變得比較困難,此外還有不同行業(yè)面臨的大數(shù)據(jù)平臺(tái)建模問題各不相同。傳統(tǒng)行業(yè)在大數(shù)據(jù)上面的建模面臨的挑戰(zhàn)還是非常多的,有的模型甚至不適合在開源大數(shù)據(jù)平臺(tái)上面建模,不要一味的去和互聯(lián)行業(yè)大數(shù)據(jù)平臺(tái)上面的應(yīng)用做比較,因?yàn)椋ヂ?lián)網(wǎng)的業(yè)務(wù)比傳統(tǒng)的業(yè)務(wù)模型簡(jiǎn)單很多。

4數(shù)據(jù)挖掘和算法的實(shí)現(xiàn)

大數(shù)據(jù)平臺(tái)的數(shù)據(jù)挖掘技術(shù)有Hadoop的Mahout、Spark的Mllib、SparkR等,這個(gè)現(xiàn)有的挖掘庫存在很多問題,如:分布式計(jì)算。對(duì)整個(gè)團(tuán)隊(duì)的人員要求非常的高。

5應(yīng)用開發(fā)(類似于傳統(tǒng)EDW的BI功能)

類似于在Hadoop上面實(shí)現(xiàn)一個(gè)傳統(tǒng)的EDW的功能,常見用的比較多的就是SQL on Hadoop技術(shù),如:Hive、Impala、Tez、Presto、Kylin、SparkSQL等。

6大數(shù)據(jù)平臺(tái)的選擇和搭建

主要是Apache Hadoop、Hortonworks HDP和Cloudera CDH的選擇,Apache Hadoop是純開源的,Hortonworks HDP是開源Hadoop生態(tài)系統(tǒng)的管理,Cloudera CDH是開源Hadoop生態(tài)系統(tǒng)的增強(qiáng)。

關(guān)鍵字:數(shù)據(jù)平臺(tái)開源數(shù)據(jù)整合

本文摘自:TechTarget中國(guó)

x 開源大數(shù)據(jù)平臺(tái)實(shí)施的難點(diǎn) 掃一掃
分享本文到朋友圈
當(dāng)前位置:大數(shù)據(jù)業(yè)界動(dòng)態(tài) → 正文

開源大數(shù)據(jù)平臺(tái)實(shí)施的難點(diǎn)

責(zé)任編輯:editor005 作者:劉剛 |來源:企業(yè)網(wǎng)D1Net  2016-03-23 14:29:46 本文摘自:TechTarget中國(guó)

開源大數(shù)據(jù)技術(shù)是一種新一代技術(shù)和構(gòu)架,它以成本較低、以快速的采集、處理和分析技術(shù),從各種超大規(guī)模的數(shù)據(jù)中提取價(jià)值。大數(shù)據(jù)技術(shù)不斷涌現(xiàn)和發(fā)展,讓我們處理海量數(shù)據(jù)更加容易、更加便宜和迅速,成為分析和挖掘海量數(shù)據(jù)價(jià)值的一個(gè)利器,甚至可以改變?cè)S多行業(yè)的商業(yè)模式。

龐大的開源大數(shù)據(jù)技術(shù)體系,使得大數(shù)據(jù)平臺(tái)在實(shí)施和使用的過程中遇到很多難點(diǎn),Think Big團(tuán)隊(duì)總結(jié)了在開源大數(shù)據(jù)平臺(tái)設(shè)施的整個(gè)過程及花費(fèi)的時(shí)間,如下圖所示:

  1大數(shù)據(jù)平臺(tái)的優(yōu)化和運(yùn)維

大數(shù)據(jù)平臺(tái)的優(yōu)化和運(yùn)維應(yīng)該是開源大數(shù)據(jù)平臺(tái)實(shí)施的難點(diǎn)、也是構(gòu)建大數(shù)據(jù)平臺(tái)對(duì)人員的技術(shù)和經(jīng)驗(yàn)要求最高的階段,貫穿整個(gè)大數(shù)據(jù)平臺(tái)實(shí)施過程。

2大數(shù)據(jù)平臺(tái)的數(shù)據(jù)整合、數(shù)據(jù)治理和數(shù)據(jù)湖

對(duì)于傳統(tǒng)的企業(yè)使用大數(shù)據(jù)平臺(tái),數(shù)據(jù)整合、數(shù)據(jù)治理和數(shù)據(jù)湖也是非常重要和比較困難的階段,全公司不同數(shù)據(jù)源之間的數(shù)據(jù)整合面臨:數(shù)據(jù)的一致性、數(shù)據(jù)的完整性、數(shù)據(jù)的準(zhǔn)確性、數(shù)據(jù)的安全等問題如何解決,當(dāng)然還有不同數(shù)據(jù)(如:冷數(shù)據(jù)、溫?cái)?shù)據(jù)和熱數(shù)據(jù))怎么來存放,進(jìn)而實(shí)現(xiàn)高效的數(shù)據(jù)存儲(chǔ)和分析。這些都是我們?cè)诖髷?shù)據(jù)實(shí)施過程中需要花很多時(shí)間和經(jīng)驗(yàn)來實(shí)現(xiàn)的,很多的公司基本上都在直接或間接的使用大數(shù)據(jù)技術(shù),有可能感覺大數(shù)據(jù)整合、治理、數(shù)據(jù)湖沒有那么重要,把功能實(shí)現(xiàn)了,就覺得把大數(shù)據(jù)平臺(tái)用的非常好了,其實(shí)不然,就像我上面提到的那張圖,功能的實(shí)現(xiàn)只占大數(shù)據(jù)平臺(tái)實(shí)施的一小部分。

3大數(shù)據(jù)平臺(tái)上面的數(shù)據(jù)建模

由于大數(shù)據(jù)平臺(tái)面臨數(shù)據(jù)的一致性、數(shù)據(jù)的完整性、數(shù)據(jù)的準(zhǔn)確性等問題所以導(dǎo)致大數(shù)據(jù)平臺(tái)上面的建模變得比較困難,此外還有不同行業(yè)面臨的大數(shù)據(jù)平臺(tái)建模問題各不相同。傳統(tǒng)行業(yè)在大數(shù)據(jù)上面的建模面臨的挑戰(zhàn)還是非常多的,有的模型甚至不適合在開源大數(shù)據(jù)平臺(tái)上面建模,不要一味的去和互聯(lián)行業(yè)大數(shù)據(jù)平臺(tái)上面的應(yīng)用做比較,因?yàn)椋ヂ?lián)網(wǎng)的業(yè)務(wù)比傳統(tǒng)的業(yè)務(wù)模型簡(jiǎn)單很多。

4數(shù)據(jù)挖掘和算法的實(shí)現(xiàn)

大數(shù)據(jù)平臺(tái)的數(shù)據(jù)挖掘技術(shù)有Hadoop的Mahout、Spark的Mllib、SparkR等,這個(gè)現(xiàn)有的挖掘庫存在很多問題,如:分布式計(jì)算。對(duì)整個(gè)團(tuán)隊(duì)的人員要求非常的高。

5應(yīng)用開發(fā)(類似于傳統(tǒng)EDW的BI功能)

類似于在Hadoop上面實(shí)現(xiàn)一個(gè)傳統(tǒng)的EDW的功能,常見用的比較多的就是SQL on Hadoop技術(shù),如:Hive、Impala、Tez、Presto、Kylin、SparkSQL等。

6大數(shù)據(jù)平臺(tái)的選擇和搭建

主要是Apache Hadoop、Hortonworks HDP和Cloudera CDH的選擇,Apache Hadoop是純開源的,Hortonworks HDP是開源Hadoop生態(tài)系統(tǒng)的管理,Cloudera CDH是開源Hadoop生態(tài)系統(tǒng)的增強(qiáng)。

關(guān)鍵字:數(shù)據(jù)平臺(tái)開源數(shù)據(jù)整合

本文摘自:TechTarget中國(guó)

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號(hào)-6 京公網(wǎng)安備 11010502049343號(hào)

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 香格里拉县| 资源县| 屏边| 沙河市| 安阳县| 乌审旗| 常州市| 安阳市| 正安县| 六枝特区| 沂南县| 孟州市| 利津县| 汪清县| 金坛市| 黑河市| 灵丘县| 金堂县| 绥阳县| 沂水县| 嘉黎县| 盐山县| 鲁山县| 玉溪市| 乌恰县| 邳州市| 资阳市| 克拉玛依市| 汝南县| 屯昌县| 祥云县| 泾源县| 秦皇岛市| 陇川县| 成都市| 长顺县| 年辖:市辖区| 内黄县| 东光县| 永靖县| 临安市|