国产成人免费手机在线观看视频,日韩欧美亚洲每的更新在线,精品一区二区免费视频

關(guān)于大數(shù)據(jù)：三種處理現(xiàn)狀分析

責(zé)任編輯：editor008

2014-09-23 09:28:43

摘自：中國(guó)大數(shù)據(jù)

在大數(shù)據(jù)時(shí)代下，大數(shù)據(jù)蘊(yùn)含巨大寶藏，究竟大數(shù)據(jù)能掘到多少金子，我覺得這都是后話，目前緊要關(guān)頭是迎接大數(shù)據(jù)的到來，如果你接不住大數(shù)據(jù)那么你在未來的企業(yè)市場(chǎng)將會(huì)被淘汰。

這不是危言聳聽，我們看到現(xiàn)在生成數(shù)據(jù)的設(shè)備在增加，個(gè)人數(shù)字設(shè)備、企業(yè)計(jì)算系統(tǒng)產(chǎn)生的數(shù)據(jù)量遠(yuǎn)遠(yuǎn)超過10年前，是1996年的180倍。文件(非結(jié)構(gòu)化數(shù)據(jù))本身的大小在發(fā)生變化，從600MB的RMVB到了30GB的藍(lán)光1080P視頻，企業(yè)數(shù)據(jù)量增加，造成的數(shù)據(jù)庫龐大。這三點(diǎn)無疑都是迫使企業(yè)進(jìn)入大數(shù)據(jù)時(shí)代的原因。

我們知道大數(shù)據(jù)的4v理論，數(shù)量(Volume)、多樣性(Variety)、速度(Velocity)和真實(shí)性(Veracity)，為我們制定大數(shù)據(jù)的策略提供了很好的方向。但同時(shí)我們?cè)谔幚泶髷?shù)據(jù)的時(shí)候還是面臨著很多問題，就目前大數(shù)據(jù)處理的現(xiàn)狀來看，基本上處于以下幾種狀態(tài)。

大數(shù)據(jù)處理現(xiàn)狀

1、大數(shù)據(jù)處理平臺(tái)以Hadoop為主

目前大數(shù)據(jù)的處理平臺(tái)以Hadoop為主，都是自建Hadoop集群或使用AmazonElasticMapReduce服務(wù)，而Google的BigQuery由于種種限制推廣得并不理想。微軟的Cosmos/Dryad/Scope由于體系僅限于內(nèi)部使用，也不能成為大數(shù)據(jù)的平臺(tái)，同時(shí)微軟對(duì)外也支持hostingHadoop。

2、大數(shù)據(jù)處理技術(shù)復(fù)雜

大數(shù)據(jù)的處理技術(shù)紛繁復(fù)雜，仍然處于產(chǎn)業(yè)變革早期的戰(zhàn)國(guó)時(shí)代。由于傳統(tǒng)的OLAP和數(shù)倉的延續(xù)性，HiveSQL有很大市場(chǎng)，但Hive的數(shù)據(jù)正確性和Bug仍然比較多。而HadoopMapReduce又過于復(fù)雜靈活，寫出高效Job比較困難。Pig、FlumeJava等分布式編程模型技術(shù)的門檻較高，所以推廣起來也比較困難。在數(shù)據(jù)挖掘和圖算法領(lǐng)域雖然涌現(xiàn)出了Mahout、Hama、GoldenOrb等大量開源平臺(tái)，但都不夠成熟。至于基于Hadoop的工作流系統(tǒng)Oozie和數(shù)據(jù)傳輸系統(tǒng)Sqoop都需要開發(fā)人員單獨(dú)部署。都是各有利弊，還沒有一個(gè)很好的完美的解決方案。

3、Hadoop尚難成為公共云服務(wù)

為什么說Hadoop很難成為公共云服務(wù)呢，原因有以下幾個(gè)方面，第一Hadoop的安全體系局限在企業(yè)內(nèi)網(wǎng)，缺乏多租戶的支持。第二直接暴露HDFS文件系統(tǒng)，MapReduce和Hive很難做到多用戶數(shù)據(jù)安全。第三數(shù)據(jù)文件格式過于復(fù)雜多樣，維護(hù)成本高，保持?jǐn)?shù)據(jù)兼容比較困難。

D1Net評(píng)論：

綜上三點(diǎn)目前大數(shù)據(jù)的現(xiàn)狀，可以看出，大數(shù)據(jù)處理系統(tǒng)的技術(shù)門檻很高，從自備發(fā)電機(jī)到公共電網(wǎng)還有很長(zhǎng)的路要走。而市場(chǎng)則需要安全性、可用性、數(shù)據(jù)正確性都有保障，并且功能完整的一體化大數(shù)據(jù)處理服務(wù)。

分析