精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

大數據分析平臺Hadoop與Spark之爭

責任編輯:editor04

作者:鄧曉蕾

2015-09-11 21:36:11

摘自:ZD至頂網

隨著云時代的來臨,依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術等技術對海量數據進行分布式數據挖掘,分析、洞察越來越被看重。在大數據領域,只有深挖數據科學領域,走在學術前沿,才能在底層算法和模型方面走在前面,從而占據領先地位。

 有人把大數據稱為信息資產、有人稱為金礦、甚至社會財富。而大數據,即,無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。Gartne認為“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據并不在“大”,而在于“有用”。價值含量、挖掘成本比數量更為重要。對于很多行業而言,如何利用這些大規模數據是成為贏得競爭的關鍵。大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。

大數據分析平臺Hadoop與Spark之爭

隨著云時代的來臨,依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術等技術對海量數據進行分布式數據挖掘,分析、洞察越來越被看重。

前幾日,一篇文章在媒體圈炸了鍋,騰訊財經采用機器人寫出一篇稿子《8月CPI漲2% 創12個月新高》,騰訊財經開發的自動化新聞寫作機器人,根據算法在第一時間自動生成稿件,瞬時輸出分析和研判,一分鐘內將重要資訊和解讀送達用戶。獲悉這一消息后,一些記者紛紛表示”已哭暈在廁所“,今后的記者崗位會越來越少。也不乏安慰者,”機器人寫的是稿,記者寫的是觀點。“但無論如何,基于對數據進行分析直接展示數據,讓數據自己說話,讓觀眾聽到結果,是大數據時代實實在在帶來的好處。

對于大數據來說,最重要的還是對于數據的分析,從里面尋找有價值的數據幫助企業作出更好的商業決策。而如何利用大數據分析,少不了大數據分析的平臺,Hadoop被公認為是新一代的大數據處理平臺,EMC、IBM、Informatica、Microsoft以及Oracle都投入了Hadoop的懷抱。

這樣的平臺是復雜的,具有相當技術的門檻,但是每個行業都少不了黑馬。Spark從2009年誕生到如今的成熟,不過短短幾年。Spark的核心RDD(resilient distributed datasets),以及流處理,SQL智能分析,機器學習等功能。Spark提供的基于RDD的一體化解決方案,將MapReduce、Streaming、SQL、Machine Learning、Graph Processing等模型統一到一個平臺下,并以一致的API公開,并提供相同的部署方案,使得Spark的工程應用領域變得更加廣泛。

在大數據領域,只有深挖數據科學領域,走在學術前沿,才能在底層算法和模型方面走在前面,從而占據領先地位。

對于Hadoop與Spark兩者之間的合作與競爭,在業內不比大數據本身的熱度少多少。知乎上有位大數據工程師@網易如此來解釋,”Hadoop包括Yarn和HDFS以及MapReduce,說Spark代替Hadoop應該說是代替MapReduce。“MapReduce的缺陷很多,最大的缺陷之一是Map + Reduce的模型。

另一位知乎網友@碼農從自身的感受如此談到:

1. 相同的算法,Spark比Hadoop快數倍,如果是一些迭代或者要對數據反復讀取的算法,Spark比Hadoop快數十倍至上百倍

2. Spark對于數據的操作種類更多,對于一些比較特殊的計算需求,比如求兩個集合的交集并集,Spark都有函數直接計算,而Hadoop實現這樣的計算無比繁瑣。

Spark的特色在于它首先為大數據應用提供了一個統一的平臺。從數據處理層面看,模型可以分為批處理、交互式、流處理等多種方式;而從大數據平臺而言,已有成熟的Hadoop、Cassandra、Mesos以及其他云的供應商。

據預測,Spark將會在五年以后全面替代Hadoop的MapReduce。由此可見,大數據領域技術更迭十分迅速。那么,在日新月異的大數據領域,Spark又能主導分布式計算多久呢?之后,又是那種技術替代Spark呢?

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 航空| 香港| 安乡县| 克什克腾旗| 南澳县| 宁晋县| 莱州市| 天等县| 大理市| 基隆市| 盐津县| 鹤山市| 陆川县| 沁阳市| 昌黎县| 弥勒县| 如皋市| 三亚市| 迁西县| 定日县| 锦州市| 灵山县| 班玛县| 静海县| 松溪县| 仙桃市| 囊谦县| 河北区| 青浦区| 郸城县| 芦溪县| 青田县| 宣化县| 通渭县| 綦江县| 泰顺县| 喜德县| 吴桥县| 鄂伦春自治旗| 武强县| 伊金霍洛旗|