精品一区二区三区无卡乱码,精品久久中文字幕有码,成人毛片手机版免费看

大數據分析平臺Hadoop與Spark之爭

責任編輯：editor04

作者：鄧曉蕾

2015-09-11 21:36:11

摘自：ZD至頂網

隨著云時代的來臨，依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術等技術對海量數據進行分布式數據挖掘，分析、洞察越來越被看重。在大數據領域，只有深挖數據科學領域，走在學術前沿，才能在底層算法和模型方面走在前面，從而占據領先地位。

有人把大數據稱為信息資產、有人稱為金礦、甚至社會財富。而大數據，即，無法在可承受的時間范圍內用常規軟件工具進行捕捉、管理和處理的數據集合。Gartne認為“大數據”是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據并不在“大”，而在于“有用”。價值含量、挖掘成本比數量更為重要。對于很多行業而言，如何利用這些大規模數據是成為贏得競爭的關鍵。大數據技術的戰略意義不在于掌握龐大的數據信息，而在于對這些含有意義的數據進行專業化處理。換言之，如果把大數據比作一種產業，那么這種產業實現盈利的關鍵，在于提高對數據的“加工能力”，通過“加工”實現數據的“增值”。

大數據分析平臺Hadoop與Spark之爭

隨著云時代的來臨，依托云計算的分布式處理、分布式數據庫和云存儲、虛擬化技術等技術對海量數據進行分布式數據挖掘，分析、洞察越來越被看重。

前幾日，一篇文章在媒體圈炸了鍋，騰訊財經采用機器人寫出一篇稿子《8月CPI漲2% 創12個月新高》，騰訊財經開發的自動化新聞寫作機器人，根據算法在第一時間自動生成稿件，瞬時輸出分析和研判，一分鐘內將重要資訊和解讀送達用戶。獲悉這一消息后，一些記者紛紛表示”已哭暈在廁所“，今后的記者崗位會越來越少。也不乏安慰者，”機器人寫的是稿，記者寫的是觀點。“但無論如何，基于對數據進行分析直接展示數據，讓數據自己說話，讓觀眾聽到結果，是大數據時代實實在在帶來的好處。

對于大數據來說，最重要的還是對于數據的分析，從里面尋找有價值的數據幫助企業作出更好的商業決策。而如何利用大數據分析，少不了大數據分析的平臺，Hadoop被公認為是新一代的大數據處理平臺，EMC、IBM、Informatica、Microsoft以及Oracle都投入了Hadoop的懷抱。

這樣的平臺是復雜的，具有相當技術的門檻，但是每個行業都少不了黑馬。Spark從2009年誕生到如今的成熟，不過短短幾年。Spark的核心RDD（resilient distributed datasets），以及流處理，SQL智能分析，機器學習等功能。Spark提供的基于RDD的一體化解決方案，將MapReduce、Streaming、SQL、Machine Learning、Graph Processing等模型統一到一個平臺下，并以一致的API公開，并提供相同的部署方案，使得Spark的工程應用領域變得更加廣泛。

在大數據領域，只有深挖數據科學領域，走在學術前沿，才能在底層算法和模型方面走在前面，從而占據領先地位。

對于Hadoop與Spark兩者之間的合作與競爭，在業內不比大數據本身的熱度少多少。知乎上有位大數據工程師@網易如此來解釋，”Hadoop包括Yarn和HDFS以及MapReduce，說Spark代替Hadoop應該說是代替MapReduce。“MapReduce的缺陷很多，最大的缺陷之一是Map ＋ Reduce的模型。

另一位知乎網友@碼農從自身的感受如此談到：

1. 相同的算法，Spark比Hadoop快數倍，如果是一些迭代或者要對數據反復讀取的算法，Spark比Hadoop快數十倍至上百倍

2. Spark對于數據的操作種類更多，對于一些比較特殊的計算需求，比如求兩個集合的交集并集，Spark都有函數直接計算，而Hadoop實現這樣的計算無比繁瑣。

Spark的特色在于它首先為大數據應用提供了一個統一的平臺。從數據處理層面看，模型可以分為批處理、交互式、流處理等多種方式；而從大數據平臺而言，已有成熟的Hadoop、Cassandra、Mesos以及其他云的供應商。

據預測，Spark將會在五年以后全面替代Hadoop的MapReduce。由此可見，大數據領域技術更迭十分迅速。那么，在日新月異的大數據領域，Spark又能主導分布式計算多久呢？之后，又是那種技術替代Spark呢？

Spark Hadoop 網軟件