據相關數據顯示,2013年上半年中國手機網民規模已經突破5億大關,預計14年第一季度,國內手機網民規模將超PC端,手機用戶超過10億,3G用戶持續增長,以及4G的強勢勁頭,都催生移動大數據的爆發。大量新數據無時無刻不在涌現,移動互聯網正影響著人類生活的方方面面。
這將是一個前所未有的時代。所有的公司和機構都已經或者正在成為移動互聯網組織。所有的公司和機構也終將是云計算大數據組織。移動互聯網及云計算大數據的浪潮正在并將最終徹底的變革所有的公司和機構的架構模式、生產模式、服務模式以及管理模式。
Spark—新一代全能大數據計算平臺崛起
隨著大數據相關技術和產業的逐漸成熟,單個組織內往往需要同時進行多種類型的大數據分析作業:傳統Hadoop MapReduce最為擅長的是離線海量數據的統計分析,由于Hadoop本身的特性,導致使用Hadoop處理大數據的結果的獲取往往是要延遲在幾分鐘甚至是幾個小時,這在很多場景下都是不可接受的。更為重要的是在Spark出現前,要在一個組織內同時完成各種機器學習算法為代表的迭代型計算、流式計算、社交網絡中常用的圖計算、SQL關系查詢、交互式即席查詢等數種大數據分析任務,就不得不與多套獨立的系統打交道,一方面引入了不容小覷的運維復雜性,另一方面還免不了要在多個系統間頻繁進行代價高昂的數據轉儲。
Spark是基于內存,是云計算領域的繼Hadoop之后的下一代的最熱門的通用的并行計算框架開源項目,尤其出色的支持Interactive Query、流計算、圖計算等。
Spark在機器學習方面有著無與倫比的優勢,特別適合需要多次迭代計算的算法。同時Spark的擁有非常出色的容錯和調度機制,確保系統的穩定運行,Spark目前的發展理念是通過一個計算框架集合SQL、Machine Learning、Graph Computing、Streaming Computing等多種功能于一個項目中,具有非常好的易用性。
Spark無可比擬的優勢,占據云計算大數據領域霸主地位
Spark是發源于美國加州大學伯克利分校AMPLab的集群計算平臺,它立足于內存計算,性能超過Hadoop百倍,從多迭代批量處理出發,兼收并蓄數據倉庫、流處理和圖計算等多種計算范式,是罕見的全能選手。Spark當下已成為Apache基金會的頂級開源項目,擁有著龐大的社區支持(活躍開發者人數已超過Hadoop MapReduce),技術也逐漸走向成熟。
作為下一代云計算及大數據的核心技術,Spark是可以革命Hadoop的目前唯一替代者,能夠做Hadoop做的一切事情,同時速度比Hadoop快了100倍以上。甚至在Hadoop最擅長的離線數據統計分析領域,Spark比Hadoop也至少快了一個幾何級數;Spark另外一個無可取代的優勢是:“One Stack to rule them all”,Spark采用一個統一的技術堆棧解決了云計算大數據包括如流處理、圖技術、機器學習、NoSQL查詢等方面的所有核心問題,具有完善的生態系統;這直接奠定了其一統云計算大數據領域的霸主地位;
Spark應用現狀及未來發展
目前SPARK已經構建了自己的整個大數據處理生態系統,如流處理、圖技術、機器學習、NoSQL查詢等方面都有自己的技術,并且是Apache頂級Project,可以預計的是2014年下半年到2015年在社區和商業應用上會有爆發式的增長。
國外一些大型互聯網公司已經部署了Spark。甚至連Hadoop的早期主要貢獻者Yahoo現在也在多個項目中部署使用Spark;國內的淘寶、優酷土豆、網易、Baidu、騰訊等已經使用Spark技術用于自己的商業生產系統中,國內外的應用開始越來越廣泛。
前段時間,mahout宣布了一個重大的消息,mahout社區表示從現在起,他們將不再接受任何以MapReduce形式實現的算法,但是他們仍然將維護那些常用算法的MapReduce實現。另一方面,mahout宣布新的算法將基于Spark實現,他們相信Spark更豐富的編程模型及更優秀的性能將對mahout有著至關重要的作用。另一方面,Cloudera的機器學習框架oryx的執行引擎也會替換成Spark,之前oryx也是使用mapreduce。種種跡象表明,Spark已經開始各種屠殺了,非常有希望成為新一代分布式機器學習事實上的標準。讓我們拭目以待。Spark正在逐漸走向成熟,并在這個領域扮演更加重要的角色。
Spark發展迅速,人才培養將成為關注熱點
Spark技術的快速發展及應用普及,也帶來了另外一個倍受企業關注的問題,即Spark人才的培養。由于目前Spark技術在企業的應用,仍然屬于一個起步的階段,在專業人才上極度匱乏。目前國內專注在Spark人才培養的機構和課程非常罕見。
據Spark亞太研究院院長及首席專家王家林介紹,Spark亞太研究院致力于Spark技術的研究及推廣,在幫助企業規劃、部署、開發、培訓和使用Spark為核心,同時提供Spark源碼研究和應用技術訓練。
在推動國內Spark人才培養上,Spark研究院在完成了對Spark源碼的徹底研究的同時不斷在實際環境中使用Spark的各種特性的基礎之上,推出了國內首個Spark訓練體系:
《18小時內掌握Spark》、《精通Spark:Spark內核剖析、源碼解讀、性能優化和商業案例實戰》、《Spark企業級開發最佳實踐》、《Spark 1.0.0企業級開發動手》、《Spark架構案例鑒賞》、《精通Spark的開發語言:Scala最佳實踐》,幫助企業,從入門到精通到商業實戰,完成Spark人才的快速培養。了解Spark最新課程(www.sparkinchina.com/)。