Apache Spark是一個開源數據處理引擎,2010年產生于加利福尼亞大學伯克利分校的實驗室,之后躋身大數據產品之列。去年五月,Apache軟件基金會發布了Spark 1.0.0版本。大數據供應商格外看好Spark,認為它更快、更有彈性,可以替代MapReduce處理和分析Hadoop數據。
Spark指出了一些Hadoop最初處理引擎MapReduce的一些缺點,Spark的核心是內存計算,據稱運行批處理應用程序可以比MapReduce快100倍。Spark也是更通用的技術,適合加在批處理上的機器學習、流數據、圖型處理和SQL查詢應用程序。它使用高級API和指令集,和MapReduce相比,Spark讓應用程序開發更簡單。
不過,目前廠商的炒作仍多于Spark的實際應用,Spark技術還不成熟。比如把它和SQL連接的工具很新。它的內存能力對很多用戶來講價格昂貴。它的API沒有MapReduce那么復雜,這往往讓企業開發者無所適從。Spark還有很長的路要走。
Spark發展年表:
2009 計算機科學家Matei Zaharia在加利福尼亞大學伯克利分校實驗室創建了Spark作為他的博士科研項目
2010 Spark開源,它在代碼管理網站GitHub吸引了開發社區
2013 該項目被捐贈給Apache軟件基金會,Spark峰會在舊金山舉行,有450名參會者
2014 Apache發布了Spark1.0.0,之后又發布了兩版。大數據供應商Databricks(Zaharia是聯合創始人)使用Spark創建了新的大規模數據處理記錄——23分鐘處理100TB的數據
2015 Spark東部峰會在紐約舉行