開源引擎Spark是否言過其實？

責任編輯：editor005 作者：Jack Vaughan |來源：企業網D1Net 2015-06-03 13:57:45 本文摘自：TechTarget中國

Apache Spark是一個開源數據處理引擎，2010年產生于加利福尼亞大學伯克利分校的實驗室，之后躋身大數據產品之列。去年五月，Apache軟件基金會發布了Spark 1.0.0版本。大數據供應商格外看好Spark，認為它更快、更有彈性，可以替代MapReduce處理和分析Hadoop數據。

Spark指出了一些Hadoop最初處理引擎MapReduce的一些缺點，Spark的核心是內存計算，據稱運行批處理應用程序可以比MapReduce快100倍。Spark也是更通用的技術，適合加在批處理上的機器學習、流數據、圖型處理和SQL查詢應用程序。它使用高級API和指令集，和MapReduce相比，Spark讓應用程序開發更簡單。

不過，目前廠商的炒作仍多于Spark的實際應用，Spark技術還不成熟。比如把它和SQL連接的工具很新。它的內存能力對很多用戶來講價格昂貴。它的API沒有MapReduce那么復雜，這往往讓企業開發者無所適從。Spark還有很長的路要走。

Spark發展年表：

2009 計算機科學家Matei Zaharia在加利福尼亞大學伯克利分校實驗室創建了Spark作為他的博士科研項目

2010 Spark開源，它在代碼管理網站GitHub吸引了開發社區

2013 該項目被捐贈給Apache軟件基金會，Spark峰會在舊金山舉行，有450名參會者

2014 Apache發布了Spark1.0.0，之后又發布了兩版。大數據供應商Databricks(Zaharia是聯合創始人)使用Spark創建了新的大規模數據處理記錄——23分鐘處理100TB的數據

2015 Spark東部峰會在紐約舉行

關鍵字：開源 GitHub 引擎