最近幾個月以來,業界對于Apache Spark項目的興趣與投入迎來了顯著提升,而這皆要歸功于云客戶規模的不斷拓展。
就在上個月,多家在云及商業計算領域聲名顯赫的巨頭公開表達(并決定投資)了對Apache Spark數據分析項目的興趣。是什么讓這些老牌勁旅對這款年輕的技術方案青眼有加?
這種興奮當然不會毫無來由,事實上這項極具發展前景的技術已經得到了廣泛應用。不過要想讓該項目真正在云環境下變成吸金利器,我們還面臨著兩個重大課題——一是便捷性,二是規模化。
Spark的吸引力
最近幾個月來,對Spark項目表現出深厚興趣的廠商包括:
·IBM。除了將Spark支持能力加入自家Bluemix PaaS之外,IBM方面還將SystemML機器學習算法構建技術貢獻給Spark。
·微軟。將Spark支持能力納入自家Azure HDInsight(微軟的云托管Hadoop版本)。
·Amazon。其Elastic MapReduce服務將能夠運行以Scala、Python以及Java語言開發的Spark應用程序。
·華為。這家中國網絡巨頭最近公布了一個名為Astro的項目,其將Spark、Spark SQL以及HBase打包于一款產品當中。Spark目前也被華為公司用于其基于Hadoop的FusionInsight產品,并作為服務由華為開發的新興云平臺交付。
Spark之所以擁有出眾的吸引力,是因為它能夠在Hadoop當中提供強大的內存內數據處理組件,專門應對實時及批量事件。在雅虎公司,也就是Hadoop項目的發源地,Spark已經成為分析運營流程當中的核心與基石。
對于以上廠商而言,Spark項目能夠為其云業務提供一流技術支持——無論是否配合Hadoop(雖然一般情況下會配合Hadoop)。隨著市場價格競爭趨于白熱化甚至開始探底,云供應商之間的競爭目前仍然主要受限于原本的內部數據中心層面,而往往無法真正發揮云體系的規模化等獨特優勢。(事實上,在我們目前所處的階段中,越來越多的業務數據開始在云中生成,而不再像過去那樣單純將數據遷移至云端。)
點燃下一場燎原烈火
Spark在這一過程中的作用同樣非常關鍵,因為未來的主要發展方向以及項目的潛在影響都取決于Spark將如何以云資源的方式實現部署。
IBM公司正默默為Spark項目作出貢獻。而Spark開發廠商Databricks則有著自己的計劃,希望能夠起到更為徹底的效果。其Tungsten項目為Spark的內存利用及分配方式作出了重大改造,旨在借此提高性能水平。這不僅有利于吸引更多開發商的加入,同時也有助于Spark以“即服務”的方式實現交付。
頗具諷刺意味的是,Spark在云環境下的人氣明顯更高,其甚至直接威脅到了Databricks公司自身的商業模式。Andy Oliver曾對Daatabricks公司的Spark產品進行過一番審查,并發現該公司“絕不成為數據科學領域的Tableau”的口號完全沒能成為現實。另外,以上列出的各大競爭參與者雖然不一定會與自家Spark產品產生這種交集關系,但此類產品的出現實際上更為直接地對Spark工作負載作出了補充。
Spark在其它多個方面還有待完善及成熟——包括說明文檔、商業支持、中間件集成以及為用戶提供更多預置Spark應用程序等等。除了最后一項,其它任務非常適合由Spark項目的企業貢獻者及贊助商們來完成——當然,除非這幫家伙提供貢獻的目的完全是為了確保Spark能夠在其云平臺上運作良好,并為其客戶提供服務。
原文標題:Why Spark is spiking in the cloud