Apache Spark用戶經常面臨一個困境:繼續獲取來自供應商的支持還是更新版本,使用具有更新功能的快速移動的開源軟件?
Novantas公司將Spark數據處理引擎作為商業Hadoop發行版的一部分。這樣使得分析服務和軟件提供商與Spark版本的Hadoop軟件包支持的Spark版本捆綁在一起,因此,它不一定能立即訪問新的Spark功能
例如,Novantas在今年年初開發的基于Hadoop的應用程序中使用了Spark 1.4,以幫助銀行的分析團隊在內部系統中找到相關的客戶和財務數據。該版本由Apache軟件基金會于2015年6月發布,去年9月被Spark 1.5取代,1月被1.6取代。但是要升級,Novantas將不得不通過Cloudera放棄Spark支持。
“我們不想使用不受支持的版本,”紐約公司Novantas解決方案技術部門CTO和工程總監Kaushik Deka說。這是因為應用程序是該部門第一次真正使用Hadoop和Spark。堅持使用Spark 1.4不太理想。Deka說,他希望當Novantas移動到一個新的技術版本可以解決問題。
這樣的考慮在大數據環境中是常見的,其通常涉及以快速的速度更新的開源技術。Spark的情況尤其突出:在2014年7月到2016年7月之間,通過Apache共有18個版本,Spark 2.0版本一般都可以使用。
為了更好地使用新功能,一些組織已經避開了供應商提供的Spark支持,并自行部署了基本的Apache Spark軟件。
例如,Synchronoss技術公司在2014年從Hadoop供應商MapR獲得Spark。但移動管理公司Bridgewater的大數據分析平臺高級主管Suren Nathan表示,公司有時直接升級到Apache Spark的新版本,以獲得所需的功能。“現在,我的團隊可以非常熟練地使用Spark,”他說。
Webtrends公司也一直使用基本的Spark軟件。“我們正試圖盡可能保持現有的發布,”來自美國的在線活動跟蹤公司首席技術官Peter Crossley說,“市場上沒有其他技術像這種技術一樣快。”
Crossley表示,他更喜歡通過Hadoop供應商Hortonworks獲得支持的Spark版本。為了盡可能做到這一點,他的團隊與Hortonworks合作開發了一個“雙軌發布計劃”,供應商去年3月加快了Sparkand與Hadoop相關的其他大數據技術的交付。