在Databricks的Spark峰會上,支持結構化處理和SQL 2003的Spark2.0 呈現在眾人面前,此外,R-to-Spark接口也在該峰會上嶄露頭角。
近日在舊金山舉行的Spark峰會上,Spark發起人Databricks 展示了這款通用分析引擎Spark的2.0版本,并介紹了該版本的詳細更新細節。包括IBM、Microsoft在內的一眾公司都參與到了Spark相關產品的推廣大潮中。
Apache Spark 2.0將于在近期發布,多家公司表示,軟件可能還不夠穩定。但Databricks公司的CTO表示Matei Zaharia認為,Spark 2.0“值得一試”。
Zaharia在加州大學伯克利分校就讀研究生期間編寫了Spark的核心代碼,并為了聯合創建Databricks公司,放棄了MIT的工作。他表示,Spark 2.0包含超過2000個補丁,這些補丁來自于280個貢獻者。他強調的一些更新包括:為了提升Spark平臺開發的效率所做的編碼技術改進,對SQL 2003和結構化流的支持等。
Databricks將新版本Spark基礎引擎定義為智能Spark編譯器——與高級API一起,開放給大型Spark開發組,Zaharia說道。對于陷入困境的IT經理來說,這將非常有價值,因為目前掌握Spark 技術的開發人員薪資普遍過高。
Zaharia引用了Stack Overflow最近的一項調查,該調查包含13540年美國受訪者,這些受訪者都認為Spark相關開發人員的薪資相對較高。調查顯示,Spark技能與Scala語言緊密聯系,Spark的相關技術用Scala語言編寫,企業平均每年要為每個開發人員花費125000美元。
構建Lambda架構
簡化那些繁瑣的數據流開發,也是Spark廣泛應用的前景之一。
Spark更新后,軟件的核心貢獻者選擇了一種通用流處理方法,至少在一定程度上緩解了程序員對流的不適應。Spark保留了mini-batch流處理方法,這引來了一些倡導其他流處理方法人員的詬病。
流處理經常被認為是Spark的一個亮點,但它面臨著來自專門流處理項目的競爭,如Storm,,Flink 和Heron,這些公司一些產品能夠提供比Spark更低的性能延遲。
Spark 2.0的結構化流處理提供了一整套API,可以放置在Lambda architecture中(Lambda architecture表示批處理和流處理的結合)。
“Spark支持我們最常見的通用流處理技術,”Zaharia說,“我們所知道的大多數用戶集成了不同的處理模式。”新的Spark流處理API與Spark SQL API有著更多的相似之處,這讓Spark框架更容易獲得開發者社區的支持。
然而Zaharia提醒道,數據流大范圍使用的情形還尚未出現。獨立分析師和行業觀察者Thomas Dinsmore表示,Databricks 轉向混合批處理和實時編程模型的舉動應該會吸引很多感興趣的受眾。
“Spark結構化流試圖將流處理融入到更廣泛的環境中。事實上,目前還沒有人直接從流中洞察數據,”他說道。
“通常,流數據與歷史趨勢數據應結合使用,”他說。現實世界的應用情況即是如此,例如信用卡欺詐檢測。
Dinsmore 表示,Spark最新版本的更新能夠勝任這一任務,即使面對其他同類型產品的競爭也絲毫不落下風。
“Spark并不需要一切都做到最好”,它只需要沒有明顯短板即可。
Spark的擴散
與此同時。Apache Spark繼續作為其他供應商的產品的一部分。這些供應商的范圍也很廣,既有初創公司也有主流廠商。
在這次峰會上,微軟正式在Azure HDInsight平臺推出了Spark,它將和Hortonworks一起構建。無論是云端或本地的HDInsigh,都已支持R 服務器。而為了支持R服務器,微軟于2015年收購了R語言專業公司Revolution Analytics。
微軟的目標之一是通過提升Spark分布式平臺對R語言的支持,擴大開發者的范圍,另一目標則是提升計算效率。
“通過R與Spark的結合,我們能讓數據科學家繼續使用他們熟悉的R語言,同時允許他們利用Spark的擴展性來運行代碼,”微軟高級產品營銷經理Oliver Chiu說道。性能與工作負載相關,Spark上的R服務器可以加快機器學習模型的訓練速度。
“微軟將其R服務器產品和Spark重組是一個很好的舉動,”Dinsmore說,“他們已經創建了一個高性能的平臺。”
對R的集成也遇到了一定的困難,其應用到Hadoop MapReduce框架中時,性能并不理想,但與Spark的集成有助于解決這一問題,曾擔任Revolution Analytics產品管理主管Dinsmore表示。這反映了一個廣泛的共識,那就是Spark相對于Hadoop MapReduce框架,性能有了明顯的提升。
你精通數據科學么?
IBM近期公布了一套Apache Spark的開發環境。它運行在IBM Bluemix云平臺,能夠滿足精通R編程語言的數據科學家的需要。這項服務將專注于對SparkR,Spark SQL和Spark ML工具集的支持。
R語言的受眾需要更多工具,以擴大開發人員的范圍,IBM分析部門負責產品開發的副總裁Rod Thomas表示。
Tomas說,“我們想讓數據科學家能夠更容易地構建R模型,然后在Spark上運行它們”。R在數據科學家社區是一個重要的工具,讓Spark與R協同工作是一個挑戰。“到目前為止,R在Spark并沒有受到足夠的重視,”Thomas說道。
Spark峰會上,MapRTechnologies發布了一個Converged Data Platform的新版本,這個版本是專門應用于Spark的。該版本使用YARN,但是并沒有采用其他Hadoop生態系統組件。NoSQL軟件公司Redis Labs表示,它們已經創建了相應的連接器,該連接器可以將它的Redis Could與Databricks的Spark 服務集成。
TechTarget中國原創內容,原文鏈接: http://www.searchbi.com.cn/showcontent_93129.htm? TechTarget中國:http://www.techtarget.com.cn