顯然早在今年六月份的Spark Summit上,當(dāng)IBM宣布對Spark提供三百萬美金的投資--其中還包括3500名研究人員的投入和在San Francisco建立一個Spark技術(shù)中心,IBM就已經(jīng)公開支持Apache Spark。在Las Vegas的IBM Insight 事件發(fā)生后的今天,IBM宣布了 IBM Analytics 在Apache Spark的可行性,Spark將為IBM Bluemix云的提供部分服務(wù)。
Spark和數(shù)據(jù)以及源代碼通過在 Bluemix 環(huán)境中提供Spark,IBM將其與自身的其他云數(shù)據(jù)和數(shù)據(jù)分析服務(wù)整合,其中包括Cloudant NoSQL 提供的數(shù)據(jù)和dashDB云數(shù)據(jù)存儲服務(wù)。由于 Bluemix本質(zhì)上是一個開發(fā)應(yīng)用程序的云,IBM認(rèn)為它在代碼與數(shù)據(jù)庫、大數(shù)據(jù)和分析的連接中處于一個很好的位置。并且,基于Apache Spark的IBM Analytics 同樣支持使用用Python語言的Spark--Databricks Cloud Spark平臺上同樣支持該功能。
數(shù)據(jù)提供根據(jù)IBM發(fā)布的新聞來看,隨著Spark的加入,IBM推出了它所謂的Insight Cloud Services,其特點是“能從Twitter和天氣公司那獲得關(guān)于人、事件、地理位置和商業(yè)信息等外部數(shù)據(jù)”。很明顯,IBM正嘗試著提供一個完全數(shù)據(jù)分析平臺,該平臺能夠利用外部數(shù)據(jù)來豐富用戶自身的數(shù)據(jù),然后平臺利用Spark來分析這些豐富的數(shù)據(jù)。
在與Derek Schoettle(IBM的云數(shù)據(jù)服務(wù)總經(jīng)理(CDS)和之前被IBM收購了Cloudant首席執(zhí)行官)交談過程中,他展露出了對 IBM's Spark的熱情。Schoettle 解釋道 Spark 不僅是一個平行的大數(shù)據(jù)處理平臺,同樣也可以用在處理機(jī)器學(xué)習(xí)、SQL訪問查詢、圖形引擎和數(shù)據(jù)流分析上(盡管是微批量處理),IBM將Spark看為一個包羅萬象的數(shù)據(jù)處理環(huán)境。
根據(jù)Schoettle描述,這個信念是如此之強(qiáng),IBM已經(jīng)在自身的某些商業(yè)和分析的產(chǎn)品上利用Spark更新迭代15次之多。他介紹到,以DataWorks產(chǎn)品為例,利用Spark降低了其源代碼行數(shù),從四千萬行降低到五百萬行。
IBM的Spark數(shù)據(jù)平臺是粘合劑嗎?可以負(fù)責(zé)任的說在行業(yè)里沒有任何一家功能像IBM在數(shù)據(jù)和分析范圍內(nèi)覆蓋如此廣泛。
要知道,IBM旗下平臺可是囊括有DB2、Watson、Netezza、Cognos、TM1、SPSS、DataStage、Informix、Cloudant以及BigInsights Hadoop distribution。如果IBM 能夠?qū)⑦@些平臺與Apache Spark聯(lián)合起來,并且在云中加以實現(xiàn),這將是一個重要的、端到端的、Spark強(qiáng)大功能的具體示范和現(xiàn)在數(shù)據(jù)分析的生命線。
盡管IBM已經(jīng)消減了工作量,但對幾十年內(nèi)自身技術(shù)大規(guī)模的重組和接受新的技術(shù)來說非常不容易和不安全。但如果IBM在此次投資建設(shè)中重新煥發(fā)新春的話,他們會將再次回到大家的視野之內(nèi)。