本周一,IBM宣布將對開源實(shí)時大數(shù)據(jù)分析項(xiàng)目Apache Spark進(jìn)行大規(guī)模資助,藍(lán)色巨人宣稱,其資助的力度之大相當(dāng)于每年數(shù)億美元的投入。
Hadoop技術(shù)出自Google、Yahoo這些互聯(lián)網(wǎng)公司,主要是為了對規(guī)模龐大的各類數(shù)據(jù)進(jìn)行處理和分析。不過近年來隨著大數(shù)據(jù)應(yīng)用的流行,越來越多的公司也希望自己具備類似的能力,這使得Hadoop逐步進(jìn)入了主流。Hadoop以及相關(guān)的分發(fā)企業(yè)如Cloudera, Hortonworks等也成為了大數(shù)據(jù)領(lǐng)域的投資熱點(diǎn)。
Spark同樣也提供大數(shù)據(jù)處理與分析能力。如果說Hadoop勝在規(guī)模的話,那么Spark就勝在速度。這項(xiàng)由2年前UC Berkeley AMP實(shí)驗(yàn)室開發(fā)的技術(shù)將中間輸出結(jié)果保存在內(nèi)存而不是分布式文件系統(tǒng)中,從而可以提供實(shí)時的數(shù)據(jù)分析能力。與Hadoop獲得的資助相比,對Spark的支持還很不夠。
正是在此背景下IBM宣布了對Spark的大規(guī)模資助。藍(lán)色巨人將投入超過3500名開發(fā)者到Spark相關(guān)項(xiàng)目,為項(xiàng)目提供機(jī)器學(xué)習(xí)技術(shù),并將Spark嵌入到IBM的數(shù)據(jù)分析和商用軟件中,同時還會把Spark作為服務(wù)在它的Bluemix開發(fā)平臺上提供出來。為了鼓勵基于Spark的創(chuàng)新,IBM還將在舊金山設(shè)立一個Spark技術(shù)中心。IBM還將把自己的一個研究項(xiàng)目SystemML開源。這個項(xiàng)目是利用機(jī)器學(xué)習(xí)技術(shù)去識別數(shù)據(jù)模式,而它正是在Spark基礎(chǔ)上開發(fā)的。
IBM還計(jì)劃與UC Berkeley的AMPLab、DataCamp、Galvanize以及Big Data University等學(xué)術(shù)及教育組織合作提供Spark教育課程,目標(biāo)是培養(yǎng)100萬名數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)家。
IBM的大規(guī)模資助令人矚目。回顧過去,正是由于IBM的出手才讓若干關(guān)鍵技術(shù)得到了普及,比如說1980年代IBM對PC的投入,2000年代對Linux的投入均加速了相關(guān)技術(shù)成為主流的進(jìn)程。
當(dāng)然,對于IBM來說,對Spark的大規(guī)模投入實(shí)際上也在幫助它自己。此舉不僅能強(qiáng)化自己在大數(shù)據(jù)領(lǐng)域的地位,同時也能吸引更多開發(fā)者加盟它的生態(tài)體系,幫助IBM更快更好地解決其業(yè)務(wù)問題。
而放眼更大的環(huán)境,開源化已成不可逆轉(zhuǎn)的趨勢。技術(shù)巨頭比以往任何時候都更加熱情地涌入到這一潮流當(dāng)中。比方說Google開源了自己最大的秘密之一,F(xiàn)acebook更是幾乎將自己變成了一所開源實(shí)驗(yàn)室。因?yàn)檫@些巨頭明白,如果不擁抱開源,也許就會被開源消滅。