投入超過3500名研究和開發人員在全球十余個實驗室開展與Spark相關的項目——在IBM的發展歷史上,從來沒有一個開源軟件如此受到重視,這業意味著IBM資助的力度之大相當于每年數億美元的投入。IBM何以賭博式的押注Spark?在開源時代,IBM將發生怎樣的變化?帶著種種問題,IBM大中華區大數據與分析事業部總經理鐘澤敏先生;IBM大中華區大數據與分析事業部數據平臺方案總經理劉勝利先生;IBM大中華區軟件架構師總監、IBM技術科學院委員林旭光先生;IBM大中華區大數據分析平臺銷售總監洪建勛先生與CSDN進行了獨家溝通。
Spark——IBM未來十年最重要的事
如果說最大數據領域Hadoop引領了潮流,那么Spark無疑也成為了這場變革中的佼佼者。曾有人指出“如果說Hadoop勝在規模的話,那么Spark就勝在速度。”而IBM此次宣布與Spark開源的合作,也看出藍色巨人在大數據在逐漸強化自己的能力。
IBM大中華區大數據與分析事業部總經理鐘澤敏強調:在中國市場,不同領域的開源技術發展的很快,包括Spark。因此IBM把這個事情結合起來,叫“數據的力量跟開源的發展”, IBM的數據跟Spark發展在全世界以及中國也是非常的重要。這是IBM的看法,這是我們未來十年IBM在開源社區以及Spark是一個最重要的項目。
IBM大中華區大數據與分析事業部總經理鐘澤敏對于IBM方面對Spark的支持提出兩點:首先IBM作為一個在數據方面非常成熟的廠商,非常愿意把一些最新的技術帶到開源包括Spark里面;第二個,我們要使一個開源社區有很好的發展,就需要重視對技術的人員有關技術的培訓。
據悉,目前IBM已經在Developer Works上提供免費的Spark課程,在第三季度,就會有第二波的Spark基本的課程出來,更多的技術專家可以透過IBM技術培訓去理解最新的Spark的發展是怎么樣的。
注入藍色基因的Spark終將引領大數據潮流
圖:IBM大中華區大數據與分析事業部數據平臺方案總經理 劉勝利先生
在采訪中IBM大中華區大數據與分析事業部數據平臺方案總經理劉勝利先生特別提到了未來IBM在Spark上的幾個關鍵的投入:
技術方面
SystemML是IBM超過十年以上的時間已經在研發的機器學習的技術。IBM在SystemML研究上至少在主流業界上我們領先十年以上,并且有一些實際的產品化的東西,2011年1月26日, IBM超級計算機沃森(Watson)在公開測試中擊敗了美國智力競賽節目《危險邊緣》的兩位總冠軍,這里面其中整合了很多SystemML技術學習的功能,當然沃森(Watson)本身是一個非常復雜的人工智能的系統,其中核心之一就是機器學習的一些內容。而IBM則希望能夠實現對于Spark本身把SystemML的功能輸送給Spark,能夠讓Spark具有更強大的學習能力,讓數據科學家專注于算法,而不是一些很簡單的很細節的技術本身。同時能夠讓機器學習的歷程實現比較標準化的東西。
培訓方面:
IBM的培訓不光是對IBM內部人員的培訓,也為市場上的開發人員以及市場上一些公司的技術人員能夠提供比較先進的這些技術,包括Spark技術。據悉IBM在全球宣布要培養100萬數據科學家(data scientist)。目前,IBM方面已經準備好的培訓課程包括Spark基本原理的初級和二級培訓,以及Spark高級開發系列培訓和數據科學一些方法論的培訓。這些培訓不光是IBM自己做,也和IBM在全球一些主要的合作伙伴像Databricks、AMPLab等等,這些都是在技術上非常具有創新、領先的一些合作伙伴。
劉勝利表示:在全球,IBM也會成立Spark技術中心,現在在美國Spark技術中心已經成立起來。這個技術中心的一個任務是推廣Spark技術在公司以及在客戶的采用,對Spark的采用。我們會圍繞著Spark在商業問題上的解決提供一些方案,包括免費的教育資源以及Spark的一些改進和Spark上的應用。
劉勝利強調:IBM大數據分析部門希望在這幾點上能夠對整個業界產生一定的影響,包括專家的培養、互動體驗、培訓以及端對端,也就是到最終客戶實際應用到應用方面的咨詢、實施和運行,也要結合云數據中心這樣的概念,把Spark技術利用起來。
對此,我們也不難看出IBM此舉的決心和魄力,更樂意看到融合了IBM傳統的研發能力,加上IBM對新技術的快速推動,和這些公司的合作, 可以推動Spark在全球客戶快速采用以及方便采用上能夠提供極大的便利性。
IBM攜手Spark開啟開源時代
盡管IBM與Spark這場互助行動剛剛開始,但是Spark作為一項服務已經IBM Bluemix平臺上提供給客戶。IBM把Spark轉到Bluemix上,實際上結合IBM大的公司的戰略——CMASS,也就是云、大數據分析、社交媒體、移動互聯、安全這樣一個大的公司策略。首先,把Spark跑在云平臺上,其次,IBM在Hadoop系統上現有的Hadoop bigInsights,采用OpenStack Platform這樣一個平臺,把Spark集成在新的開源的平臺上。
IBM技術科學院委員林旭光先生表示:這樣的好處就是用戶既可以用Hadoop技術又可以用Spark技術,既可以是開源又可以是開放平臺的。這是我們Hadoop版本在致力于做的一個方向,這個產品已經到4.0版本,現在Spark已經是我們在這個產品里面一個馬上可以使用的技術。
此外“流分析”的技術也是IBM在大數據中一個非常重要的計算模式,而IBM Streams現在已經可以跑在Spark上。前文我們已經提到Spark以快諸稱,而流本身的特點也是快,加在一起則是快上加快。“所以,我們希望IBM流的技術以及自己本身的技術和Spark開源技術結合在一起,能夠更好的提供業界的開放的流計算的模式。” 林旭光說。“在年內我們還會陸續推出更多基于Spark的產品出來,包括Watson Analytics、DataWorks,以及我們的PuerData這是我們的一體機,以及我們一些方案和正在孵化的項目。這是我們年內晚些時候陸續在在產品、技術、方案上推出更多的一些舉措。”
后記:在JAVA上開源,過去的15年中,企業級的核心應用圍繞Java這樣一個平臺運行,可以說IBM在Java的開源貢獻以及IBM Websphere在支撐整個業界Java的運行上起到一個非常重要的作用,應該是業界排第一的一個平臺;2001至2005Linux在中國大熱的這幾年,在中國大規模采用Linux技術,IBM也是Linux開源的主要推動者。今天Hadoop和Spark作為開源,我們也看到了IBM的大規模投入。
作為一家百年老店,IBM卻在創新上始終不遺余力,我們也期待看到IBM與Spark的攜手,開啟一個嶄新的開源的時代。