Spark火遍IT業界已是不可置疑的事實。作為Apache一大開源項目,這款大數據處理引擎文能連接車輛與物聯網,武能識別隱秘的洗錢行為。
Spark的魅力
Apache Spark脫胎于加州伯克利大學AMPLab實驗室團隊。自誕生伊始,Spark就與MapReduce進行比較,MapReduce是Hadoop最初的數據處理引擎,因對大數據集的分布式處理能力而廣受關注,但在效率方面飽受詬病。MapReduce以批處理方式進行計算,無法很好地應對流處理模式(比如物聯網項目)。而且,MapReduce沒有內存計算的選項,每次計算后都要將結果寫入外部存儲,這使得迭代式的任務相當耗時。
因此,Apache Spark近些年發展迅猛,在全球23個國家50個城市擁有66個小組,會員人數超過21000。作為Spark的創建方,AMPLab開發了基于內存計算的Spark、Tachyon、GraphX、SparkR等大數據處理框架和技術,憑借超強的數據處理速度、對復雜數據的實時分析能力及高易用性,受到業界追捧。
在中國,大數據方興未艾。Wikibon的調研數據顯示,大數據正逐漸成為全球IT支出的全新增長點。中國也得益于人口和行業的規模,以及正在迅速拓展的數字經濟,正在成為大數據技術應用的高地。
大數據金牌訓練營AMPCamp移師中國
為了幫助研發和應用大數據技術的中國開發者與企業技術人員深入了解這些開源大數據技術的精髓與應用優勢,讓他們能夠更好地參與到相關技術創新與實踐的進程中來,在美國連續舉辦了五屆的大數據金牌訓練營AMPCamp移師中國。
在上海舉辦的首屆AMPCamp@China訓練營的成功離不開英特爾的支持。實際上,英特爾除了擁有業界無可匹敵的硬件,在軟件領域的表現也可圈可點。2012年,英特爾就和美國加州伯克利大學進行了很緊密的合作,圍繞Apache Spark軟件開展了技術開發、代碼優化、應用拓展等多個維度的緊密合作,并且在Spark社區貢獻代碼量排名全球第三。
英特爾大數據首席架構師戴金權表示,英特爾大數據團隊主要投入到大數據開源社區的核心項目上。從Spark、Hadoop、Hbase到Hive等,全球有22位員工專職開源社區工作。
戴金權補充,英特爾一直致力于幫助合作伙伴和用戶在開放架構的大數據平臺上開發多樣化、差異化的應用。向各個行業的用戶提供大數據實踐層面的技術支持,積極參與到大數據領域的人才培養事業中。
他說:“我們英特爾將進一步拓展和深化與開源社區、產業界、學術界的合作,所有基于開放架構的主流大數據軟件技術,特別是開源技術,都是我們提供平臺優化和技術支持的目標。”
第一個基于Spark的分布式矩陣運算庫是如何煉成的?
2014年,南大大學PASA大數據實驗室成功申請獲得由英特爾中國研究院和CSDN聯合發布的基于Spark的分布式矩陣運算庫研究項目,研究實現了全球第一個基于Spark的分布式矩陣運算庫,項目成果已經開源到社區。
作為國內最早開展大數據技術研究和教學的課題組之一,南京大學PASA大數據實驗室近六年來在大數據技術領域開展了一系列系統深入的研究開發工作,積累了系統的研究和技術基礎。
從2010年開始與英特爾合作,覆蓋Hadoop性能優化、基于Xeon Phi眾核處理器的并行化算法研究、大規模中文文本語義分析與應用技術與分布式文件系統性能評測工具等領域。
南京大學計算機科學與技術系教授黃宜華表示告訴TechTarget中國:“我們的重點是圍繞大數據處理技術與系統工具平臺。主要覆蓋分布式存儲、并行化計算與算法三大層面。”在系統層的并行變成模型與計算框架層,Hadoop與Spark可以進行批處理、流式、迭代、內存與定制式等計算。
他表示,基于在硬件和體系結構層面的技術優勢,英特爾在大數據系統的性能優化方面具有獨特的技術優勢。與此同時,南大與英特爾攜手大數據技術教學與人才培養,進一步推動大數據技術及其應用的發展。
Spark還能如何提升?
如今,眾多IT界大佬都將Spark加入到了自己的Hadoop發行版里,期望其能成為通用的大數據技術。但也有專家認為Spark還有需要完善的地方,例如內存計算穩定性問題。
華東師范大學計算機與技術系教授周傲英表示,該校2013年成立的大數據研究院,內存數據庫的研發一直是工作重點。“這不僅僅指實時分析,還包括移植。”除此之外,知識圖譜與位置服務也是目前的重點。未來的重心在于研發應用驅動,走開源路線的系統,以及培養系統架構師與數據科學家。
戴金權表示,英特爾利用開放架構的潛能,使大數據技術能夠真正轉化成為各行各業解析數據價值。也期望用戶對大數據技術的更多采納和應用能夠反過來驅動大數據技術創新生態系統的加速發展。