日韩欧美亚洲综合一区二区,丁香婷婷亚洲六月综合色,91av精品视频

Spark太火大數據訓練營AMPCamp都來中國了

責任編輯：editor006

作者：唐瓊瑤

2015-06-09 14:22:05

摘自：TechTarget中國

2014年，南大大學PASA大數據實驗室成功申請獲得由英特爾中國研究院和CSDN聯合發布的基于Spark的分布式矩陣運算庫研究項目，研究實現了全球第一個基于Spark的分布式矩陣運算庫，項目成果已經開源到社區。

Spark火遍IT業界已是不可置疑的事實。作為Apache一大開源項目，這款大數據處理引擎文能連接車輛與物聯網，武能識別隱秘的洗錢行為。

Spark的魅力

Apache Spark脫胎于加州伯克利大學AMPLab實驗室團隊。自誕生伊始，Spark就與MapReduce進行比較，MapReduce是Hadoop最初的數據處理引擎，因對大數據集的分布式處理能力而廣受關注，但在效率方面飽受詬病。MapReduce以批處理方式進行計算，無法很好地應對流處理模式(比如物聯網項目)。而且，MapReduce沒有內存計算的選項，每次計算后都要將結果寫入外部存儲，這使得迭代式的任務相當耗時。

因此，Apache Spark近些年發展迅猛，在全球23個國家50個城市擁有66個小組，會員人數超過21000。作為Spark的創建方，AMPLab開發了基于內存計算的Spark、Tachyon、GraphX、SparkR等大數據處理框架和技術，憑借超強的數據處理速度、對復雜數據的實時分析能力及高易用性，受到業界追捧。

在中國，大數據方興未艾。Wikibon的調研數據顯示，大數據正逐漸成為全球IT支出的全新增長點。中國也得益于人口和行業的規模，以及正在迅速拓展的數字經濟，正在成為大數據技術應用的高地。

大數據金牌訓練營AMPCamp移師中國

為了幫助研發和應用大數據技術的中國開發者與企業技術人員深入了解這些開源大數據技術的精髓與應用優勢，讓他們能夠更好地參與到相關技術創新與實踐的進程中來，在美國連續舉辦了五屆的大數據金牌訓練營AMPCamp移師中國。

在上海舉辦的首屆AMPCamp@China訓練營的成功離不開英特爾的支持。實際上，英特爾除了擁有業界無可匹敵的硬件，在軟件領域的表現也可圈可點。2012年，英特爾就和美國加州伯克利大學進行了很緊密的合作，圍繞Apache Spark軟件開展了技術開發、代碼優化、應用拓展等多個維度的緊密合作，并且在Spark社區貢獻代碼量排名全球第三。

英特爾大數據首席架構師戴金權表示，英特爾大數據團隊主要投入到大數據開源社區的核心項目上。從Spark、Hadoop、Hbase到Hive等，今天英特爾全球有超過22位員工作為項目核心committer，領導社區進行開源項目開發。

戴金權補充，英特爾一直致力于幫助合作伙伴和用戶在開放架構的大數據平臺上開發多樣化、差異化的應用。向各個行業的用戶提供大數據實踐層面的技術支持，積極參與到大數據領域的人才培養事業中。

他說：“我們英特爾將進一步拓展和深化與開源社區、產業界、學術界的合作，所有基于開放架構的主流大數據軟件技術，特別是開源技術，都是我們提供平臺優化和技術支持的目標。”

與國內學界在大數據方面的合作

Intel除了公司內開展諸多大數據技術與系統研發外，還與國內學界開展了大數據技術合作研究，其中合作最早的學校之一是南京大學PASA大數據實驗室。

作為國內最早開展大數據技術研究和教學的課題組之一，南京大學PASA大數據實驗室近六年來在大數據技術領域開展了一系列系統深入的研究開發工作，積累了系統的研究和技術基礎。南京大學PASA大數據實驗室學術帶頭人黃宜華教授告訴TechTarget中國：“我們的重點是圍繞大數據處理技術與系統工具平臺研究，主要覆蓋分布式存儲、并行化計算與并行化分析算法三個層面。”

從2010年開始與英特爾合作，南京大學PASA大數據實驗室進行了Hadoop性能優化、基于Intel Xeon Phi眾核處理器的并行化算法研究、大規模中文文本語義分析技術研究、Spark和Tachyon性能優化研究、以及分布式文件系統性能評測技術與工具研究工作。

黃宜華教授表示，Intel不僅是一個在處理器和硬件方面世界領先的企業，在軟件方面也是一個技術力量雄厚的企業。尤其是，基于在硬件和體系結構層面的技術優勢，英特爾在大數據系統的性能優化方面具有獨特的技術優勢。

除了合作研究工作以外Intel還資助南京大學開展了大數據技術教學和課程建設方面的工作，攜手大數據技術教學與人才培養，以進一步推動大數據技術及其應用的發展。

Spark還能如何提升?

如今，眾多IT界大佬都將Spark加入到了自己的Hadoop發行版里，期望其能成為通用的大數據技術。但也有專家認為Spark還有需要完善的地方，例如內存計算穩定性問題。

戴金權表示，英特爾利用開放架構的潛能，使大數據技術能夠真正轉化成為各行各業解析數據價值。也期望用戶對大數據技術的更多采納和應用能夠反過來驅動大數據技術創新生態系統的加速發展。

訓練營 TechTarget Hive