當(dāng)前位置：大數(shù)據(jù) → 業(yè)界動態(tài) → 正文

一季度大數(shù)據(jù)熱門工具相關(guān)事件整理

責(zé)任編輯：editor006 |來源：企業(yè)網(wǎng)D1Net 2016-04-06 16:33:12 本文摘自：it168網(wǎng)站

今年一季度，大數(shù)據(jù)開源圈內(nèi)最熱鬧的一件事大概就是Hadoop迎來了它的十歲生日，收到了來自世界各地的各種祝福。Hadoop正式誕生于2006年1月28日，作為一個開源項(xiàng)目的生態(tài)系統(tǒng)，它從根本上改變了企業(yè)存儲、處理和分析數(shù)據(jù)的方式：Hadoop可以在相同的數(shù)據(jù)上同時運(yùn)行不同類型的分析工作。

那一周，有媒體整理了Hadoop這十年來的數(shù)據(jù)變化：核心Hadoop中目前的代碼行數(shù)為170萬+、自2006年來對Hadoop的提交數(shù)量超過12000、自2006年來對核心Hadoop的代碼貢獻(xiàn)者有800+、Hadoop生態(tài)系統(tǒng)中的項(xiàng)目數(shù)量從2006年的2個到了25個。

一個月后，雅虎在二月底發(fā)布了CaffeOnSpark人工智能的源代碼，正式開源這一新的人工智能項(xiàng)目。Yahoo在科技方面的實(shí)力大概鮮有人知，其實(shí)，開源Hadoop就是Yahoo孵化的，F(xiàn)acebook、Twitter 以及其他不少公司都在用這個數(shù)據(jù)處理平臺。

CafffeOnSpark的根基是深度學(xué)習(xí)，之前在基于Hadoop集群的大規(guī)模分布式深度學(xué)習(xí)一文中，雅虎就曾介紹，其集Caffe和Spark之長開發(fā)CaffeOnSpark用于大規(guī)模分布式深度學(xué)習(xí)。雅虎認(rèn)為，深度學(xué)習(xí)應(yīng)該與現(xiàn)有的，支持特征工程和傳統(tǒng)(非深度)機(jī)器學(xué)習(xí)的數(shù)據(jù)處理管道在同一個集群中，創(chuàng)建CaffeOnSpark意在使得深度學(xué)習(xí)訓(xùn)練和測試能被嵌入到Spark應(yīng)用程序中。

一季度Hadoop、Spark大事件整理

說到近期大數(shù)據(jù)領(lǐng)域的紅人就不得不提到Spark，近年人氣急劇攀升的Spark在今年更是動作頻頻，一月初剛剛發(fā)布了大版本1.6，三月又爆出2.0版本即將上線。

此外，在二月底舉行的Spark東部峰會上，硅谷最火的大數(shù)據(jù)初創(chuàng)公司Databricks也就內(nèi)存內(nèi)數(shù)據(jù)處理工具Spark的未來發(fā)展方向做了探討，以及發(fā)布了一系列相關(guān)提示。Databricks公司由來自Berkeley和MIT的Spark原班團(tuán)隊(duì)創(chuàng)立，作為Spark項(xiàng)目背后的核心商業(yè)支持方，它在該項(xiàng)技術(shù)成果的演進(jìn)道路上扮演著重要角色。

Databricks公司CTO兼Spark創(chuàng)始人MateiZaharia談到即將出爐的Spark2.0時提到，該版本將會有三大核心轉(zhuǎn)變：利用Tungsten項(xiàng)目的下一發(fā)展階段解決Java內(nèi)存處理局限，從而加快Spark運(yùn)行速度;將Spark改進(jìn)為一套實(shí)時數(shù)據(jù)流系統(tǒng);將Spark當(dāng)前使用的結(jié)構(gòu)化數(shù)據(jù)API(包括Dataset與DataFrame)統(tǒng)一為單一API。

而在演講中未被提及，但卻廣受Spark支持者關(guān)注的一項(xiàng)細(xì)節(jié)在于，Spark要如何進(jìn)一步與ApacheArrow加以結(jié)合——這一全新項(xiàng)目旨在為列式數(shù)據(jù)提供內(nèi)存內(nèi)版本，從而實(shí)現(xiàn)快速訪問成效。

三月初，思科宣布計(jì)劃未來三年在德國投資5億美元，以及設(shè)立1.5億美元的創(chuàng)新基金來幫助強(qiáng)化旗下的Spark服務(wù)，挑戰(zhàn)企業(yè)通訊服務(wù)商Slack Technologies。思科一直在試圖使得自有的協(xié)作工具Spark勝過廣受歡迎的Slack服務(wù)。

同樣在三月初，Hortonworks,Inc.(NASDAQ: HDP)和Hewlett Packard Enterprise(NYSE: HPE)的核心研究組織Hewlett Packard Labs宣布了一項(xiàng)新合作，攜手增強(qiáng)最活躍的Apache大數(shù)據(jù)項(xiàng)目之一的Apache Spark。此次合作將側(cè)重于一個全新類別的分析工作，這種分析工作將受益于大量的共享內(nèi)存。并且公布了合作的早期成果：更強(qiáng)傳送引擎技術(shù)，能夠更快排序和內(nèi)存計(jì)算;更好的內(nèi)存使用，能夠用更佳性能和使用來實(shí)現(xiàn)更廣泛的可升級性。

另外，Hortonworks和Hewlett Packard Enterprise計(jì)劃為Apache Spark社區(qū)帶來新技術(shù)。

最后還有一些開源信息，Google在去年底開放了深度學(xué)習(xí)網(wǎng)絡(luò)TensorFlow的源代碼；去年十二月，F(xiàn)acebook分享了人工智能硬件設(shè)計(jì)；一月，百度開源關(guān)鍵人工智能(AI)軟件Warp-CTC，公開了關(guān)鍵代碼；同期，Microsoft也開放了類似的網(wǎng)絡(luò)CNTK，中國搜索引擎巨頭百度也公開了深度學(xué)習(xí)訓(xùn)練軟件。

關(guān)鍵字：dataset Caffe