本文將分以下幾個部分進行盤點。
一、里程碑事件
二、開源項目(國際篇)
三、業界動態(國際篇)
四、開源項目(國內篇)
五、業界動態(國內篇)
六、下半年展望
七、周報集錦
里程碑事件
Hadoop 10歲了!
Hadoop誕生10年了。2006年1月28日,Doug Cutting和Mike Cafarella從他們的開源網絡爬蟲項目(Apache Nutch)中分離出分布式文件系統以及MapReduce設施,把它當作一個子項目,并稱其為Hadoop。Doug Cutting發表了 Apache Hadoop at 10 ,他動情地回顧了自己與Hadoop故事,并提出了對未來的展望。
開源項目(國際篇)
4月為Facebook Messager發布了基于bot的開發者平臺:聊天機器人的目標是最終取代應用。用戶不再需要在自己的設備上安裝各種應用,而是使用Messenger來和各種的聊天機器人交互,從而完成各種任務,目前這些任務都是通過觸屏界面由各種應用完成的。聊天機器人主要是依賴語音信息以及人工智能來完成指令
5月第一次正式介紹了 FBLearner Flow ,這是一個可以為全公司員工管理機器學習模型的機器學習軟件。換句話說,這是一個可以自己制造人工智能的人工智能,你可以理解為傳說中的人工智能母體
6月
開源 深度學習框架 Torchnet ,相比其他巨頭自己搭建的深度學習框架,Torchnet 更加開放,也將大幅推進深度學習的應用普及
發布 文本理解引擎DeepText ,Facebook表示,DeepText能夠以“接近人類的精確度”,理解人們的聊天內容。另外,依托后臺的計算能力,這一工具每分鐘能夠分析、識別數千條網友評論或是聊天內容。在語種方面,這一工具已經能夠分析20多種語言
3月 開源數據挖掘軟件WhereHows :從商業角度講,WhereHows的目標是從分布式的多種元數據中進行挖掘
4月開源 Hadoop 和Spark的性能監控和調優工具——Dr. Elephant :LinkedIn宣布開源Dr. Elephant,Dr. Elephant能夠很好地幫助用戶理解、分析和優化Hadoop和Spark的工作流。LinkedIn在去年第八屆Hadoop Summit上第一次在社區呈現。
6月
開源 分布式對象存儲系統 Ambry ,Ambry是一個是不可變對象的存儲系統,非常易于擴展,它能夠存儲KB到GB大小的不可變對象,并且能夠實現高吞吐和低延遲,該系統支持跨數據中心的雙活部署,并且存儲成本低廉。它特別適于存儲各種媒體內容
開源 機器學習庫Photon :Photon機器學習支持Apache Spark,通過結合Spark快速處理海量數據的能力和強大的模型訓練和診斷工具,Photon機器學習提供給研究型工程師更多的信息來決策使用哪類推薦系統算法
Amazon
5月 開源 深度學習框架DSSTNE :亞馬遜對于這套軟件的性能很有信心,聲稱在亞馬遜的云計算平臺上,DSSTNE 比谷歌等競爭對手的計算速度快了 2.1 倍
2月發布 TensorFlow Serving開源項目 ——更快的將深度學習模型產品商業化:Google軟件工程師Noah Fiedel在博文中介紹,“TensorFlow Serving是一個高性能、開源的機器學習服務系統,為生產環境及優化TensorFlow而設計。它更適合運行多個大規模模型,并支持模型生命周期管理、多種算法實驗及有效地利用GPU資源。TensorFlow Serving能夠讓訓練好的模型更快、更易于投入生產環境使用
3月發布 云端機器學習和Tensor Flow的Alpha測試版本 :Google發布了alpha版本的TensorFlow(TF)集成云端機器學習服務,為回應不斷增長的大規模在Google云端平臺(GCP)運行Tensor Flow庫的需要
5月開源 全球最精準自然語言解析器SyntaxNet :Google已經發布了開源的SyntaxNet自然語言神經網絡框架,以幫助機器更好地理解自然語言。SyntaxNet中包括了Parsey McParseface,后者是一種專門用于“解剖”英語的語言解析器。Google稱之為世界上最準確的語言解析器,并且已經放出了允許人們借助自有數據來訓練SyntaxNet的全部代碼
5月
正式開源Heron :去年,Twitter對外宣布了新的分布式流計算系統Heron,隨后消息稱Twitter已經用Heron替換了Storm。據文中介紹,Heron支撐Twitter的所有實時分析業務已經有兩年多了。它替代了之前使用的Apache Storm系統。Heron有很多架構方面的改進,而且向后兼容Storm生態系統
開源分布式高性能 日志復制服務DistributedLog :DL是一個高性能的日志復制服務,提供了持久化、復制以及強一致性的功能,這對于構建可靠的分布式系統都是至關重要的,如復制狀態機(replicated-state-machines)、通用的發布/訂閱系統、分布式數據庫以及分布式隊列
其他開源
Apache Beam將統一大數據平臺的開發 :一直以來,大數據開發涉及到各種框架,比如,Hadoop、Storm、Spark和Flink等,基于這些框架的開發要求的技術棧都各不同,這對開發者來說開發成本比較高,在Beam的統一下可以實現寫一個程序既能在Hadoop中運行又可在Spark中運行
Apache Apex成為Apache頂級項目 :Apache Apex是基于Hadoop的流處理和批處理引擎,目前成為Apache頂級項目
Microsoft開源其深度學習工具包CNTK :CNTK是一個統一的深度學習工具包,它通過一個有向圖將神經網絡描述為一系列計算步驟。在有向圖中,葉節點表示輸入值或網絡參數,邊表示輸入之上的矩陣運算。CNTK使得實現和組合前饋型神經網絡DNN、卷積神經網絡(CNN)和循環神經網絡(RNNs/LSTMs)變得非常容易。實現了支持跨多個GPU和服務器自動分化和并行化的隨機梯度下降(SGD)學習
雅虎開源可以提升流操作速度的DataSketches :就像在Venture Beat上所宣布的那樣,雅虎開源了DataSketches,這是一個用Java編寫的隨機流算法庫。DataSketches允許進行通常來說開銷很大的操作,像計算變量不同的值在流中出現的次數,而且消耗的時間少,占用的內存小,誤差可預測
雅虎開源CaffeOnSpark:基于Hadoop/Spark的分布式深度學習 :雅虎認為,深度學習應該與現有的支持特征工程和傳統(非深度)機器學習的數據處理管道在同一個集群中,創建CaffeOnSpark意在使得深度學習訓練和測試能被嵌入到Spark應用程序
OpenAI發布開源人工智能研究工具集OpenAI Gym :該工具集用于開發和對比強化學習(RL)算法,這是現代機器學習研究的基礎
DeepDetect——機器學習框架的API統一 :DeepDetect是一個專為深度學習的開源API和服務。它的API簡單直觀、易用、通用和易擴展
聯合國平行語料1.0版發布 :聯合國平行語料1.0版發布,包括阿英西法俄中六種語言,總共15個語言對,語料包含了1990-2014年的數據,規模都在1500萬個句對以上
業界動態(國際篇)
人工智能再顯身手,谷歌AlphaGo戰勝李世石 :Google旗下DeepMind出品的AlphaGo連勝三局(五局三勝制)戰勝韓國職業棋手圍棋九段李世石。這將是人工智能領域的又一里程碑事件
微軟大手筆收購LinkedIn讓谷歌壓力山大,這個搜索巨頭將選擇如何應對? :收購LinkedIn后,微軟相當于為自己的軟件推銷策略找到了一個能夠加快“變現”的強大助力——一個容納了超過400萬用戶的社會數據集
eBay大數據新動作:收購瑞典大數據公司 :為了更好地組織產品數據以及使平臺上產品更容易找到,eBay公司收購了一家專注人工智能,機器學習和大數據分析的瑞典公司
亞馬遜AWS推出人工智能服務:與微軟谷歌競爭 :亞馬遜舉行發布會宣布,旗下云服務Amazon Web Services(以下簡稱“AWS”)增加人工智能服務,可以讓開發者在應用中增加預測和分析功能
谷歌在歐洲創建新的人工智能團隊,專注機器學習 :谷歌在一篇博文里宣布,他們在歐洲建立了一個的新的人工智能研究團隊,專注機器學習(ML)。歐洲的 Google Research (一個團隊),以位于瑞士蘇黎世的谷歌辦公室為基地,這里也是美國以外谷歌最大的工程辦公室的故鄉
Microsoft 2016年Build大會:納德拉將賭注押在人工智能上 :在此次大會上,納德拉的主題演講以Cortana和人工智能為中心展開。他介紹了微軟的Bot框架(Microsoft Bot Framework)和新的認知服務(Cognitive Services)等最新進展
Facebook 帝國:手握十年路線圖,AI及VR將成兩大支柱 :規劃展示了工程 + 研究的取向,可以預計Facebook會通過一些工程類的落地項目,不斷積累數據、資金和用戶,催生人工智能和虛擬現實產品,并最終改變人機交互形式
Google I/O 2016——人工智能真正的起點 :這次發布會可以說是有史以來內容分布最廣的一屆,覆蓋了人工智能、物聯網、車載系統、搜索、廣告、軟件、移動系統和虛擬現實等多個熱門的方向和領域
Twitter收購Magic Pony Technology,利用神經網絡優化圖片和視頻 :Twitter 在強化機器學習技術方面又邁出了重要一步,他們收購了Magic Pony Technology公司,幫助其在各渠道App上更好地提供圖片和視頻內容服務
Salesforce 收購人工智能創業公司 MetaMind :MetaMind 的通用平臺能預測語言、視覺和數據庫任務的結果
谷歌搜索集成RankBrain算法優化網頁排名 :據搜索引擎研究網站Search Engine Land報道,近日搜索引擎巨頭Google為自家搜索服務深度集成了新型算法RankBrain。RankBrain算法是Google基于機器學習人工智能技術開發出來的最新算法,真正解決“看起來比較復雜、陌生或有歧義的語句搜索”,專門用來優化搜索引擎的網頁排名
現在Google制造自己的芯片,Intel要發瘋 :Google的目標始終未變:空前的高效。為了讓AI技術躍上一個新高度,他們需要一種能在更低能耗前提下,用更短時間完成更多任務的芯片。但這個芯片所產生的效果已經超越了Google帝國本身,甚至讓Intel和nViaia這樣的商業化芯片制造商的未來受到威脅,尤其是考慮到Google對于未來的愿景
英偉達20億美元豪賭人工智能 :20億美元是什么概念?英偉達去年全年的營業收入也才50億美元出頭,所以英偉達用了幾乎一半的全年收入投入到這一款芯片的研發中,這背后的原因是,英偉達看中了人工智能領域未來的發展
AWS發布關系型數據庫遷移服務 :這個按需使用的云服務支持實時的遷移場景,借助無模式的轉換工具,在遷移過程中,用戶可以使用該服務切換數據庫平臺
數據分析初創企業ThoughtSpot獲5000萬美元C輪融資 :ThoughtSpot是一家商業智能軟件提供商,總部位于加州PaloAlto,由準備上市的云計算公司Nutanix的聯合創始人Ajeet Singh成立于2012年。ThoughtSpot號稱是全球第一款關系型搜索引擎
新加坡大數據公司Lynx Analytics拿到1000萬美元投資,但是他們早就盈利了 :Lynx Analytics目前主要為企業提供大數據分析,運用圖論理論將各種信息來源匯聚一起并施加分析,從而幫助企業精準刻畫出其消費者畫像,進而幫助企業推出客戶所喜愛的產品并進行針對性地營銷
谷歌新研究項目Magenta:利用人工智能創作藝術 :Magenta用來探索利用人工智能來創作藝術,同時為開源人工智能平臺TensorFlow的用戶簡化這一過程
網站和移動應用數據分析公司Amplitude完成1500萬美元B輪融資 :Amplitude是一家網站和移動應用數據分析公司,旨在幫助客戶更好地驅動用戶留存、活躍和轉化
谷歌人工智能系統TensorFlow開始支持iOS :繼2015年11月9日Google發布人工智能(AI)系統平臺TensorFlow并宣布開源后,近日谷歌再次針對iOS系統平臺發布了特別版TensorFlow。據稱,特別版TensorFlow將首先登陸iPhone,屆時iPhone將可以運行更為復雜的應用
內存數據庫MemSQL獲3600萬美元C輪融資 :MemSQL是一種分布式內存數據庫,可提供對大數據的實時分析功能,能同時支持 SQL 與 JSON 非結構化數據,像Apache
Spark,、Kafka一樣,MemSQL也支持大數據的實時分析。不過不同的是盡管MemSQL提供有免費版本的數據庫,但它本身是不開源的
綜合
Hadoop Summit 2016:2016年4月,都柏林的Liffey河畔,Hadoop Summit 2016在Convention會展中心盛大開幕。大會主要議程歷時2天,有100多場演講,與會者超過1400人。主要內容包括Apache Committer洞察、數據科學、運營管理、開發技術、數據商務、物聯網、Hadoop未來幾大系列。我們為您做了一些梳理,參見: Hadoop Summit 2016歐洲峰會開幕Keynote回顧 , Hadoop Summit 2016會場回顧(二) , Hadoop Summit 2016會場回顧(三) , Hadoop Summit 2016會場回顧(最終篇)
Spark Summit 2016:Spark峰會是Spark領域內規模最大、最具影響力的工業會議。2016年的Spark峰會上,眾多業界大咖為我們帶來了Spark 2.0、機器學習、人工智能等方面的精彩演講。參見: 《Spark舊金山峰會側記》
Google, Facebook, Amazon, Apple的人工智能之爭——收購AI開發團隊 :在過去的三年內,已經有超過六成的人工智能開發公司陸續獲得了贊助。就僅僅在 2016年,已經出現了4次重要的大型公司競購
我們盤點了YC 投資的15個人工智能項目,發現了這3個特點 :2016 年 YC 開始砸向人工智能了,我們盤點了 YC 投資的 15 個人工智能企業,并試圖從中發現產業的趨勢
開源項目(國內篇)
國內方面,目前在大數據和機器學習方面的開源較少,潛力巨大。比較令人振奮的大事是,去年阿里巴巴正式加入Apache基金會,并將JStorm項目捐贈給后者。 Apache Storm 2.0將基于JStorm 。JStorm是中國第一個進入Apache核心產品的開源項目,對于中國的開源發展來說意義重大。
百度開源其人工智能系統:Warp-CTC :該系統是一種在CPU和GPU上快速的CTC的并行實現。這項舉動舉動對于促進機器學習、人工智能領域的技術研究與發展與有重要意義
華為Carbondata成為 Apache Incubator(孵化器)項目》 :Carbondata的目標是創建一種新的Hadoop文件格式,只用一份數據,滿足多樣化的數據查詢需求,包括順序讀,OLAP查詢,隨機讀
業界動態(國內篇)
巨頭搶灘無人駕駛 “按捺不住”的百度將在美國測試無人車 :百度首席科學家吳恩達接受采訪時稱,百度很快就將在美國測試無人駕駛汽車,希望能在2018年前推出無人駕駛商用車型
京東成立JDX事業部 包含無人機及倉儲機器人項目 :京東JDX事業部囊括京東全自動物流中心、京東無人機、京東倉儲機器人及京東自動駕駛車輛送貨等一系列智能物流項目,對行業前沿、高端的智能設備、智慧系統進行研究與創新
滴滴機器學習研究院升級為滴滴研究院 何曉飛任院長 :目前,滴滴研究院的研究方向包括:機器學習、計算機視覺、人工智能、數據挖掘、最優化理論、分布式計算等
科大訊飛4.96億元收購樂知行,推動大數據與人工智能結合 :公開資料顯示,北京樂知行軟件有限公司成立于 2011年,是一家為中小學教育提供教育信息化整體解決方案的提供商。該公司利用云計算、大數據和移動聯網技術,建立包括了數字校園、教育云平臺、互聯網教育和教育物聯網在內的四大產品體系
華誼嘉信1.48 億美元收購Smaato,打造“大數據+大內容”營銷體系 :屆時,公司將借助其多年來在移動廣告領域的經驗與優勢,以及Smaato擁有的實時競價技術和全球投放數據資源,全面推動華誼嘉信大數據營銷與數字營銷戰略,打出“大數據+大內容”組合拳
達觀數據獲真格領投1000萬天使投資,專注企業大數據服務 :達觀數據創立于2015年, 是一家專注于大數據技術的高科技公司,為企業提供最專業的數據采集和深度挖掘、用戶畫像、智能推薦、搜索等SaaS服務,幫助企業實現基于大數據的營銷,降低企業成本提高企業效益
中國廠商星環科技被Gartner列為國際主流Hadoop發行版廠商 :國際著名咨詢機構Gartner發布了Hadoop發行版市場指南《Market Guide for Hadoop Distribution》1。星環科技入選為六家Hadoop發行版軟件代表廠商之一
京東金融投資大數據公司數庫 :數庫是一家金融產業大數據服務公司,致力于解剖非結構化或半結構化大數據,為個人金融投資、企業決策、產業升級提供了全面和精準化的服務
“神策數據”獲400萬美元A輪,由紅杉領投 :神策數據面向中小企業提供私人定制方案,幫助企業做用戶行為的深度分析
第三方云推送平臺“極光推送”完成千萬美金C輪融資 :成立于2011年的“極光推送”是一家移動大數據服務平臺,主要利用大數據、云計算技術為用戶提供移動消息推送服務,是一家第三方平臺
下半年展望
大數據
最值得期待的莫過于Hadoop 3.0和Spark 2.0正式版的發布。
參見: Hadoop 3.0新特性預覽 和 Spark 2.0 預覽:更簡單,更快,更智能 。
人工智能
隨著國內外科技巨頭在人工智能“軍備競賽”的日趨白熱化,我們有理由相信,下半年會有更多令人振奮的項目/產品面世,敬請期待。