ImageNet數(shù)據(jù)庫中的iPod圖片
北京時間12月11日消息,據(jù)科技博客VentureBeat報道,在第六屆ImageNet年度圖像識別測試中,微軟研究院的計算機圖像識別系統(tǒng)在幾個類別的測試中拔得頭籌,擊敗了谷歌、英特爾、高通、騰訊以及一些創(chuàng)業(yè)公司和學術(shù)實驗室的系統(tǒng)。ImageNet是全球最大的圖像識別數(shù)據(jù)庫。
微軟的獲勝系統(tǒng)名為“圖像識別的深度殘差學習”(Deep Residual Learning for Image Recognition),由微軟研究員何愷明、張祥雨、任少卿和孫劍組成的團隊開發(fā)。微軟稱,公司將在未來發(fā)表的論文中詳細介紹這一系統(tǒng)。
考慮到這項技術(shù)的復雜性,它可以稱得上一項了不起的成就。“我們對神經(jīng)網(wǎng)絡的訓練深度超過了150層,”該團隊稱,“我們提出了一個‘深度殘差學習’框架,它能夠減少優(yōu)化,整合極深度網(wǎng)絡。當網(wǎng)絡的深度在之前基礎上顯著加深時,我們的’深度殘差網(wǎng)絡’的準確率就會提升。這種準確率的提升是很多普通網(wǎng)絡在加深時無法達到的。”
科技公司現(xiàn)在十分熱衷于深度學習領(lǐng)域的研究,他們希望借此改進自主內(nèi)部系統(tǒng)及其消費級產(chǎn)品。深度學習是高性能網(wǎng)絡的核心,涉及在照片等大數(shù)據(jù)基礎上訓練人工智能神經(jīng)網(wǎng)絡,然后向它們提供新數(shù)據(jù),獲得推斷結(jié)果。
微軟已經(jīng)通過幾款有趣的應用展示了公司在人工智能領(lǐng)域的實力,比如“我看起來有多大”(How Old Do I Look?)、“我的胡子怎么樣”(How’s My Moustache Doing?)。微軟還建立了Project Oxford項目,以實現(xiàn)圖像識別技術(shù)的商業(yè)化。
ImageNet要求參賽系統(tǒng)對來自圖片分享網(wǎng)站Flickr和搜索引擎的10萬張照片進行精確定位,然后盡可能準確地將他們劃分到1000種目標類別下,包括狼蛛、iPod、清真寺、玩具店、調(diào)制解調(diào)器等。
微軟獲勝系統(tǒng)的分類錯誤率為3.5%,定位錯誤率為9%。過去幾年,谷歌、創(chuàng)業(yè)公司larifai、NEC一直在圖像分類準確率上占先。
微軟的系統(tǒng)今年還在ImageNet的目標偵測測試中占據(jù)第一位。“甚至連我們自己都不相信這種單一想法能夠取得這么好的效果,”孫劍稱。
百度并未參與今年的ImageNet測試。去年,百度的測試存在違規(guī)行為,采用了密集測試的方法以提高成績。百度隨后道歉,并解雇了團隊負責人。百度因此被禁止提交測試成績1年。
在這次測試中,IBM提供了SoftLayer公有云服務供參賽團隊使用,使用的是英偉達的圖形處理器。