計(jì)算機(jī)視覺(jué)已經(jīng)是日常生活的一部分。借助這種技術(shù),F(xiàn)acebook可以識(shí)別你上傳到社交網(wǎng)絡(luò)的照片上的人物;Google Photo能夠自動(dòng)在收藏行列中找出特定的圖片,以及識(shí)別出各種各樣的東西……這樣的應(yīng)用已經(jīng)在互聯(lián)網(wǎng)中流行已久。
所有這些“識(shí)別”都源自于一種被稱為深度學(xué)習(xí)的人工智能技術(shù)。但就在這種技術(shù)被大肆炒作的幾年時(shí)間中,來(lái)自微軟研究院的一項(xiàng)新實(shí)驗(yàn)證明這只是人工智能的開(kāi)始——深度學(xué)習(xí)還可以更深度。
深層神經(jīng)網(wǎng)絡(luò)的突破:152個(gè)層級(jí)
計(jì)算機(jī)視覺(jué)革命是一場(chǎng)持久的斗爭(zhēng)。2012年,這項(xiàng)技術(shù)迎來(lái)了關(guān)鍵的轉(zhuǎn)折點(diǎn),那時(shí)加拿大多倫多大學(xué)人工智能研究者贏得了一場(chǎng)叫作ImageNet的比賽。ImageNet讓一群機(jī)器PK圖像內(nèi)容識(shí)別,對(duì)圖片中的小貓、小狗和白云,看看哪臺(tái)計(jì)算機(jī)的識(shí)別準(zhǔn)確率更高。當(dāng)時(shí),由研究員Alex Krizhevsky和教授Geoff Hinton組成的多倫多大學(xué)團(tuán)隊(duì)在比賽中使用了深層神經(jīng)網(wǎng)絡(luò)技術(shù),這種技術(shù)的算法可以讓機(jī)器基于目前最大的圖像數(shù)據(jù)庫(kù)進(jìn)行分類識(shí)別,而不是依靠人為制定的規(guī)則。
多倫多大學(xué)團(tuán)隊(duì)使用非監(jiān)督的逐層貪心訓(xùn)練算法取得的成果,為訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)帶來(lái)了希望。從那時(shí)候開(kāi)始,包括Facebook、Google、Twitter和微軟在內(nèi)的互聯(lián)網(wǎng)巨頭紛紛開(kāi)始使用相似的科技來(lái)建造自己的計(jì)算機(jī)視覺(jué)系統(tǒng)。微軟研究院主管Peter Lee表示:“還不能說(shuō)我們的系統(tǒng)能夠像人類眼睛一樣進(jìn)行觀察,但我敢說(shuō),在某些特定的、狹義的任務(wù)上,計(jì)算機(jī)視覺(jué)可以媲美人類。”
粗略地說(shuō),神經(jīng)網(wǎng)絡(luò)兼用硬件和軟件來(lái)模擬近似人類的大腦神經(jīng)元網(wǎng)絡(luò)。這個(gè)想法誕生于上世紀(jì)80年代,但直到2012年,Krizhevsky和Hinton基于圖像處理單元、GPU運(yùn)行的神經(jīng)網(wǎng)絡(luò)技術(shù)才算真正地推動(dòng)了這項(xiàng)技術(shù)的發(fā)展。這些專門的處理器和其他高度圖形化軟件最初都是為了游戲中的圖像渲染而設(shè)計(jì),但事實(shí)證明,它們也適合于神經(jīng)網(wǎng)絡(luò)。Google、Facebook、Twitter、微軟等公司如今都使用GPU來(lái)驅(qū)動(dòng)人工智能來(lái)處理圖像識(shí)別,以及包括互聯(lián)網(wǎng)搜索、安全防御等其他任務(wù)。現(xiàn)在,Krizhevsky和Hinton都已經(jīng)加入了Google。
如今,最新一屆ImageNet的贏家正在探求計(jì)算機(jī)視覺(jué)的下一個(gè)突破點(diǎn)——以及人工智能更加廣泛的應(yīng)用。上個(gè)月,微軟研究院團(tuán)隊(duì)摘得了ImageNet的桂冠,他們使用了一個(gè)“深層殘差系統(tǒng)”來(lái)指導(dǎo)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)。目前普遍使用的神經(jīng)網(wǎng)絡(luò)層級(jí)能夠達(dá)到20到30層,在此次挑戰(zhàn)賽中該團(tuán)隊(duì)?wèi)?yīng)用的神經(jīng)網(wǎng)絡(luò)系統(tǒng)實(shí)現(xiàn)了152層。ImageNet挑戰(zhàn)賽去年獲勝的系統(tǒng)錯(cuò)誤率為6.6%,而今年微軟系統(tǒng)的錯(cuò)誤率已經(jīng)低至3.57%。
而這也表明,在未來(lái)幾年里,利用大型的GPU集群和其他專屬的處理器,我們不僅能夠改善圖像識(shí)別,而且還能解決對(duì)話識(shí)別、自然語(yǔ)言理解等人工智能服務(wù)。換句話說(shuō),目前深度學(xué)習(xí)所能達(dá)到的發(fā)展程度愈加接近其本應(yīng)具有的潛力了。Lee表示,微軟正致力于發(fā)掘更巨大的設(shè)計(jì)空間。
深度神經(jīng)網(wǎng)絡(luò)以“層”的形式分布。每一層都具有不同系列的運(yùn)算——也就是算法。某一層的輸出會(huì)成為下一層的輸入。籠統(tǒng)地說(shuō),如果一個(gè)神經(jīng)網(wǎng)絡(luò)是設(shè)計(jì)用來(lái)進(jìn)行圖像識(shí)別的,其中某一層神經(jīng)將負(fù)責(zé)尋找圖片的一系列特性——邊、角、形狀或者紋理——而下一層神經(jīng)則負(fù)責(zé)尋找另一個(gè)系列的特性。這些層級(jí)就構(gòu)成了神經(jīng)網(wǎng)絡(luò)的”深度“。負(fù)責(zé)監(jiān)督ImageNet大賽的北卡羅來(lái)納大學(xué)研究員Alex Berg介紹:“一般而言,神經(jīng)網(wǎng)絡(luò)越深度,機(jī)器學(xué)習(xí)就越容易。”
所以,微軟研究院團(tuán)隊(duì)?wèi)?yīng)用的152層神經(jīng)網(wǎng)絡(luò)系統(tǒng)能夠識(shí)別出更多的對(duì)象屬性,大大提高了圖像識(shí)別的準(zhǔn)確率。“它們可以學(xué)習(xí)到更多微妙的東西。”
事實(shí)上,過(guò)去這種很深的神經(jīng)網(wǎng)絡(luò)并不可行。部分原因是,在通過(guò)每一層級(jí)的反傳訓(xùn)練中,反傳監(jiān)督信號(hào)幅度會(huì)迅速衰減甚至消退,這讓整個(gè)神經(jīng)網(wǎng)絡(luò)系統(tǒng)的訓(xùn)練極為困難。根據(jù)Lee的介紹,微軟通過(guò)使用深度殘差網(wǎng)絡(luò)解決了這個(gè)困難——這個(gè)深度殘差網(wǎng)絡(luò)可以在不需要時(shí)跳過(guò)某些層級(jí),而需要用到時(shí)又可以重新拾回。“跳過(guò)某些不需要的層級(jí),有助于保持反傳監(jiān)督信號(hào)的幅度。”“殘差學(xué)習(xí)”最重要的突破在于重構(gòu)了學(xué)習(xí)的過(guò)程,并重新定向了深層神經(jīng)網(wǎng)絡(luò)中的信息流,很好地解決了此前深層神經(jīng)網(wǎng)絡(luò)層級(jí)與準(zhǔn)確度之間的矛盾。
Berg表示,這個(gè)新的設(shè)計(jì)不同于以往的神經(jīng)網(wǎng)絡(luò)系統(tǒng),相信其他大公司和研究者都會(huì)效仿。
“深層”的困難
另一個(gè)問(wèn)題是,構(gòu)建這樣一個(gè)宏大的神經(jīng)網(wǎng)絡(luò)是非常困難的。落地于一套特定的算法——決定每一個(gè)層級(jí)應(yīng)該如何運(yùn)作、如何與下一個(gè)層級(jí)進(jìn)行傳遞——可以說(shuō)是一個(gè)史詩(shī)級(jí)的任務(wù)。不過(guò),在這里微軟同樣有個(gè)訣竅——它設(shè)計(jì)了一個(gè)計(jì)算系統(tǒng),可以幫助構(gòu)建這些神經(jīng)網(wǎng)絡(luò)。
微軟研究院團(tuán)隊(duì)成員之一孫堅(jiān)解釋稱,研究人員可以為大規(guī)模的神經(jīng)網(wǎng)絡(luò)尋找出可行的排列,然后系統(tǒng)可以對(duì)一系列相似的可能性進(jìn)行循環(huán)運(yùn)算,直到計(jì)算出最有效的排列。“大多數(shù)情況下,在經(jīng)過(guò)一定次數(shù)的嘗試后,研究人員會(huì)從中總結(jié)、反饋,然后為下一輪的嘗試給出新的決策。我們可以將這種方式成為 人工輔助搜索 。”
深度學(xué)習(xí)創(chuàng)業(yè)公司Skymind首席研究員Adam Gibson表示,這樣的做法越來(lái)越流行,“這叫做 超參數(shù)優(yōu)化算法 。”“人們可以加速機(jī)器集群的運(yùn)算,一次同時(shí)運(yùn)行10個(gè)模型,然后找出效果最優(yōu)的一個(gè)。”
“歸根結(jié)底是一個(gè)關(guān)于硬件的問(wèn)題”
按照孫堅(jiān)和Peter Lee的描述,這種方法并不是在這個(gè)問(wèn)題上“蠻干”。“在有著大量的計(jì)算資源后,系統(tǒng)自然就可以計(jì)算出一個(gè)龐大的組織,然后在這個(gè)具有無(wú)限可能的空間內(nèi)進(jìn)行搜索。只是,目前世界上還具備這樣充足的計(jì)算資源,因此我們主要還是依靠像孫堅(jiān)這樣聰明的研究員。”
但Lee強(qiáng)調(diào)說(shuō),多虧了新的技術(shù)以及計(jì)算機(jī)數(shù)據(jù)中心,才使得發(fā)展深度學(xué)習(xí)有了巨大的可能性。如今,微軟的重要任務(wù)之一是創(chuàng)造出開(kāi)發(fā)這些可能性的時(shí)間和計(jì)算機(jī)系統(tǒng)。這就是微軟為何不僅努力改進(jìn)GPU集群的運(yùn)算能力,還開(kāi)發(fā)其他諸如現(xiàn)場(chǎng)可編程門陣列(FPGA)等專用處理器的原因之一。而除此之外,微軟研究員還需要開(kāi)發(fā)更多試驗(yàn)性的硬件平臺(tái)。
如Gibson所言,深度學(xué)習(xí)愈加變成為一個(gè)“硬件問(wèn)題”。確實(shí),我們?nèi)孕枰呒?jí)研究員來(lái)指導(dǎo)神經(jīng)網(wǎng)絡(luò)的構(gòu)建,但所謂尋找新的途徑更多地是開(kāi)發(fā)適用于更多硬件平臺(tái)的新算法,而更多更好的硬件支撐可以說(shuō)是一個(gè)捷徑。