要理解人工智能的歷史,我們得先回到1995年。
彼時,一名年輕的法國人Yann Lecun花了10多年時間做一件事:模仿大腦的某些功能來打造人工智能機器。這件事在許多計算機科學家看來是一個壞主意,但Lecun的研究已經表明,這種做法可以造出智能而且真正有用的產品。
在貝爾實驗室工作期間,他開發出了一些模擬神經元的軟件,通過讀取不同的例子來辨識手寫文本。而貝爾實驗室的母公司——AT&T,也用利用這門技術,開發出了第一臺可以讀取支票和書寫筆跡的機器。對于Lecun和人工神經網絡的信徒們來說,這似乎是一個新時代的開始,標志著機器可以學習以前僅屬于人類的技能。
只是對于Lecun而言,這項成果取得成功之時也是這個項目走向盡頭的時候。為了開拓不同的市場,AT&T宣布分拆成三家不同的公司。他們打算讓 Lecun做一些其他的研究,于是他離職去了紐約大學任教職。與此同時,其他地方的研究人員也發現,他們無法把Lecun的突破應用于計算問題,隨后人們對于將大腦模擬的方法應用于AI研究的熱情也逐漸開始減退。
雖然對于現在已經55歲的Lecun而言,他從來沒有停止探索人工智能的步伐。在被無情拒絕了20年有余后,Lecun等人終于在人臉和語音識別等領域取得了驚人的成就。如今在科技領域人盡皆知的深度學習,已經成為Google等科技公司新的戰場,他們急不可耐地想將其應用于商業服務。Facebook在2013年聘用了Lecun,讓其管理由50多人組成的人工智能研究團隊——FAIR。對于Facebook而言,Lecun的團隊是其第一筆基礎研究投資,可能讓公司從社交網絡的定位中走出來,并且很可能會讓我們對機器能做的事情有重新的認識。
雷鋒網多次報道,Facebook等公司在近幾年急不可耐地投身于這一領域,主要是因為在計算機識圖等領域,深度學習技術比之前的AI技術要先進得多。在以前,研究人員需要編寫大量的程序來賦予機器能力,例如偵測出圖片中的線條和直角。但深度學習軟件則能自己理解和利用數據,不需要借助這種程序。基于這一理論開發出的一些程序,精確度已經可以和人類相媲美。
現在Lecun在研究更加有力的東西,他打算賦予軟件完成基礎對話的語言能力和常識。在進行搜索時,我們可以直接告訴機器我們想要的是什么,就像和人交流一樣,而不用小心思考要輸入檢索的內容。深度學習讓機器擁有了理解和交流的能力,能辨明和回答問題并且給予我們建議。其應用之一就是可以理解我們的要求并代替我們預定餐館,并且很有可能對游戲行業產生變革。
在Lecun看來,這些系統不僅要能幫人類完成任務,還需要知道為什么。現今的搜索引擎、反垃圾系統以及虛擬助手還做不到這一點,他們大多數只是通過關鍵詞匹配等技術來完成任務,而忽略了詞語出現的順序。以Siri為例,它只是在幾類應答庫中搜索符合你所提要求的內容,但實際上它并不能理解你說的到底是什么意思。而像此前在 Jeopardy游戲中戰勝了人類的IBM大型機Watson,則是通過高度程序化的規則來掌握語言能力,但其無法應用于其他情境。
相反地,深度學習的軟件可以像人類一樣掌握理解語言的能力。研究人員試圖讓機器擁有理解詞匯的能力,Lecun等人開發出的系統,可以在閱讀一些簡單的故事后回答問題,進行邏輯推理等。
但是Lecun等人深知,人工智能領域總是雷聲大雨點小,人們起初認為可能取得巨大的突破,到最后可能只是小小的一步。要想讓機器處理復雜的語言問題可比圖像識別要復雜得多,毫無疑問,深度學習在這一領域大有作為,但它們是否能真正掌握語言并改變我們的生活,還是一個未知數。
深度的歷史
如果要追溯起來,深度學習的歷史遠早于Lecun在貝爾實驗室的工作的年代,他和其他人實際上只是復活了一個長眠已久的想法。
時間回到20世紀50年代,為了探討智力和學習是如何產生,以及信號在大腦的神經元之間是怎樣傳遞的,生物學家們提出了一些簡單的理論。其中核心的觀點就是,如果細胞間總是頻繁地交流,那么神經元間的聯系會加強。在有新的經驗產生時,這種傳遞會調整大腦的結構,以便在下一次經歷相似的事情時讓人產生更好地理解。
心理學家Frank Rosenblatt 在1956年使用這一理論,結合軟件和硬件對神經元進行了模擬,他開發出的一套“感知器”可以對圖片進行簡單的分類。雖然他是在笨拙的大型機上實現的這一想法,但他奠定了如今人工神經網絡的基石。
他造的這臺計算機由大量的馬達和光學監測器相連,一共擁有8個虛擬的神經元。首先,監測器會偵測圖片的光學信號,并將信號傳遞給神經元。這些神經元在獲取到監測器傳遞的信號后,會對其進行加工并返回出一個值。借由這些值,機器能 “描繪”出其“看到”的東西。一開始的測試結果很糟糕,但是Rosenblatt 使用了一種高級學習的方法,使得及其可以正確區分出不同的形狀。他在向機器展示圖片的同時,也會告訴其正確答案,之后機器會對輸入的信號進行判別,計算出如果要得到正確答案,各個神經元的信號權重是多少,并進行再分配和糾正。在重復了大量例子之后,機器可以識別出從來沒有見過的圖片。現今的深度學習網絡使用了更加高級的算法,并且擁有數百萬個模擬神經元,但訓練方式和之前是一樣的。
Rosenblatt 預言,他的感知器將有廣泛的應用,比如可以讓機器用名字和人問候。如果人們能實現在神經網絡的多個層間傳遞圖片和信號,則可以讓感知器解決更加復雜的問題。不幸的是,他的學習算法在多層領域并不奏效。1969年,AI領域的先驅Marvin Minsky更是出版了一本書,把人們對神經網絡的興趣扼殺在了搖籃里。Minsky聲稱多層面并不會讓感知器更加有用。于是AI研究人員拋棄了這一想法,取而代之的是使用邏輯操作開發人工智能產品,而神經網絡則被推到了計算機科學的邊緣地帶。
當1980年Lecun在巴黎念書時,他發現了之前人們的這些工作,并驚訝于為什么會拋棄了這一想法。他在圖書館尋找相關的論文,最后發現在美國有一個小組在研究神經網絡。他們研究的內容是 Rosenblatt遇到的老問題,即如何訓練神經網絡,讓其堅決多層問題。這份研究有些“地下工作”的意味,為了不被審稿人拒稿,研究人員盡量避免使用 “神經”、“學習”等字樣。
在讀到這些之后,Lecun加入了這個團隊。在那里他認識了現在任職于Google的Geoff Hinton,他們一致認為,只有人工神經網絡才是構建人工智能的唯一途徑。此后,他們成功開發出了應用于多層面的神經網絡,但是其適用性非常有限。而貝爾實驗室的研究人員則開發出了另一套更加實用的算法,并很快被Google和Amazon等公司應用于反垃圾和商品推薦。
在Lecun離開貝爾實驗室去了紐約大學以后,他和其他研究人員組成了一個研究小組。為了證明神經網絡的作用,他們不動聲色地讓性能強大的機器學習和處理更多的數據。此前 Lecun的手寫識別系統由5個神經元層構成,現在則加到了10多個。到了2010年后,神經網絡在圖片分類等領域打敗了現有的技術,并且微軟等大公司開始將其應用于語音識別。但對于科研人員來說,神經網絡還是很邊緣化的一門技術。2012年的時候,Lecun還寫過一封匿名信對此痛斥一番,因為他們的一篇介紹神經網絡新記錄的文章投稿被一場頂尖會議給拒絕了。
[page]6個月以后的一件事情,讓一切都發生了變化。
Hinton帶著兩個學生,參加了一場機器圖像識別比賽,并在大賽中取得了傲人的成績。他們在比賽中所用的網絡就和之前Lecun開發的支票閱讀網絡類似,在這場比賽中,軟件要辨識超過1000種各種各樣的物品,而他們的這套系統辨識率高達85%,超過第二名10個百分點。深度學習軟件的第一層對神經元進行優化,找到邊角等簡單的特點,而其他層則連續尋找形狀等特點。Lecun現在還能回想起當時的情景,作為勝出者的他們拿出論文,仿佛對著屋子里那些曾經無視他們研究的人臉上狠狠打了一巴掌,而他們只能說:“OK,我們承認,你們贏了。”
經此一役,計算機視覺領域的風向很快就變了,人們迅速拋棄舊的方法,而深度學習很快變成了人工智能領域的主流。Google買下了Hinton成立的公司,開發Google Brain。微軟也開始立項研究這一技術,Facebook的CEO 扎克伯格甚至也出現在神經網絡的研究會議上,宣布Lecun在紐約大學擔任教職的同時,加入到他們的FAIR團隊中。
1993年Lecun在貝爾實驗室,它旁邊的電腦能識別支票上的手寫數字
語言學習
Facebook 的新辦公地離Lecun教書的地方只有3分鐘車程,在這里他和研究人員一道,嘗試讓神經網絡能更好地理解語言。具體做法就是,神經網絡來回檢索文檔,當遇到一個詞時,預言該詞前后的內容,再和實際情況進行判別。通過這樣,軟件把每一個詞解構成了一組和其他詞的關系向量。
例如,在神經網絡看來,“國王”和“女王”這組詞的向量關系,就和“丈夫”和“妻子”一樣。對于一整句話來說,這種方法也可以奏效。一些研究成果表明,使用向量技術的機器在同義、反義詞等理解測試上,甚至超過了人類。
而 Lecun的團隊還走得更遠,他們認為,語言本身其實并不復雜,真正復雜的是對語言要有一個深入的理解,并對其擁有常識般的認知。舉個例子,“小明拿著瓶子走出了房間”,這句話隱含的意思就是,瓶子在小明身上。鑒于此,在他們開發的神經網絡上搭載有一個記憶網絡,用來存儲一些它已經學會的事實,每次有新的數據輸入時,它也不會被清除。
Facebook的AI研究人員開發出了一套可以回答簡單問題的系統,哪怕其中有些內容是它之前沒有遇到過的。例如,研究人員給記憶網絡一篇魔戒的梗概,讓它回答一些簡單的問題,如“魔戒在哪?”,雖然它可能在之前并沒有遇到過“魔戒”這個詞,但還是能夠回答上來。如果它能夠理解一些更加復雜的句子的話,那么將會有很大的應用。
然而,打造一套能夠完成有限對話的系統已經耗費巨大的精力,更何況神經網絡的推理能力很差,更不論制定計劃。盡管研究人員還沒有找到更高效的解決方法,但Lecun等研究人員對此仍充滿了信心。
不過并不是每個人都如此樂觀,西雅圖一家研究機構的CEO Oren Etzioni就認為,深度學習軟件現在只是展現出了語言識別最簡單的那部分能力,他們仍缺乏邏輯推理能力,這和現在神經網絡做的圖形分類以及聲波解析都有著天壤之別。此外,掌握語言也不是那么簡單的事,因為在文本中句子的意思可能會發生改變。要讓軟件擁有語言能力,則需要它們像嬰兒那樣,沒有明確的指示也能掌握句子的意思。
深度的信仰
在Facebook的CTO Mike Schroepfer 看來,未來他們希望能看到Facebook的系統與你進行交流,就像和一個人類管家一樣。這套系統能夠在更高的層面上理解語言和概念:比如你可以要求它展示一張朋友的照片,而不是他的動態。隨著Lecun的系統掌握更高的推理和規劃能力,這在短期內還是很可能實現的。此外,Facebook可能還會提供一些他們覺得你會感興趣的東西,并且詢問你的看法,最終讓這個超級管家沉浸于信息的海洋之中。
不僅如此,這種交流算法的改進也可以提高Facebook過濾信息和廣告的能力,這對Facebook想要超越社交網絡的定位至關重要。隨著Faebook開始以媒體的身份發布信息,人們就需要更好的信息管理方式,這套虛擬助手可以幫助Facebook實現這一野心。
如果深度學習再重蹈以前人工智能的覆轍,那這些可能永遠都不會發生了。但是Lecun對此充滿了信心,他認為有足夠多的證據站在他這邊,表明深度學習終將會帶來巨大的匯報。讓機器處理語言需要新的想法,但是隨著越來越多的公司和大學加入到這個領域,原來小小的一片天開始擁有無限可能,這將大大加快整個進程。
究竟深度學習能不能實現Facebook預想的管家還不得而知,就算是真正能實現,人們能獲益多少現在也還難以想象。但可能我們并不需要等太久了,他堅信那些懷疑機器深度學習語言能力的人們終會后悔。這和2012年以前一樣,雖然事情出現了一些改變,但用老方法的人仍然頑固不化。也許再過個幾年,人們就不會這么看了。