盡管所謂“深度神經網絡”已經幫助機器學會如何利用自然語言進行交談、駕駛汽車、游玩電子游戲并奪取圍棋賽冠軍,甚至繪制夢境、畫畫并推動科學發現,但其同時亦給創造者們帶來新的挑戰——因為研究人員從未想到深度學習技術能夠擁有如此出色的運作效果。除了從人類大腦架構中得出的模糊靈感之外,時至今日,我們仍不清楚到底是怎樣的基本原則指導著這些學習系統的實際設計(也沒人能夠真正理解其運作原理)。
與大腦一樣,深度神經網絡擁有大量神經元——人工神經元正是計算機記憶的象征。當某一神經元被激活時,其會將信號發送至上層與之連接的另一神經元。而在深度學習過程中,網絡中的連接會根據需要進行加強與減弱,從而使得系統能夠更好地發送來自輸入數據(例如一張小狗圖片中的各像素)的信號,并經由各層最終通過神經元將內容關聯至正確的高級概念處——例如“狗”。在深度神經網絡對成千上萬張小狗圖片樣本進行“學習”之后,其即可像人類一樣準確從新圖片中發現狗這一對象。在學習過程中,這種由特殊情況到一般性概念的奇跡般認知提升正是深度神經網絡的力量所在,這意味著其真正在與人類一樣憑借著推理、創造力以及其它被統稱為“智力”的能力得以解決實際問題。專家們現在很想知道深度學習到底是什么,而大腦又是否在以同樣的方式理解現實事物。
上個月,在柏林舉辦的一場YouTube視頻會議也許能夠為人工智能研究人員帶來潛在的答案。講座當中,耶路撒冷希伯來大學計算機科學家兼神經科學家Naftali Tishby提出了證據以支持一面新的理論,希望能夠借此對深度學習的工作原理作出解釋。Tishby認為,深度神經網絡是根據一種所謂“信息瓶頸”的流程來進行學習的,而他早在1999年就曾與兩位合作者利用純理論術語首次描述了這一概念。其想法在于,神經網絡會從輸入數據中排除無關細節與干擾信息,類似于擠壓信息以通過瓶頸,最終僅保留與一般性概念相關性最強的特征。Tishby和他的學生Ravid Shwart-Ziv設計出新的計算機實驗,希望至少立足其實驗環境展示這一擠壓過程究竟是如何在深度學習過程當中實現的。
耶路撒冷希伯來大學計算機科學家兼神經科學家Naftali Tishby
Tishby的發現很快在人工智能領域引起轟動。谷歌公司的Alex ALemi表示:“我認為信息瓶頸這一概念在未來的深度神經網絡研究中可能將扮演非常重要的角色。”他開發出多種新的近似方法,旨在對大型深層神經網絡進行信息瓶頸分析。Alemi解釋稱:“這一瓶頸不僅能夠作為理解神經網絡實際工作原理的理論性工具,同時也可作為構建新型網絡與架構的輔助方案。”
一部分研究人員仍然懷疑該理論究竟是否能夠解釋深度學習所獲得的成功,不過曾利用機器學習技術分析大型繩子對撞機內粒子碰撞狀態的紐約大學粒子物理學家Kyle Cranmer認為,單純從學習的一般性原則角度來看,這一理論“聽起來挺有道理”。
同時在谷歌公司與多倫多大學任職的深度學習技術先驅Geoffrey Hinton在觀看了此次柏林演講之后向Tishby發出一封電子郵件。他寫道“這非常有趣,我必須重聽一遍才能真正理解其中的內容。現在我們終于聽到了真正具有原創性的思維,這很可能代表著一個重大難題迎來了正確答案——可喜可賀!”
根據Tishby的觀點,信息瓶頸為機器學習背后的一項基本原則——無論是對于算法、昆蟲抑或是任何其它有意識的存在,甚至包括對緊急行為的物理計算,我們長久以來所期盼的答案應該是“學習當中最重要的部分其實在于遺忘”。
瓶頸
Tishby最初投身于信息瓶頸研究工作時,其他研究人員才剛剛開始鉆研深層神經網絡——不過當時這兩項技術概念還沒有被正式定名。那時候是上世紀八十年代,Tishby正在考慮人類在語音識別方面的實際表現——這對當時的人工智能還是一項巨大的挑戰。Tishby意識到,這個問題的核心在于相關性——語音詞匯中相關性最高的特征究竟是什么?我們如何從與之相關的變量當中剔除某些特征,例如噪音、雜音以及語調?一般來講,在面對現實世界中的數據海洋時,我們應選擇保留哪些信號?
Tishby在上個月接受采訪時表示,“這種與信息相關的概念曾在歷史上被多次提及,但從來沒能得到正確的表述。多年以來,人們一直認為信息理論并不是解讀相關性的正確途徑,而只是Shannon本人長久以來一廂情愿的想法。”
信息理念的締造者Claude Shannon在某種意義上解放了信息研究工作的力量。從上世紀四十年代開始,信息理論開始將信息視為純抽象產物——類似于數學意義上的0和1。Shannon認為,“信息與語義無關”。不過Tishby對此抱不同看法。利用信息理論,他意識到“我們可以精確地對‘相關性’作出定義。”
我們首先想象X是一套復雜的數據集,例如小狗圖片中的全部像素,而Y則是一個能夠代表這些數據的簡單變量,例如單詞“狗”。我們可以盡可能地壓縮X,同時保證不失去預測Y的能力,這樣即可在X中捕捉到全部“相關性”信息。在1999年發表的論文當中,Tishby與聯合作者Fernando Pereira(現效力于谷歌公司)以及William Bialek(現任職于普林斯頓大學)將其描述為一個數學優化問題。很明顯,這只是一種理論性思想,無法支持有力的現實應用。
Tishby指出,“我已經在各種背景之下對這個問題思考了三十年。幸運的是,如今深層神經網絡開始變得如此重要。”
場景中的人,人的臉,以及臉上的眼睛
雖然深度神經網絡的基本概念早在數十年前就已經誕生,但隨著訓練方案的逐步改進與計算機處理器的日益強大,其在語音與圖像識別領域的表現直到2010年才嶄露頭角。Tishby在閱讀了物理學家David Schwab與Pankaj Mehta于2014年發表的一篇令人驚訝的論文之后,最終意識到其與信息瓶頸原理之間存在著潛在聯系。
兩位作者發現,Hinton所發明的所謂“深度信念網絡”這一深度學習算法能夠在特定情況下(特別是重整化)被應用于物理系統,即通過對細節進行粗粒度轉化來放大物理系統,從而計算其整體狀態。當Schwab與Mehta將深層信念網絡應用到磁體模型的“臨界點”場景中時,系統在各個衡量尺度之上皆存在分形性或自相似特征,而該網絡會自動利用類似于重整化的過程來識別模型狀態。正如生物物理學家Ilya Nemenman當時所言,這是一種驚人的跡象,“在統計物理這一背景之下提取相關特征,與在深度學習背景下提取相關特征已經成為同一類操作。”
不過唯一的問題在于,一般來講現實世界中的分形性較為罕見。Cranmer表示,“自然世界大多不會體現出類似重重疊疊的狀態,而更多體現為場景、人、臉、眼睛這樣的差異化排布。因此我無法斷言重整化程序就是深度學習技術在自然圖像識別方面表現良好的原因。”不過當時正在接受胰腺癌化療治療的Tishby認識到,深度學習與粗粒度轉化程序應可被納入更為廣泛的思路當中。他指出,“思考科學以及思考我舊有思維的作用,是幫助我實現康復的重要支柱。”
2015年,他和他的學生Noga Zaslavsky將深度學習假設為一種信息瓶頸流程,其會盡可能地壓縮干擾數據,同時保留關于數據的代表性信息。Tishby與Schwartz-Ziv利用深度神經網絡建立的新實驗,提示了瓶頸程序如何實際發揮作用。在其中一個案例中,研究人員利用可訓練的小型網絡通過1或0(代表有狗或無狗)標記輸入數據,并給出282個神經連接隨機初始優勢。在此之后,他們開始持續追蹤深度學習網絡如何利用一套包含3000份樣本的輸入數據集進行訓練。
Noga Zaslavsky(左)、Schwartz-Ziv(右)
在大多數深度學習程序當中,用于調整神經連接以響應數據內容的基本算法被稱為“隨機梯度下降”:每當訓練數據被饋送至網絡當中時,即有一連串激活活動向上經過各人工神經元層。當信號到達頂層時,最終的激活模式將能夠與圖像的正確標簽進行比較——即1或0,有狗或無狗。這種激活模式與正確模式之間的任何差異都都會以“反向傳播”形式被發往下層,這意味著類似于老師批改試卷一樣,該算法能夠增強或減弱每條連接,使得網絡層能夠更好地產生正確的輸出信號。在訓練雨刮器 ,訓練數據中的常見模式將反映在連接的強度之上,且網絡本身也將通過訓練提升數據標記的正確率——包括識別小狗對象、單詞或者1。
在實驗當中,Tishby與Shwartz-Ziv追蹤了深度神經網絡中每一層的輸入數據信息量,以及各輸入數據中有多少信息得到保留??茖W家們發現,神經網絡會逐層向信息瓶頸理論界限收斂:Tishby、Pereira與Bialek的原始論文中設定了一個理論上限,其代表著系統能夠在進行相關性信息提取時獲得的最佳結果。在這一臨界點上,神經網絡能夠盡可能壓縮輸入數據,同時不會影響到其作出準確預測的能力。
階段:一個簡短的“擬合”階段,在此階段中,神經網絡學習對其訓練數據進行標記; 接下來為更長的壓縮階段,在此階段中其獲得更強大的泛化能力,且這種能力實際體現在對新測試數據的標記效果上。
當深度神經網絡通過隨機梯度下降來調整其連接時,首先其存儲的關于輸入數據的比特數字會保持大致恒定或略微增加,與此同時連接調整以對輸入中的模型進行編碼,神經網絡本身也將更好地與正確標簽相契合。部分專家將這一階段比喻為人類的記憶過程。
接下來學習過程切換至壓縮階段。神經網絡開始丟棄與輸入數據有關的信息,而追蹤其中最強大的特征——包括與輸出標簽相關性最高的特征。之所以會發生這種情況,是因為隨機梯度下降的每一次迭代當中,訓練數據中都或多或少存在意外的相關性告知神經網絡做出不同的判斷,這將隨機引發上下層調用以調整神經連接的強度。這種隨機化與壓縮系統輸入數據的表現效果完全一致。舉例來說,某些小狗照片中可能存在背景房屋,而某些則并不包含。當一套神經網絡循環播放這些訓練照片時,可能會“遺忘”某些照片中房屋與狗之間的相關性,這是因為其它照片中的不相關性會抵消這種關聯。Tishby與Shwartz-Ziv認為,正是這種對細節信息的遺忘操作使系統形成一般性概念。事實上,他們的實驗結果表明,深層神經網絡在壓縮階段提高了泛化能力,從而改善其在測試數據標記方面的成效(一套經過訓練的小狗圖像識別深層神經網絡將能夠利用新照片進行測試,并準確判斷其中是否包含狗這一對象)。
信息瓶頸究竟是否適用于所有深度學習機制,以及除壓縮之外還存在著哪些其它泛化途徑,目前仍有待觀察。一部分人工智能專家認為,Tishby的理論是近期出現的與深度學習相關的眾多極為重要的指導性原則之一。哈佛大學AI研究員兼理論神經科學家Andrew Saxe指出,某些規模非常龐大的深度神經網絡似乎并不需要經歷這樣的壓縮階段。相反,研究人員立足所謂“早期停止”方法進行編程,這樣能夠有效減少訓練時間并防止網絡編碼中存在過多相關性。
Tishby認為,Saxe和他的同事所分析的網絡模型不同于標準深度神經網絡架構,而且無論如何,信息瓶頸提出的理論界限決定了此類網絡的泛化效能要比其它方法更好。Tishby與Shwartz-Ziv的最新實驗在一定程度上解釋了瓶頸是否適用于較大規模神經網線的問題。盡管相關結果未被納入原始論文當中,但他們在這些實驗雖訓練了規模更為可觀的包含33萬個連接的深度神經網絡,用以識別來自國家標準與技術研究院的6萬幅手寫數字圖像——這套數據集正是衡量深度學習算法性能的著名基準素材??茖W家們發現,神經網絡的實際表現與信息瓶頸的理論界限存在趨同性; 他們還發現與小型網絡相比,這套大規模深度學習網絡的兩個階段更加清晰。Tishby指出,“我現在完全相信信息瓶頸屬于一種普遍現象。”
人類與機器
大腦是如何從我們的感官當中篩選信號的?又如何將其納入我們自覺的意識水平當中?這一神秘課題推動了人工智能先驅們研究深層神經網絡的早期興趣,即以逆向方式設計出大腦的學習規則。人工智能從業者在很大程度上已經放棄了這條鉆研之路,轉而開始利用其它途徑小幅提升效能表現。盡管如此,隨著智能機器所取得的成就日益升級——甚至讓某些人開始擔憂人工智能終有一天將構成嚴重威脅,許多研究人員希望此類探索能夠揭示出關于機器學習與智能實現的一般性結論。
紐約大學心理學與數據利潤總額助理教授Brenden Lake在研究人類與機器學習間的異同時表示,Tishby的發現代表著“打開神經網絡黑匣的重要一步”,但他同時強調大腦代表著一個更大、更黑的黑匣子。我們成年人的大腦擁有860億個神經元,其彼此間的連接更是多達數百萬億條,這一切可能都需要憑借某些技巧來增強泛化能力,從而實現超越嬰兒期的基本圖像與聲音識別學習過程。在這方面,其很可能與目前的深度學習技術相當類似。
舉例來說,Lake認為Tishby所發現的擬合與壓縮階段似乎與兒童的手寫字母學習過程并不相似。孩子們并不需要觀察成千上萬個字母并利用很長時間對其表征進行壓縮; 相反,他們能夠快速識別出同一字母的其它實例并學習如何書寫。實際上,人類甚至能夠利用單一例子進行學習。Lake和他同事們的模型表明,大腦能夠將新字母解構成一系列筆畫——即以往 已經存在的心理結構,從而立足原有認知建立字母概念。Lake解釋稱:“我不會把信件上的圖像想象成一個個像素,并像標準機器學習算法那樣對這些特征加以映射。我的目標在于建立一套更為簡單的因果模型,”即實現一條更短的泛化路徑。
這樣的智能實現方式可能會給AI行業帶來指導,并促使兩個領域實現相互往來。Tishby認為,盡管人類學習比人工智能學習更為普遍,但他的信息瓶頸理論最終將在兩大學科當中發揮作用。從理論層面可以得出的直接見解,能夠幫助人們更好地理解哪些問題類型能夠為神經網絡業解決,而哪些需要人工介入。Tishby表示:“其對于可學習的問題作出了完整的描述。這些都屬于‘我可以消除輸入數據中的干擾信息而不損害分類能力’的問題。這一點體現在自然視覺與語音識別當中,也同樣屬于我們的大腦能夠解決的實際任務。”
與此同時,真實與人工神經網絡也都面臨著同樣的挑戰,即每個問題的細節與微波差別都可能影響最終綶。舉例來說,大多數人無法快速完成兩個大數字的相加計算。Tishby指出,“這類問題長期困擾著我們,事實上邏輯問題很容易受到某一變量的影響。分類、離散乃至密碼問題皆是如此。我認為深度學習無法幫助我破解密碼。”