摘要:顏水成,現任360研究院負責人,前新加坡國立大學視覺分析研究室主任。由于在計算機視覺和多媒體通信等領域的杰出貢獻,被授予新加坡青年科學家獎 (YSA)和青年教授研究成就獎。上個月顏水成加入奇虎360,并組建了一個研究院,把一些思想用到了360的產品線。關于人工智能的研究,顏水成有自己的觀點。
人工智能是非常廣泛的范疇,現在的研究分為三個層次:1、算法模擬神經元(Neuron),轉換成電信號;2、算法模擬大腦(Human Brain),這里面有抽象的理解,并轉變成電信號;3、算法自學習(Baby Learning),和周圍環境接觸過程中,智能水平會提高。這就像《超能查派》,最開始只有基本功能,當把人工智能植入的時候,它開始模仿人類,最后和人類的溝通就非常流暢。
在這種理解下,我們把人工智能分成兩方面:Brain-Like 和 Baby-Like。Brain-Like 擅長做語音識別和人臉識別,Baby-Like 可以放在環境里自適應,做識別和理解。
那么什么樣的模型能達到這種效果?它會有多種狀態,模式之間可以互相指導,例如圖像指導語音,語音指導圖像。它可以在不同層之間互相溝通,這時候就得用到深度學習的工具。
在深度學習上面,我們過去看到的是模型越大性能越好。在這里我想用iPhone的一個宣傳口號:豈止于大。
這里面有三個點:1、Pixel-to-Pixel Inference(像素到像素);2、Neuron Nonlinearity(非線性神經元);3、Feedback Strategies(回饋策略)。
Pixel-to-Pixel Inference:在 P2P(Pixel to Pixel)上,這是一種端對端的訓練,可以從 P2P 進入到 P2P-aware。
它還可以做圖像分割,過去我們認為是不可能的,而現在由于加上了結構性模型,它也可以做到。
這樣即便是一些有遮擋的圖片,圖像的模擬效果都還不錯。
Neuron Nonlinearity:這方面最好用小網絡來處理,去設計不同的尺寸。當你做的足夠小的時候,就能更好的擬合它應該具備的功能。這樣的話你就得到了 Network in Network,它就有很不錯的性能。
我們把 NIN 放到GoogleNet上面測試了一下,LFW( Labeled Faces in the Wild數據庫,對應研究非受限情況下人臉識別問題)可以達到 99.7%,最好的百度已經能做到 99.8%。
這是一個朋友,她上傳了兩張照片,左邊和右邊看起來其實差別很大,但在系統里面能夠識別出是同一個人。
Feedback Strategies:在Feedback層面,不同的Layer和Task之間可以做很多工作。假如每層的數據一樣,很自然的它就是在上面逐步測試。這樣雖然第一次調的不一定準,但它可以幫助網絡,最終實現很高的性能。
比如說給你一張圖像,找出帽子、包和衣服。有些層的尺寸是一樣的,我們就可以拿這些層做對比。
還有一些小尺寸的維度,如果把這些也加入到網絡里面,就會有比較好的提升。
最后你可以把這些都合在一起,你可以得到連在一起的 Network。這樣就能很好識別出哪個是眼鏡、哪個是包、哪個是襪子。這些都能看得清楚。
從定量的角度說,它的性能會有很大的提升。如果用到高性能計算的GPU,基本可以處理到 20%,而且系統非常穩定。
有時候即便衣服是部分的,也可以識別出來。這方面的成功案例非常多。
這部分是關于 Baby-Like的研究,也是 True AI。
當你和真實世界進行交互的時候,其實會有自我學習在里面。這里面的核心是能夠理解上下文。
Baby-Like 是一種多特征的角度。包含了視覺、語音和自然語言理解。我們可以從過去的知識中,去學習和積累經驗。
那么小孩是怎么學習的呢?他不需要太多的案例,只需要很小的訓練樣本(Prior Knowledge,先驗知識),就能夠在和真實世界的交互中,進行自學習。比如有了先驗知識,當他看到了新事物(斑馬),他會問媽媽說:這是一只馬嗎?
這張圖是兩種學習模式的抽象表示。
相比起來,Prior Knowledge(先驗知識,指先于經驗的知識)的模式取得了不錯的成績,它的性能指標從 53% 上升到了 56%。
這是Baby Learning 在臉部識別的應用,通過觀看錄像進行自我學習。
目前來說,基于注釋的數據 Deep Learning,這是一種比較成熟的技術。但是未來的希望肯定會是 Baby Learning。它會有聰明的辦法,在缺少或者弱標簽的情況下學習,而且可以和人們的學習機制一致,包括自學習和終生學習的理念。