“我們現(xiàn)在的人工智能基本方法有缺陷,而我們必須走向具有理解能力的AI,這才是真正的人工智能。”張鈸院士在演講中指出。
那解決辦法是什么呢?通過循序漸進(jìn),張?jiān)菏吭谘葜v中給出了思路,并指明語義向量空間這一技術(shù)方向。
“首先,需要明確的是,現(xiàn)有的機(jī)器缺乏推理能力的原因在于他沒有常識。”
張鈸院士通過實(shí)驗(yàn)驗(yàn)證,常識的建立確實(shí)會極大程度的提升機(jī)器的性能。而為機(jī)器建立常識庫也成為人工智能企業(yè)進(jìn)一步提升系統(tǒng)性能的第一步。“美國在1984 年就搞了這樣一個(gè)常識庫的工程,做到現(xiàn)在還沒完全做出來。可見,要走向真正的人工智能,有理解的人工智能,是一條很漫長的路。”
但即使在建立常識庫的基礎(chǔ)上,做到有理解能力的人工智能依然不容易。想要提升智能的第二步,在張?jiān)菏靠磥恚褪菍⒏行院椭R的世界統(tǒng)一起來,而這將為人工智能的發(fā)展帶來一次質(zhì)的飛躍。
“深度學(xué)習(xí)之所以能夠極大的促進(jìn)人工智能的發(fā)展,技術(shù)上的關(guān)鍵在于人們能夠?qū)@取的標(biāo)量數(shù)據(jù)轉(zhuǎn)變?yōu)橄蛄浚瑥亩玫綑C(jī)器上。但至今為止,將行為(特征向量)和數(shù)據(jù)(符號向量)結(jié)合起來使用始終是科研的難點(diǎn),而這就限制了機(jī)器變得更‘智能’。”
不僅如此,從安全層面來看,純數(shù)據(jù)驅(qū)動(dòng)的系統(tǒng)也存在很大問題——魯棒性很差,易受到很大的干擾。因而,在大量樣本的訓(xùn)練下,系統(tǒng)仍會犯重大的錯(cuò)誤。如商湯、曠視等頭部企業(yè)也表示,即便訓(xùn)練出的系統(tǒng)模型準(zhǔn)確率高達(dá)99%,但在實(shí)際應(yīng)用中,系統(tǒng)仍然會犯很多“弱智”的錯(cuò)誤。
“我們現(xiàn)在想出的解決辦法是這樣的,就是把這特征向量空間和符號向量投射到一個(gè)空間去,這個(gè)空間我們把它叫做語義向量空間。”
怎么做?
張?jiān)菏恐赋觯谝唬ㄟ^Embedding(嵌入)把符號變成向量,盡量保持語義不丟失;第二就是Raising(提升),結(jié)合神經(jīng)學(xué)科,把特征空間提升到語義空間。
“只有解決這些問題,我們才能夠建立一個(gè)統(tǒng)一的理論。因?yàn)樵谶^去,對感知和認(rèn)知的處理方法是不同的,因而兩者不在同一維度,無法統(tǒng)一處理。但如果我們能夠?qū)⒏兄驼J(rèn)知投射到同一空間,我們就可以建立一個(gè)統(tǒng)一的理論框架,并在語義向量空間里解決理解問題。這是我們的目標(biāo),但是這項(xiàng)工作是非常艱巨。”
·基本思想的顛覆,模糊計(jì)算或是未來
“無論是知識圖譜,語義向量空間還是當(dāng)下的其他深度學(xué)習(xí)訓(xùn)練,它們都是基于概率統(tǒng)計(jì)理論,而模糊邏輯不是,它是以模糊集理論為基礎(chǔ)的。”非常大膽的,從思想層面,美國猶他州立大學(xué)計(jì)算機(jī)系終身教授承恒達(dá)給出了顛覆性的想法。
其實(shí)模糊邏輯并非全新的概念。1931年,Kurt Godel發(fā)表論文證明了形式數(shù)論(即算術(shù)邏輯)系統(tǒng)的“不完全性定理”,模糊邏輯誕生。而在1965年,美國加州大學(xué)的L.A.Zadeh博士發(fā)表的關(guān)于模糊集的論文,標(biāo)志著人類首次用數(shù)學(xué)理論成功描述了不確定性。
“現(xiàn)在的計(jì)算機(jī)領(lǐng)域,不是0就是1,而我們描述的是0到1之間的很多不確定性成分,其實(shí),這一過程描述的是導(dǎo)致結(jié)果的原因。以兩瓶水為例,一瓶水上標(biāo)記‘是純凈水的概率是0.91’,而另一瓶水上標(biāo)記的是‘水的純凈程度是0.91’,你會選擇哪一瓶呢?顯然,你會選擇后者。這里的思考判斷過程就是模糊邏輯,因?yàn)楹笳邔τ诔潭鹊拿枋霰举|(zhì)上就是模糊的。”
目前,類似于經(jīng)典邏輯體系(微積分、線性代數(shù)、生物學(xué)等衍生學(xué)科),模糊邏輯也逐步形成了自己的邏輯體系。
然而再好的技術(shù),都需要結(jié)合應(yīng)用去展現(xiàn)它的優(yōu)勢。在這一方面,承教授也是格外重視,于是他選擇了乳腺癌的早期診斷研究領(lǐng)域。“到目前為止,我們的設(shè)計(jì)樣本已經(jīng)被全世界二十多個(gè)國家,五十多個(gè)團(tuán)隊(duì)用來使用。”
在承教授看來,現(xiàn)有的技術(shù)存在著非常明顯的不足,需要大家沉下心來去分析問題,從而探索到改進(jìn)的方法。“現(xiàn)在大家都在模擬腦波中的電信號,但其實(shí)大腦里存在的不僅僅是電信號,還有化學(xué)反應(yīng)。而很多人在做的醫(yī)學(xué)圖像處理,實(shí)際上只是做圖像處理,卻不是醫(yī)學(xué)圖像處理,它們之間是有著非常大的不同。”
·技術(shù)思路:大繁至簡
當(dāng)下,面對技術(shù)的毫無進(jìn)展,AI公司的焦慮顯而易見。不同于上面院士教授們給出的具體技術(shù)思路,馬毅教授更像是科技界的“魯迅”,他用PPT中一張張演講稿中的優(yōu)質(zhì)論文做例,只為重新喚醒大家對于AI的思考。
“神經(jīng)網(wǎng)絡(luò),導(dǎo)入的數(shù)據(jù)有一個(gè)很小的改動(dòng),分類就會有很大的變化,這不是什么新發(fā)現(xiàn),2010年,大家就遇到這樣的問題,但至今沒有解決。”演講一開始,馬毅就拎出了“老生常談”,毫不留情的將一盆冷水澆到了眾多對AI盲目樂觀的人身上。
對技術(shù)的不正確認(rèn)知,馬毅也在極力得糾正。
“在人臉識別領(lǐng)域,要讓算法具有魯棒性,比寫個(gè)AlphaGo要困難千倍。”
“都說神經(jīng)網(wǎng)絡(luò)越大越好,這簡直是胡說八道。”
嬉笑怒罵間,從事研究數(shù)年,馬毅給出了自己的思考方向:“真正的優(yōu)質(zhì)算法一定是最簡單的,比如迭代、遞歸,還有經(jīng)典的ADMM,這些簡單的算法就很好,也很有用。”
結(jié)語
接下來,人工智能技術(shù)的發(fā)展并不會樂觀,尤其是產(chǎn)業(yè)發(fā)展將進(jìn)入一個(gè)平緩期,但是這并不意味著學(xué)術(shù)界和產(chǎn)業(yè)界將無事可做。
正如張鈸院士指出的,“我們正在通往真正AI 的路上,現(xiàn)在走得并不遠(yuǎn),在出發(fā)點(diǎn)附近。但人工智能永遠(yuǎn)在路上,大家要有思想準(zhǔn)備,而這也就是人工智能的魅力。”