編者按:萬物互聯最終要解決人機交互問題,語音交互被認為是一個最佳入口。但是,我們現在接觸的智能語音助手卻常常被戲稱為“人工智障”。很多專家也在探討如何讓語音交互做到理解人的想法,AI交互究竟該如何拯救?
引爆AI技術的Alphago與李世石的“人工智能”世紀大戰已經過去三年,與三年前Alphago大勝李九段時人們驚呼“人工智能將要替代人類”相比,2019年的人們在面對AI時則更為淡然,與之對應的現實是,近三年來人工智能技術雖已取得驚人成就,但仍未真正脫離“人工”的現實。
AI的“人工不智能”之困
2018年5月,谷歌在其I/O開發者大會上,展示了令人印象深刻的Duplex人工智能語音技術,當時谷歌現場演示了Duplex語音AI預約理發服務,在與理發店溝通過程中Duplex的那一聲“嗯哼”更是技驚四座、驚艷全球,隨后谷歌董事長驕傲的向世界宣布:在電話預約領域,Duplex已經通過了圖靈測試。
然而,事情當然沒有那么簡單,在《紐約時報》記者的測試中發現,在成功預約的4次中,有三次是由人工偽裝成Duplex完成的,隨后谷歌官方聲明,目前通過Duplex撥打的電話中,約有25%由人類完全操作,在其他非人工操作的情況下,有15%的呼叫受到了人為干預。
即使人工智能技術強如谷歌,也仍然邁不過AI語音交互的“智能之坑”。而實際上,著名的圖靈測試,也有其特定歷史環境下的局限性。
在圖靈測試中,僅僅通過AI是否表現的像個人類的判斷無法有效得出AI是否真的具有智能,而要想AI脫離“人工”烙印真正實現智能,就必須真正跨過那條人與AI之間的邊界。
在電影《機械姬》中,人工智能Ava在利用Caleb的感情達到幫助自己成功逃生則是“真正成功的圖靈測試”的刻畫,影片中,人工智能Ava的締造者Nathen真正目的正是希望Ava通過“性魅力、對人性的操縱、同理心”等人類情感特征的綜合利用而實現逃生,因而,Ava的逃生也是“圖靈測試的終極版”。
雖然相比機械姬Ava,谷歌人工智能Duplex的完成度顯得“相形見絀”,但作為人工智能最為重要的底層技術之一,AI語音交互技術近年來的發展取得了一系列進步,并隨著智能手機、智能音箱等硬件設備進入千家萬戶。
實際上,AI語音交互的基礎是基于深度學習算法對語言系統的深度集成,因而決定其具有明顯的“雙邊效應”,一方面,AI語音交互的完成度越高,其用戶數量增長越快;另一方面,用戶數量與使用頻次的增長反作用于AI語音交互的深度學習訓練,從而實現更高的完成度。
AI語音交互的“動態規劃”法則
在互聯網江湖(ITVIPTI)看來,語言交互的過程的本質,是數據在“動態規劃”邏輯下對數據特征的精確匹配。
在數學領域,動態規劃(dynamic programming)是運籌學的一個分支,是求解決策過程(decision process)最優化的數學方法。在AI語音交互上,實現交互的過程可以看做是一個對語音輸入數據反饋“最優解”的數據匹配過程。
從技術構成上來看,AI語音交互技術大致可分為三個層面:“交互層、算法層、數據層”。在一個完整的AI語音交互過程中,由語音識別反饋技術為核心,實現交互層AI與人的交互觸達,然后由算法層進行“動態規劃”解析,將完整語義下的文字數據拆解為特定的“數據包”,并由算法將“數據包”與已有“語言系統數據”進行精確匹配,從而實現AI對語義的理解并給出反饋。
簡單來說,這就像你拿著一只印著小貓圖案的黃色鉛筆并且想要一只同樣的鉛筆,你需要去一個有著各種各樣筆的文具店,因而你需要用“動態規劃”思維將這只獨特的鉛筆“拆分開來”,明確它的種類以及特征:首先,它是鉛筆、其次它是黃色的,最后它印著小貓圖案。然后根據這些特征通過篩選(算法)去找到文具店中同樣的鉛筆。(與已有“語言系統數據”進行精確匹配)
但就目前的技術條件下,想要實現語言數據的100%精確匹配需要一些“先決條件”。
交互層實現100%準確率的語音識別準確率是保證整個語音交互不會出現語義“理解”偏差的重要前提,而要實現語音識的精準必須構建完整的“語句數據庫”,然后通過大量的識別訓練提升其準確度。
其次,在實現精確語音識別后,需要算法對其進行“數據打包”并且實現對“語言系統數據庫”進行快速檢索,從而匹配到相應的“反饋方案”,而由于不同的語義決定了不同的語音交互場景,因此需要涵蓋幾乎所有語音交互場景的“算法倉”,同時每個算法必須滿足對于精度和效率的雙重需求。
在數據層,“語言系統”數據庫的完善程度重某種意義上決定了整個語言交互系統的完成度。
無論是“交互層”還是“算法層”都需要“語言系統大數據”的全面參與,因而,構建完善的“語言系統”數據是整個AI語音交互系統的核心,也是技術上難度最高的一環。
然而,現實中在語音識別領域,目前只有科大訊飛的語音識別技術達到了98%的準確率,在整個語音交換互領域,也僅僅只有谷歌的Duplex通過了圖靈測試,而要想真正實現語音交互的人工智能,仍然需要AI底層技術革新的推動。
進階AI語音交互與“數據納什均衡博弈”
目前,無論是蘋果的Siri 還是微軟的小娜,在語音交互中均未實現基于時間線對語境的理解。而就2018年5月谷歌開發者大會上Duplex的表現來看,谷歌人工智能語音識別技術在語境的“理解”上已經取得了一些進展。
互聯網江湖團隊認為,在進階的語音交互過程中,除了遵循“動態規劃”原則實現對語言數據的檢索外,基于“語言系統”對輸入數據的反饋則是一場算法驅動下數據與數據的“納什均衡博弈。”
所謂“納什均衡”,實際上是一種策略組合,在該策略組合上,即在博弈的雙方中,一方的策略會隨著另一方的策略變動進行策略組合的調整,以達到一種戰略上的“均衡態勢”,而這種“均衡態勢”被稱為“納什均衡”。
在進階AI語音交互中,AI算法基于時間線對語義的“理解”過程,可以看做是對于語言輸入數據端的變化,完成AI算法端相應的策略變換的過程,從而形成“數據納什均衡”。納什均衡的形成需要以既定的“目標收益”為前提,而在AI語音交互中,這種“目標收益”實質上就是“在時間線的上對于語境的理解”。
“數據納什均衡”下的進階AI語音交互雖然從理論上可以實現AI對特定語境下的理解,但這樣的AI仍不能夠算的上真正的人工智能,真正意義上的人工智能不僅僅是“具有人類語言特征”的AI,而是真正具備人類思維能力以及行為能力的AI系統。
因此,從這個意義上來講,真正的人工智能不僅具有“人類思維”的軟件范式,也需要在物理上的“擬人化”,使之具備作為“人”行動能力。而想要實現真正的人工智能,不僅需要AI技術的“人化”也需要工程上的“人類化”。
因而,電影《機械姬》以及《機械公敵》中的人工智能形態才是完美的人工智能,從某意義上來講,這樣的人工智以及成為了一種由“人工”創造的硅基生命,而不僅僅是簡單的“人工智能”了。
AI天花板盡顯,人工智能還有多遠?
當下AI技術的興起,源于深度學習算法領域取得的突破性進展,因而從這個意義上來講,如今AI技術實質上是計算形式的革新。
也就是說,剝去人工智能的外衣,如今的AI并未真正意義上實現“人工智能”,更多的還是一種用于大數據分析與檢索的工具,實際上,當下AI的價值也在于對數據的高效匹配和應用。另一方面,雖然AI技術在產業應用上仍有巨大的空間,但深度學習算法的“工具式”人工智能的天花板已經觸及,算法驅動下的AI技術已經到達瓶頸。
也許,《機械姬》中對于人工智能的幻想在本世紀末也未必能夠實現,而對于“人工智能顛覆人類”的恐懼也頗為“杞人憂天”,相對于人工智能時代的到來,或許我們更應該關注如今AI技術對于當下的改變,而AI語音交互作為AI技術應用的前沿陣地,任何的技術以及應用層面的進展都更值得我們去關注。