編者按:本文作者 Sergei Burkov 是俄羅斯莫斯科物理技術(shù)學(xué)院博士,也是旅游推薦智能機(jī)器人公司 Alterra.ai 創(chuàng)始人兼首席執(zhí)行官。
聊天機(jī)器人現(xiàn)在非常熱門,但是當(dāng)我們談到“聊天機(jī)器人”時(shí),會(huì)發(fā)現(xiàn)它有兩個(gè)完全不同的類型:一種是配置對(duì)話用戶界面的智能虛擬助手,另一種,則是依賴屏幕按鍵圖像用戶界面的非智能菜單驅(qū)動(dòng)的程序。相比于前者,以菜單驅(qū)動(dòng)的聊天程序的確擁有不少劣勢(shì),用戶接受度也不高,比如他們無(wú)法支持深度鏈接、創(chuàng)新性較低、同時(shí)也缺乏內(nèi)部機(jī)器人之間的“bot-to-bot”通訊協(xié)議。相反,智能聊天助手則為上述問(wèn)題帶來(lái)了解決方案,它們無(wú)需新協(xié)議或應(yīng)用程序接口就能實(shí)現(xiàn)彼此間的通訊,而且也不依賴于類似于 Google Assistant 這樣的“主機(jī)器人”。更重要的是,人們用自然語(yǔ)言就能與之交互。
機(jī)器人要用自然語(yǔ)言實(shí)現(xiàn)交互
過(guò)去,每家公司都需要有一個(gè)官方網(wǎng)站,以后他們都需要一個(gè)專屬的會(huì)話式機(jī)器人。但是在絕大多數(shù)情況下,你不會(huì)直接與它們對(duì)話,用戶可能會(huì)首先與一個(gè)“主機(jī)器人”進(jìn)行交互,比如谷歌的 Google Assistant、三星的 Viv、以及亞馬遜的 Alexa。主機(jī)器人會(huì)判斷哪一個(gè)“下屬”機(jī)器人有能力處理你的請(qǐng)求,再把你的請(qǐng)求轉(zhuǎn)發(fā)給它們。
舉個(gè)例子,假如你想要在巴黎預(yù)定一個(gè)酒店,你只需說(shuō):
谷歌,我下周日想去巴黎,請(qǐng)幫我預(yù)訂一個(gè)每晚不超過(guò) 200 美元的四星級(jí)酒店,里面要有免費(fèi)的 Wi-Fi 和健身房服務(wù),還有,我要住五天。
此時(shí),Google Assistant 會(huì)找到一個(gè)旅行代理服務(wù)機(jī)器人(比如 Expedia、Booking.com、或是 Alterrra 等),然后把這個(gè)請(qǐng)求轉(zhuǎn)發(fā)過(guò)去,如果“接收方機(jī)器人”足夠智能,能夠理解用戶請(qǐng)求,那么就能完成一筆酒店預(yù)訂業(yè)務(wù)。
關(guān)鍵是,“主機(jī)器人”和“接收方機(jī)器人”之間也能夠使用自然語(yǔ)言彼此交流。再比如,當(dāng)你和全球私人旅行指南出版商《Lonely Planet》旗下的聊天機(jī)器人對(duì)話,想問(wèn)問(wèn)它阿姆斯特丹有哪些著名的旅游景點(diǎn),你只需問(wèn)說(shuō):
下周二阿姆斯特丹的天氣怎么樣啊?
此時(shí)《Lonely Planet》機(jī)器人會(huì)把你的請(qǐng)求轉(zhuǎn)發(fā)給 Weather.com 機(jī)器人,如果后者有能力回答這種自然語(yǔ)言問(wèn)題,那么就會(huì)把答案?jìng)鬟f過(guò)來(lái)。換句話說(shuō),英語(yǔ)將變成未來(lái)機(jī)器人彼此之前的“通訊協(xié)議”。
聊天機(jī)器人會(huì)變成另一個(gè)“亞馬遜土耳其機(jī)器人”嗎?
看上去,人工智能技術(shù)對(duì)聊天機(jī)器人非常有幫助。但可能也不一定,因?yàn)槲覀冞€有另外一個(gè)選擇:由人工支持的聊天代理服務(wù),比如亞馬遜的土耳其機(jī)器人模型。事實(shí)上,現(xiàn)在不少初創(chuàng)公司已經(jīng)采用了這種方式,但它卻是一個(gè)死胡同。
為什么這么說(shuō)呢?其實(shí)還是人類本身的問(wèn)題——無(wú)法實(shí)現(xiàn)規(guī)模化拓展,速度也太慢,成本更是無(wú)比昂貴。而且我們沒(méi)有足夠多的人力,來(lái)支持?jǐn)?shù)以百萬(wàn)計(jì)的機(jī)器人服務(wù)世界上每家公司。人類愿意回到手工勞動(dòng)力時(shí)代嗎?想象一下,假如亞馬遜每筆交易都是通過(guò)現(xiàn)場(chǎng)銷售人員來(lái)為客戶提供服務(wù),他們能夠承受得了嗎?所以結(jié)果很明顯,企業(yè)未來(lái)只能選擇人工智能,否則距離破產(chǎn)就不遠(yuǎn)了。
傳統(tǒng)的自然語(yǔ)言處理技術(shù)還能發(fā)揮作用嗎?
自然語(yǔ)言處理算法有兩大類:傳統(tǒng)自然語(yǔ)言處理和深度學(xué)習(xí)。
傳統(tǒng)自然語(yǔ)言處理涉及大量編碼。你必須要預(yù)測(cè)用戶在每個(gè)場(chǎng)景下可能會(huì)說(shuō)的詞匯和短語(yǔ)、識(shí)別說(shuō)話類型、再提取預(yù)定義的關(guān)鍵詞,等等。換句話說(shuō),傳統(tǒng)自然語(yǔ)言處理有很多規(guī)則,很多正則表達(dá)式,以及大量的硬編碼。所以,你需要花費(fèi)大量時(shí)間寫(xiě)代碼,調(diào)試程序bug。但是,一旦用戶在對(duì)話時(shí)偏離了預(yù)期路徑,之前所設(shè)定的規(guī)則就很容易會(huì)被打破,這就是為什么許多機(jī)器人讓人感到非常愚蠢的原因。
我們不得不構(gòu)建大量智能虛擬助手,讓它們?nèi)ゾS護(hù)自然語(yǔ)言對(duì)話。那么問(wèn)題是,我們能夠用傳統(tǒng)自然語(yǔ)言處理來(lái)實(shí)現(xiàn)這個(gè)功能嗎?貌似看上去不太可能——畢竟難度太大,而且也十分耗時(shí)。更重要的是,地球上可能沒(méi)有那么多程序員來(lái)寫(xiě)代碼。
依靠深度學(xué)習(xí)來(lái)解決聊天機(jī)器人的瓶頸問(wèn)題
幸運(yùn)的是,現(xiàn)在我們有一個(gè)替代方案,這個(gè)技術(shù)給人們帶來(lái)了希望,它就是深度學(xué)習(xí)!相比于特別編寫(xiě)一個(gè)明確的規(guī)則,現(xiàn)在我們只需要構(gòu)建一個(gè)人工神經(jīng)網(wǎng)絡(luò),然后給它提供培訓(xùn)語(yǔ)言。
然而,構(gòu)建人工神經(jīng)網(wǎng)絡(luò)并不簡(jiǎn)單,你需要把不同的算法和解決方案縫接在一起。好的一面是,當(dāng)你完成的時(shí)候所有工作后,會(huì)得到一個(gè)可以理解自然語(yǔ)言的神奇機(jī)器。如果你注意到它出現(xiàn)了某些錯(cuò)誤,完全不需要編寫(xiě)新代碼來(lái)解決問(wèn)題——只需給它提供更多學(xué)習(xí)樣本就可以了。而且,你也不需要重新給“機(jī)器人大腦”編程,當(dāng)你有了這樣一種機(jī)器,會(huì)發(fā)現(xiàn)團(tuán)隊(duì)的工作效率大幅提升,過(guò)去需要花費(fèi)數(shù)年時(shí)間才能完成的產(chǎn)品,現(xiàn)在即便人手不足也能快速推出。
不幸的是,我們現(xiàn)在還沒(méi)有這樣神奇的機(jī)器,然而很多公司都正在朝這個(gè)方向努力。現(xiàn)在幾乎所有的聊天機(jī)器人設(shè)計(jì)框架都是基于自然語(yǔ)言處理的軟件開(kāi)發(fā)包,而不是深度學(xué)習(xí)技術(shù)。換句話說(shuō),如今的聊天機(jī)器人依然類似于傳統(tǒng)的勞動(dòng)密集型服務(wù)行業(yè),但是隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,我們應(yīng)該很快就能看到隧道盡頭的曙光了!