谷歌本周收購(gòu)了聊天機(jī)器人創(chuàng)業(yè)公司API.AI,進(jìn)一步加強(qiáng)語(yǔ)音識(shí)別技術(shù)。谷歌和Facebook等公司近期的舉措表明,語(yǔ)音將成為我們與設(shè)備互動(dòng)的下一代界面。
為何谷歌要收購(gòu)這樣一家公司?
API.AI提供的工具能協(xié)助開(kāi)發(fā)者開(kāi)發(fā)類似Siri的對(duì)話式聊天機(jī)器人。
人類有著非常出色的溝通技巧。例如,如果有人說(shuō)“這個(gè)女孩看到有個(gè)人拿著望遠(yuǎn)鏡”,那么根據(jù)上下文語(yǔ)境,我們可以知道他的意思是這個(gè)女孩看到了有人用望遠(yuǎn)鏡,還是攜帶著望遠(yuǎn)鏡。
讓機(jī)器人學(xué)會(huì)同樣的技巧是一項(xiàng)復(fù)雜的挑戰(zhàn)。許多表述都可以有不同含義,而表達(dá)同一含義又可以有多種不同說(shuō)法。API.AI的目標(biāo)就是解決這樣的問(wèn)題。該公司提供的API(應(yīng)用程序接口)能進(jìn)行語(yǔ)音識(shí)別、意圖識(shí)別和語(yǔ)境管理,而開(kāi)發(fā)者還可以向自己的聊天機(jī)器人提供某一領(lǐng)域的專業(yè)知識(shí)。
目前,API.AI支持15種語(yǔ)言,包括英語(yǔ)、漢語(yǔ)、法語(yǔ)、德語(yǔ)和西班牙語(yǔ)。根據(jù)該公司網(wǎng)站上的統(tǒng)計(jì),API.AI到目前為止已處理了超過(guò)30億次API請(qǐng)求。而谷歌則表示,超過(guò)6萬(wàn)開(kāi)發(fā)者用API.AI的工具集開(kāi)發(fā)了產(chǎn)品。
谷歌沒(méi)有披露這筆收購(gòu)的價(jià)格和條款。根據(jù)CrunchBase的數(shù)據(jù),API.AI的融資總額約為860萬(wàn)美元。
語(yǔ)音時(shí)代的到來(lái)
谷歌的這筆收購(gòu),以及行業(yè)的其他發(fā)展表明,我們與應(yīng)用互動(dòng)的方式將從文字輸入輸出變?yōu)檎Z(yǔ)音交流。語(yǔ)音的時(shí)代即將到來(lái)。
在我們雙手拿著東西時(shí),在我們運(yùn)動(dòng)時(shí),在我們不想看復(fù)雜的菜單時(shí),使用語(yǔ)音與手機(jī)交流將更簡(jiǎn)便。有“互聯(lián)網(wǎng)女皇”之稱的瑪麗·米克爾(Mary Meeker)也認(rèn)為,語(yǔ)音時(shí)代即將到來(lái)。她指出,語(yǔ)音是“計(jì)算機(jī)輸入最有效的形式”。我們每分鐘可以說(shuō)出150個(gè)單詞,而打字速度只有每分鐘40個(gè)單詞。通過(guò)語(yǔ)音,計(jì)算機(jī)可以更好地了解我們的意圖,從而進(jìn)行預(yù)測(cè)。我們不必每次都通過(guò)主頁(yè)屏幕去導(dǎo)航,直接就可以獲得想要的功能。
百度首席科學(xué)家吳恩達(dá)表示:“隨著語(yǔ)音識(shí)別的準(zhǔn)確率從95%上升至99%,我們所有人都會(huì)經(jīng)常使用語(yǔ)音識(shí)別。”隨著亞馬遜Alexa開(kāi)始吸引用戶和開(kāi)發(fā)者的關(guān)注,語(yǔ)音助手和語(yǔ)音搜索正在快速發(fā)展。
然而目前,語(yǔ)音界面的功能還很有限。Android系統(tǒng)和iOS中的Siri可以完成基本的聽(tīng)寫,但設(shè)備大聲讀出所有輸出信息也令人覺(jué)得不便。VoIP通話正在發(fā)展。在Facebook Messenger的10億用戶中,有3億人每月會(huì)使用語(yǔ)音和視頻通話功能。然而,大部分應(yīng)用仍沒(méi)有提供語(yǔ)音互動(dòng)機(jī)制。
巨頭的發(fā)力
Facebook于2015年收購(gòu)了語(yǔ)音和自然語(yǔ)言界面創(chuàng)業(yè)公司W(wǎng)it.ai,但到目前為止尚未公開(kāi)展示如何利用該公司的技術(shù)。目前,F(xiàn)acebook正在測(cè)試將語(yǔ)音消息轉(zhuǎn)換為文本,讓消息接收者可以一目了然。
上周,F(xiàn)acebook Messenger負(fù)責(zé)人大衛(wèi)·馬庫(kù)斯(David Marcus)表示,F(xiàn)acebook目前還沒(méi)有積極開(kāi)發(fā)語(yǔ)音技術(shù),但“未來(lái)某個(gè)時(shí)候,很明顯隨著我們給Messenger帶來(lái)越來(lái)越多功能和連接,我們將著手開(kāi)發(fā)語(yǔ)音互動(dòng)機(jī)制和界面。”
Facebook旗下WhatsApp已開(kāi)始在iOS 10系統(tǒng)中支持Siri。用戶可以用語(yǔ)音讓W(xué)hatsApp去發(fā)消息。未來(lái),Messenger或許也將支持這樣的功能。
對(duì)Facebook而言,更遠(yuǎn)大的目標(biāo)或許在于理解人類說(shuō)話的不同方式。我們與他人交流以及與計(jì)算機(jī)交流之間差別很大。一年前,有消息人士表示, Facebook機(jī)密的語(yǔ)言技術(shù)集團(tuán)正在探索這方面機(jī)會(huì)。
在與計(jì)算機(jī)互動(dòng)時(shí),我們的發(fā)音和用詞都會(huì)更正式。而在與好友交流時(shí),我們的講話通常更隨意,語(yǔ)速更快,充滿表情。例如,你可能會(huì)說(shuō):“OK,谷歌,向我展示附近的四星評(píng)價(jià)餐廳”。而在與好友交談時(shí),你會(huì)說(shuō):“旁邊有什么好地方去吃頓飯?”
如果Facebook希望記錄、閱讀及分析我們與好友交流的方式,那么或許需要開(kāi)發(fā)不同的語(yǔ)音識(shí)別引擎。
與此同時(shí),谷歌正準(zhǔn)備推出一款基于語(yǔ)音的消息應(yīng)用Allo。通過(guò)這款應(yīng)用,你還可以與谷歌AI助手交談,讓它幫你預(yù)訂餐廳或?qū)ふ覍?dǎo)航路線。Allo能夠很容易地判斷,你想要給誰(shuí)發(fā)什么樣的消息。就谷歌收購(gòu)API.AI而言,這將幫助該公司更好地分析用戶的語(yǔ)音和語(yǔ)句結(jié)構(gòu),從而準(zhǔn)確地了解用戶意圖。
如果用戶頻繁使用語(yǔ)音輸入,那么Facebook和谷歌等科技巨頭就可以更好地了解我們的情緒。這將幫助推動(dòng)它們服務(wù)的個(gè)性化。
隨著語(yǔ)音和AI助手API的發(fā)展,預(yù)計(jì)越來(lái)越多消息應(yīng)用將會(huì)支持語(yǔ)音命令。開(kāi)發(fā)者將開(kāi)發(fā)訂制的聊天機(jī)器人,在Facebook Messenger、Telegram和Slack等平臺(tái)上表述你的語(yǔ)音,而你完全不必打開(kāi)手機(jī)。
新一代藍(lán)牙耳機(jī)將給我們帶來(lái)持續(xù)開(kāi)啟的麥克風(fēng)。蘋果AirPods有著時(shí)尚的外觀,這或許將推動(dòng)人們長(zhǎng)時(shí)間佩戴無(wú)線耳機(jī)。
一旦你習(xí)慣于使用人工智能助手,或是點(diǎn)擊耳機(jī)去發(fā)消息,那么語(yǔ)音技術(shù)將從設(shè)備添頭變?yōu)楸夭豢缮俚脑亍_@意味著,我們不必花太多時(shí)間去盯著屏幕,而是更多地去關(guān)注周圍世界。