蘋果日前聲明稱,已收購英國人工智能語音技術公司VocalIQ,雖具體收購價格尚未公布,但業內人士表示,此次收購可能幫助蘋果改進虛擬語音助手Siri,并有望進一步推進蘋果的汽車項目。
近幾年,日產、凱迪拉克等車企探索后視鏡智能,并通過依靠語音進行操控,而這些智能語音方案是達訊偉業和科大訊飛深度合作的產物。在炙手可熱的智能家居市場中,以語音交互為基礎的人機互動模式,也逐步成為標準性功能配置。
繼手動人機交互之后,語音交互領域成為智能領域的另一入口,被各大巨頭爭相搶奪。
巨頭持續投入
VocalIQ源于劍橋大學旗下Dialogue Systems Group(對話系統集團),專注于自然語言的理解。其通過使用深度學習來改進語言識別,試圖打造科幻影片《鋼鐵俠》中的Jarvis或《她》中的Samantha。由此,VocalIQ的技術能改進Siri、Google Now、Cortana、Alexa(亞馬遜)等一系列虛擬語音助手。
目前,蘋果公司的Siri等語音助手,主要依賴于腳本對話,對特定指令做出應答。但通過VocalIQ技術,可以使用戶以會話方式而非設備能理解的提示性語言與設備交互。蘋果收購VocalIQ,顯然可以通過該技術改進Siri。
更重要的是,收購VocalIQ還可以推進蘋果汽車項目的發展。據悉,今年年初,VocalIQ在官方博客中表示,“車載語音對話系統”能預防駕駛員在駕駛汽車時,因注視車窗外景色而分心。而更早前,VocalIQ與通用汽車聯合開發車載語音識別項目。
事實上,VocalIQ是蘋果“進入”汽車市場收購的第二家公司。今年9月份,蘋果以2500萬美元收購地圖可視化公司Mapsense,其主要業務是打造用來分析和可視化位置數據的工具。例如,不同于蘋果的Siri和微軟的Cortana的愈趨人性化反應,Google Now的「Ok, Google」語言搜尋引擎,一直在專注更準確地分析使用者的話語。谷歌最新在其官方博客中,向我們解釋了他們最新應用至其語言搜尋功能的演算法,能通過預測使用者說話的音位(phoneme)來提升準確度。
巨頭在智能語音領域沒少燒錢,從語音智能生態系統來看,主要有基于Nuance的蘋果Siri與三星S-Voice、谷歌Android的Google Now、微軟Windows Phone的Cortana三大版圖。
爭奪新智能入口
大佬的布局是為爭奪智能領域的另一入口。近年來,科技創新帶來人機交互終端智能化程度的不斷提升,傳統的交互方式難以全方位滿足用戶需求,而以語音交互為基礎的包括圖像、體感在內的第三代人際交互模式,正發揮著越來越顯著的作用。
但智能語音技術的技術壁壘很高,需要企業在統計學、聲學、語言學、計算機科學等多個領域,具有較強綜合實力。同時,智能語音技術研究周期長、投入大,如IBM已在語音技術領域持續研發近30年。在全球范圍內來看,僅有少數廠商在語音市場具備較強競爭力,包括Nuance、IBM、微軟、Google等跨國IT企業。國內語音技術市場則處于市場導入期。
現階段,智能語音其實并不夠智能,準確率低、網絡依賴的一系列問題,仍在很大程度上影響了語音交互的用戶體驗。在語音輸入時必須有意字正腔圓地說話,顯然這樣識別率更高,但人和人在真正交流時并不會如此,有時會說得很快,有時聲音則會很低。同時,在噪聲及使用方言等情況下,識別率會顯著降低。
同時,智能化水平不高,不能理解做出思考的問題更大。目前語音技術還難以實現對語義的深層次理解,只是將平臺的語音識別模塊嫁接到軟件中,并沒有解決語音識別后如何將內容“翻譯”成機器理解的指令問題。如果這一點沒有解決,語音技術也僅能起到聽寫引擎的作用。
可喜的是,當前,語音技術的應用范圍正在不斷擴寬,也衍生出一系列對語音交互存在剛性需求的場景。例如以可穿戴設備為代表的小型化、便攜式終端的交互;遠距離、大屏幕終端交互,如智能電視、智能家居、消費機器人等;汽車等不方便使用雙手的場景中人機交互。也就是說,應用反向推動技術的進步。
產業即將進入爆發期
由于智能可穿戴設備屏幕一般不會太大,甚至沒有觸控屏幕,因此更加便利的人機交互,就需使用語音進行控制。比如,可穿戴設備的先驅谷歌眼鏡,就搭載了智能語音系統,用戶通過fiOK Glassfl這句話就可以啟動智能對話,然后通過語音就能獲得通知及提醒,并在網絡環境下,可以通過語音給別人發送短信。此外,包括索尼發布SWR30語音手環,以及全球首款中文智能手表操作系統Moto 360智能手表,均以語音交互為其賣點。隨著可穿戴設備在未來滲透率的不斷提升,語音交互應用領域將不斷拓寬。
在大屏領域的應用集中在智能電視,包括康佳、長虹、TCL、LG、樂視等,均搭載非常強大語音交互功能,可以通過語音輸入,實現包括查收影視劇、聽歌、發送微博、開關電視等各種實用的功能。在智能家居中,搭載語音方案也是必不可少的,如蘋果發布的智能家居 HomeKit,也是采取與Siri協作的方式,用戶可以使用自然語句來發出各種命令,例如“關上我的前門”、“打開廚房的燈”。Siri還能告訴用戶家里物品的狀態,回答如“我的車庫是開著嗎?”這樣的問題。在未來家庭用的消費人興起之后,語音技術還將面臨更大市場。
汽車領域則是另一爭奪的焦點,由于在駕駛汽車的過程中,使用按鍵或觸控容易引發安全問題,因此各大車廠在前裝控制系統中也均搭載了語音控制方案。
分析人士指出,語音技術水平的提升,與其商用價值的釋放,并未能呈現出完全的線性關系。雖語音技術發展已歷經長達數十年時間,但由于并未突破大規模商用的節點,因此目前市場規模仍停留在十億量級。近年來,隨著技術不斷沉淀,以及語音交互場景的不斷拓寬,也預示著語音商用價值的顯著提升,語音產業發展即將進入爆發期。