摘要 : 比爾蓋茨說過,人們總是高估一項新技術(shù)在一兩年內(nèi)能夠做到的,卻低估語音在五到十年能做到的,語音就是曾經(jīng)被低估的技術(shù),其潛力正在被激發(fā)出來。
年底,所有互聯(lián)網(wǎng)行業(yè)大會都會有智能硬件的位置,大佬們都在說,IOT(Internet of Things)時代來了。互聯(lián)網(wǎng)巨頭、傳統(tǒng)硬件公司、各色創(chuàng)業(yè)團隊,都擠在這個風口等著被吹起來。除了做產(chǎn)品的,還有一類玩家十分興奮地等著智能硬件火起來:語音技術(shù)團隊。2014年底,語音行業(yè)新聞不斷:云知聲完成5000萬美元A輪融資主攻智能家居,科大訊飛推出自己的語音智能音響硬件,百度語音涉足智能硬件領(lǐng)域……智能硬件正在成就語音,語音也在成就智能硬件。
一、語音交互正在爆發(fā),尤其是智能硬件
智能硬件最熱的門類是可穿戴設(shè)備、智能家居、車聯(lián)網(wǎng)以及智能影音配件。所有這些設(shè)備的共同特點都是沒有鍵盤鼠標、絕大部分沒有自己的屏幕、幾乎都是與手機App協(xié)同工作。還有許多智能硬件的使用場景中,雙手并不方便,比如在駕駛過程中,再比如看電視離屏幕太遠,這時候必須要有脫離雙手的新型交互模式。正是因為這些原因,語音成為智能硬件最理想的交互方式之一。
具體來說,語音識別可以解決輸入部分,比如通過語音讓智能手表完成某個動作,發(fā)起一次搜索,再比如通過語音讓智能音響播放下一首歌曲,讓智能電視播放特定節(jié)目;語音合成可以實現(xiàn)交互反饋,比如語音播報搜索結(jié)果,語音播報導航指令;語義理解則可以解讀聲音背后的需求做出反饋,用戶可以很自然地對電飯鍋說,“明天早晨8點幫我煮一碗八寶粥”,智能電飯鍋解讀指令并準備行動;聲紋識別則可以實現(xiàn)個人ID鑒權(quán),實現(xiàn)智能家居的開門、智能購物的支付等等。
反過來,語音技術(shù)雖然已發(fā)展多年卻一直未能走向大眾化。雖然在教育、交通等領(lǐng)域有諸多非常試用的行業(yè)應(yīng)用,但在大眾消費市場,智能語音交互上卻顯得有些高冷。Siri推出之后,Google Now跟進。而在國內(nèi),百度語音助手等應(yīng)用也先后推出,但它們都未成為一個高頻、剛需和普及應(yīng)用,更多是用戶打發(fā)無聊時間的玩具。智能硬件則有助于語音交互的普及,讓語音成為真正的剛需應(yīng)用。
智能硬件需要語音來解決所存在的交互短板,最終實現(xiàn)人與人對話一樣的自然、簡單和智能化的交互模式。語音市場也想要抓住正在爆發(fā)的智能硬件市場,抓住被用戶大量高頻使用的機會。
二、百度切入語音交互:互聯(lián)網(wǎng)巨頭的新玩法
語音市場并不是全新的。美國有Nuance這類老牌巨頭,中國有科大訊飛這樣的百億元市值公司以及云知聲、思必馳等后來者,除了專業(yè)公司之外,Apple、 Google、微軟、百度、搜狗、微信在語音技術(shù)上均有所投入。中國最近動作最大的玩家則是百度。在科大訊飛等語音巨頭深耕10多年的背景之下,百度打算如何玩?
1、 完全不同的技術(shù)原理。
傳統(tǒng)語音識別技術(shù)基于概率論和統(tǒng)計學,需要人工監(jiān)督。百度語音則是基于深度學習,以百度大腦為基礎(chǔ),百度大腦是百度在人工智能時代的核心智能平臺,圖像識別、自然語言處理,均會基于百度大腦。百度語音由GPU深度學習基礎(chǔ)設(shè)施支撐,不僅更準確,識別所需的運算更加快速和經(jīng)濟。除了識別之外,在語義理解上一直專攻自然語言搜索的百度優(yōu)勢更是不言而喻。
而百度語音開放平臺負責人張克寧則透露,傳統(tǒng)語音平臺基于已有技術(shù)已經(jīng)很難再有大的改進,百度語音基于全新的技術(shù)原理更有機會取得突破性進展,比如抗噪技術(shù)、響應(yīng)時間等都有突出表現(xiàn)。今年8月,科大訊飛在百度大腦問世之后,對外正式宣布要推出“超腦計劃”,以應(yīng)對以百度大腦為代表的新一波語音技術(shù)浪潮,這個計劃要實現(xiàn)基于類人神經(jīng)網(wǎng)絡(luò)的認知智能引擎,而它的推出也在一定程度上驗證了傳統(tǒng)語音玩法已慢慢過時,未來幾年語音技術(shù)會有爆發(fā)式的突破。
2、 完全不同的平臺玩法。
任何語音平臺最終都要比拼合作伙伴數(shù)量,這決定用戶數(shù)量和使用情況。更多人使用語音將能貢獻更多的語料等數(shù)據(jù),幫助語音效果不斷提升。目前,科大訊飛擁有的合作伙伴數(shù)量可能在行業(yè)里位居前列,開發(fā)者也達到數(shù)萬級別。百度語音平臺此次正式開放則有著完全不同的思路。
百度語音平臺與百度的內(nèi)容深度融合,比如百科知識、地圖路線、問答結(jié)果、天氣等中間頁服務(wù),面向智能硬件還有百度Inside等平臺,百度可以提供多種不同的模板便于開發(fā)者整合,GoogleNow比Siri表現(xiàn)更好正是因為內(nèi)容更強。百度語音開放平臺基于API和離線包,支持混合模式,針對不同行業(yè)提供不同的模板,而不是為每家企業(yè)量身打造,也不是基于License的軟件包形式,是更加“互聯(lián)網(wǎng)”的開放平臺。
3、 與行業(yè)玩家完全不同的目的。
百度要做智能生態(tài),語音只是開放的一部分,百度還有大數(shù)據(jù)引擎、百度云、百度地圖、百度圖像識別等多維度API開放出來。百度語音開放,為的是用戶、流量和數(shù)據(jù),通過在不同設(shè)備和不同APP中滲透進百度語音,夯實入口。傳統(tǒng)語音玩家就算免費提供語音能力,最終還是要通過增值服務(wù)賺錢。百度語音為的是服務(wù),被百度視作連接服務(wù)的一種方式和必備的能力,傳統(tǒng)語音玩家則是把語音作為自己的看家本領(lǐng)想辦法基于語音衍伸一個新的生態(tài)實現(xiàn)盈利。
三、語音未來走向何方?突破技術(shù)瓶頸成為必備交互手段
盡管智能硬件給語音帶來新一波機會,但語音技術(shù)依然存在著不少瓶頸,其中典型的有移動網(wǎng)絡(luò)、識別能力、抗噪能力、遠場交互、方言識別還有語義理解。不過這些瓶頸正在一個又一個被攻克,比如4G網(wǎng)絡(luò)普及和離線語音技術(shù)就可以很大程度解決網(wǎng)絡(luò)問題,再比如深度語音識別可以提升語義理解、語音識別和抗噪能力。在傳統(tǒng)語音巨頭和互聯(lián)網(wǎng)語音玩家的合力之下,這些瓶頸最終都會消失。
未來,語音交互與人工智能、深度學習、云端內(nèi)容深度耦合,語音識別能力并不是孤立存在的,將語音轉(zhuǎn)化為文字之后,能夠提供什么、能夠做什么,才是關(guān)鍵所在。這就需要與云端內(nèi)容和服務(wù)、與人工智能深度結(jié)合起來。這樣看來,搜索引擎在做語音上有著得天獨厚的條件。語音正在成為新的搜索入口,IOT時代,語音即搜索。
還有一個趨勢是,語音會與不同行業(yè)深度結(jié)合。比如教育行業(yè)的口語評測、兒童歌曲、兒童互動教育,再比如呼叫中心的語音客服。這都需要對行業(yè)深厚的理解和足夠定制化的解決方案。科大訊飛這類傳統(tǒng)語音巨頭已經(jīng)在某些行業(yè)深耕,其他的行業(yè)機會則留給了開發(fā)者,基于百度、訊飛等公司的語音開放能力,與行業(yè)結(jié)合實現(xiàn)行業(yè)定制化的語音方案。
值得一提的是,語音并不是萬能的,未來的交互一定是多元化的,文字、圖像、視頻、體感、觸感都不會消失,不同產(chǎn)品、不同場景,會有不同的交互訴求。語音雖然很重要,但也只是其中一種。比爾蓋茨說過,人們總是高估一項新技術(shù)在一兩年內(nèi)能夠做到的,卻低估語音在五到十年能做到的,語音就是曾經(jīng)被低估的技術(shù),其潛力正在被激發(fā)出來。