久久久久亚洲香蕉网,亚洲综合第一欧美日韩中文,亚洲欧洲日产国码二区在线

智能硬件時代，百度語音如何玩？

責任編輯：editor04

作者：羅超

2014-12-29 22:46:59

摘自：百度百家

摘要 : 比爾蓋茨說過，人們總是高估一項新技術(shù)在一兩年內(nèi)能夠做到的，卻低估語音在五到十年能做到的，語音就是曾經(jīng)被低估的技術(shù)，其潛力正在被激發(fā)出來。智能硬件需要語音來解決所存在的交互短板，最終實現(xiàn)人與人對話一樣的自然、簡單和智能化的交互模式。

摘要 : 比爾蓋茨說過，人們總是高估一項新技術(shù)在一兩年內(nèi)能夠做到的，卻低估語音在五到十年能做到的，語音就是曾經(jīng)被低估的技術(shù)，其潛力正在被激發(fā)出來。

年底，所有互聯(lián)網(wǎng)行業(yè)大會都會有智能硬件的位置，大佬們都在說，IOT（Internet of Things）時代來了。互聯(lián)網(wǎng)巨頭、傳統(tǒng)硬件公司、各色創(chuàng)業(yè)團隊，都擠在這個風口等著被吹起來。除了做產(chǎn)品的，還有一類玩家十分興奮地等著智能硬件火起來：語音技術(shù)團隊。2014年底，語音行業(yè)新聞不斷：云知聲完成5000萬美元A輪融資主攻智能家居，科大訊飛推出自己的語音智能音響硬件，百度語音涉足智能硬件領(lǐng)域……智能硬件正在成就語音，語音也在成就智能硬件。

一、語音交互正在爆發(fā)，尤其是智能硬件

智能硬件最熱的門類是可穿戴設(shè)備、智能家居、車聯(lián)網(wǎng)以及智能影音配件。所有這些設(shè)備的共同特點都是沒有鍵盤鼠標、絕大部分沒有自己的屏幕、幾乎都是與手機App協(xié)同工作。還有許多智能硬件的使用場景中，雙手并不方便，比如在駕駛過程中，再比如看電視離屏幕太遠，這時候必須要有脫離雙手的新型交互模式。正是因為這些原因，語音成為智能硬件最理想的交互方式之一。

具體來說，語音識別可以解決輸入部分，比如通過語音讓智能手表完成某個動作，發(fā)起一次搜索，再比如通過語音讓智能音響播放下一首歌曲，讓智能電視播放特定節(jié)目；語音合成可以實現(xiàn)交互反饋，比如語音播報搜索結(jié)果，語音播報導航指令；語義理解則可以解讀聲音背后的需求做出反饋，用戶可以很自然地對電飯鍋說，“明天早晨8點幫我煮一碗八寶粥”，智能電飯鍋解讀指令并準備行動；聲紋識別則可以實現(xiàn)個人ID鑒權(quán)，實現(xiàn)智能家居的開門、智能購物的支付等等。

反過來，語音技術(shù)雖然已發(fā)展多年卻一直未能走向大眾化。雖然在教育、交通等領(lǐng)域有諸多非常試用的行業(yè)應(yīng)用，但在大眾消費市場，智能語音交互上卻顯得有些高冷。Siri推出之后，Google Now跟進。而在國內(nèi)，百度語音助手等應(yīng)用也先后推出，但它們都未成為一個高頻、剛需和普及應(yīng)用，更多是用戶打發(fā)無聊時間的玩具。智能硬件則有助于語音交互的普及，讓語音成為真正的剛需應(yīng)用。

智能硬件需要語音來解決所存在的交互短板，最終實現(xiàn)人與人對話一樣的自然、簡單和智能化的交互模式。語音市場也想要抓住正在爆發(fā)的智能硬件市場，抓住被用戶大量高頻使用的機會。

二、百度切入語音交互：互聯(lián)網(wǎng)巨頭的新玩法

語音市場并不是全新的。美國有Nuance這類老牌巨頭，中國有科大訊飛這樣的百億元市值公司以及云知聲、思必馳等后來者，除了專業(yè)公司之外，Apple、 Google、微軟、百度、搜狗、微信在語音技術(shù)上均有所投入。中國最近動作最大的玩家則是百度。在科大訊飛等語音巨頭深耕10多年的背景之下，百度打算如何玩？

1、 完全不同的技術(shù)原理。

傳統(tǒng)語音識別技術(shù)基于概率論和統(tǒng)計學，需要人工監(jiān)督。百度語音則是基于深度學習，以百度大腦為基礎(chǔ)，百度大腦是百度在人工智能時代的核心智能平臺，圖像識別、自然語言處理，均會基于百度大腦。百度語音由GPU深度學習基礎(chǔ)設(shè)施支撐，不僅更準確，識別所需的運算更加快速和經(jīng)濟。除了識別之外，在語義理解上一直專攻自然語言搜索的百度優(yōu)勢更是不言而喻。

而百度語音開放平臺負責人張克寧則透露，傳統(tǒng)語音平臺基于已有技術(shù)已經(jīng)很難再有大的改進，百度語音基于全新的技術(shù)原理更有機會取得突破性進展，比如抗噪技術(shù)、響應(yīng)時間等都有突出表現(xiàn)。今年8月，科大訊飛在百度大腦問世之后，對外正式宣布要推出“超腦計劃”，以應(yīng)對以百度大腦為代表的新一波語音技術(shù)浪潮，這個計劃要實現(xiàn)基于類人神經(jīng)網(wǎng)絡(luò)的認知智能引擎，而它的推出也在一定程度上驗證了傳統(tǒng)語音玩法已慢慢過時，未來幾年語音技術(shù)會有爆發(fā)式的突破。

2、 完全不同的平臺玩法。

任何語音平臺最終都要比拼合作伙伴數(shù)量，這決定用戶數(shù)量和使用情況。更多人使用語音將能貢獻更多的語料等數(shù)據(jù)，幫助語音效果不斷提升。目前，科大訊飛擁有的合作伙伴數(shù)量可能在行業(yè)里位居前列，開發(fā)者也達到數(shù)萬級別。百度語音平臺此次正式開放則有著完全不同的思路。

百度語音平臺與百度的內(nèi)容深度融合，比如百科知識、地圖路線、問答結(jié)果、天氣等中間頁服務(wù)，面向智能硬件還有百度Inside等平臺，百度可以提供多種不同的模板便于開發(fā)者整合，GoogleNow比Siri表現(xiàn)更好正是因為內(nèi)容更強。百度語音開放平臺基于API和離線包，支持混合模式，針對不同行業(yè)提供不同的模板，而不是為每家企業(yè)量身打造，也不是基于License的軟件包形式，是更加“互聯(lián)網(wǎng)”的開放平臺。

3、 與行業(yè)玩家完全不同的目的。

百度要做智能生態(tài)，語音只是開放的一部分，百度還有大數(shù)據(jù)引擎、百度云、百度地圖、百度圖像識別等多維度API開放出來。百度語音開放，為的是用戶、流量和數(shù)據(jù)，通過在不同設(shè)備和不同APP中滲透進百度語音，夯實入口。傳統(tǒng)語音玩家就算免費提供語音能力，最終還是要通過增值服務(wù)賺錢。百度語音為的是服務(wù)，被百度視作連接服務(wù)的一種方式和必備的能力，傳統(tǒng)語音玩家則是把語音作為自己的看家本領(lǐng)想辦法基于語音衍伸一個新的生態(tài)實現(xiàn)盈利。

三、語音未來走向何方？突破技術(shù)瓶頸成為必備交互手段

盡管智能硬件給語音帶來新一波機會，但語音技術(shù)依然存在著不少瓶頸，其中典型的有移動網(wǎng)絡(luò)、識別能力、抗噪能力、遠場交互、方言識別還有語義理解。不過這些瓶頸正在一個又一個被攻克，比如4G網(wǎng)絡(luò)普及和離線語音技術(shù)就可以很大程度解決網(wǎng)絡(luò)問題，再比如深度語音識別可以提升語義理解、語音識別和抗噪能力。在傳統(tǒng)語音巨頭和互聯(lián)網(wǎng)語音玩家的合力之下，這些瓶頸最終都會消失。

未來，語音交互與人工智能、深度學習、云端內(nèi)容深度耦合，語音識別能力并不是孤立存在的，將語音轉(zhuǎn)化為文字之后，能夠提供什么、能夠做什么，才是關(guān)鍵所在。這就需要與云端內(nèi)容和服務(wù)、與人工智能深度結(jié)合起來。這樣看來，搜索引擎在做語音上有著得天獨厚的條件。語音正在成為新的搜索入口，IOT時代，語音即搜索。

還有一個趨勢是，語音會與不同行業(yè)深度結(jié)合。比如教育行業(yè)的口語評測、兒童歌曲、兒童互動教育，再比如呼叫中心的語音客服。這都需要對行業(yè)深厚的理解和足夠定制化的解決方案。科大訊飛這類傳統(tǒng)語音巨頭已經(jīng)在某些行業(yè)深耕，其他的行業(yè)機會則留給了開發(fā)者，基于百度、訊飛等公司的語音開放能力，與行業(yè)結(jié)合實現(xiàn)行業(yè)定制化的語音方案。

值得一提的是，語音并不是萬能的，未來的交互一定是多元化的，文字、圖像、視頻、體感、觸感都不會消失，不同產(chǎn)品、不同場景，會有不同的交互訴求。語音雖然很重要，但也只是其中一種。比爾蓋茨說過，人們總是高估一項新技術(shù)在一兩年內(nèi)能夠做到的，卻低估語音在五到十年能做到的，語音就是曾經(jīng)被低估的技術(shù)，其潛力正在被激發(fā)出來。

語音技術(shù) 語音能力 Nuance