伊人久久成人爱综合网,无国产精品白浆是免费,欧美综合精品一区二区三区

從"聽話"到"懂話"：智能語音交互的進化

責任編輯：editor007

作者：CN314

2015-01-15 17:19:32

摘自：新浪科技

以上這些因素，造成之前的手機語音功能識別率太低，如同雞肋，所以也沒有在手機中起到決定性的作用。據咨詢公司統計和預測，近兩年國內智能終端語音交互市場使用群體或將達到驚人的規模：

語音交互的進化歷程

回顧人類發展歷史，不難看出，隨著人類不斷進化，從最初通過手掌、肢體使用簡單工具、傳遞簡單信息，發展到控制發聲并通過耳朵接收，形成了一個以語音為載體的快速信息傳遞通道和收發閉環，成為人類間最自然、最重要的信息交互手段。聲波作為一種音頻信號，和視頻信號、無線電信號一樣是，非接觸方式傳播，也是人類唯一可以不借助工具就可自由掌控的一種天然“無線”資源。

而且聲波對接收指向性的要求更寬松，這個非常寶貴的特性會在很多場景下帶來極大便利。特別是對于一些在視覺、觸覺等方面存在障礙(如老年人、弱視、殘障人士)或不適合(如兒童需要保護視力)的龐大特定人群，語音更是最佳的交互選擇。

而作為這種功能在移動端延伸，手機相關的語音交互功能最早要追溯到十幾年前的功能機時代。它最初是以語音撥號的形式來實現這種交互，當時以摩托羅拉、諾基亞為首的一批國外手機廠商，通過預先錄制預存用戶的語音樣本，然后使用時由用戶進行語音口述，比對預留樣本，從而實現語音撥號的功能。

這項功能后續進行了進一步的發展，例如摩托羅拉在其A系列上從語音撥號進化到語音控制層面，就是通過語音能控制手機發短信、打開應用程序諸如音樂等。但是，這一階段的語音交互技術有個致命的問題，就是準確性不高。因為它采用的是通過預存樣本比對的技術來實現，這樣的技術受限度很大，主要有以下三個：

A、受外界背景噪音干擾：因為是采用的樣本音頻分析對比，所以對來源音頻的質量要求較高，如果來源音頻背景噪音太嚴重，會造成與預留樣本不符而比對失敗。想想，你在一個安靜的環境里錄完音，然后在大街上去使用，這種成功率會高嗎？

B、使用者發音前后不一干擾：

同樣的道理，你預留的樣本音頻是健康時的，而使用時因為風寒感冒了，很可能會造成比對失敗，這樣也會影響成功率。

C、其它使用者無法使用：你的樣本是你自己的，如果換成你的愛人，或者小孩，按照這種樣本對比，就根本無法使用了。

以上這些因素，造成之前的手機語音功能識別率太低，如同雞肋，所以也沒有在手機中起到決定性的作用。

語音交互的新時代來臨

進入到智能操作系統時代，手機、平板、可穿戴、智能家居、智能汽車等不斷出現，各種業務、軟件、應用也迅速普及，而且越來越多應用也開始引入語音功能，有助于培養用戶使用習慣，語音交互迎來了春天般的新時代機遇。

據咨詢公司統計和預測，近兩年國內智能終端語音交互市場使用群體或將達到驚人的規模：

分析當前語音交互的熱潮，主要具備了以下幾個主要原因：

A、人工智能算法突破

前述我們講的過去的語音識別主要原理是模式匹配法，即在訓練階段，用戶將詞匯表中的詞依次說一遍，并且將其特征矢量作為模板存入模板庫。在識別階段，將輸入語音的特征矢量依次與模板庫中的每個模板進行相似度比較，將相似度最高者作為識別結果輸出。

而現在的技術突破方向是“機器學習”，通過語音識別聲學模型訓練，使用帶預訓練的多層神經網絡，語音識別錯誤率可降低30%，是近20年來語音識別技術方面最快的進步。

B、大數據的靈活應用

隨著及手機、平板、可穿戴等各種移動智能終端的普及應用，已經可以從多個渠道獲取大量文本或語音方面的語料，這為語音識別中的語言模型和聲學模型的訓練提供了豐富的資源，使得構建通用大規模語言模型和聲學模型成為可能。

而在語音識別中，訓練數據的匹配和豐富性是推動系統性能提升的最重要因素之一，但是語料的標注和分析需要長期的積累和沉淀，隨著大數據時代的來臨，大規模語料資源的積累成為現實并將提升到戰略高度。

C、高速移動數據網絡打通大動脈

2/3G時代，流量的限制使得語音交互技術無限制使用的條件不足，海量語音資料庫累積較慢，限制了語音辨識與語義理解的提升；而如果局限于本地模式下，又缺乏大數據處理的支撐導致語音辨識率低，影響用戶體驗，使用頻次下降，形成負反饋，就如同前十幾年那種雞肋的局面。

4G時代，手機網速大大提高，語音應用的頻次和范圍不斷增加，海量語音資料庫迅速增長；語音辨識準確率以及語音分析能力大大提升，而語音辨識精確度與語義理解能力的提升，又將進一步推動語音交互發展提升體驗，形成正向反饋，帶動語音交互應用更加豐富。

簡單總結，就是人工算法實現功能上的智能化，大數據形成大量的聲學模型，保障誤別的成功率，而4G高速網絡能講樣本快速上傳并下載相應的識別結果，提升用戶體驗。從這個層面上講，現在語音識別已經不僅僅是“聽”這個層面上，更多的是朝聽完之后“懂”的層面上發展，成為用戶真正的助力幫手。

語音交互的未來

隨著人類對智能設備的依賴和人機之間的交互日益頻繁，原有的操控方式變得越來越復雜、效率低下，迫切需要誕生一種新的更簡便的操作方式；而語音一旦成為主流的交互手段，可以做到各種設備指令統一、簡潔，大大降低人類對智能設備操作的要求、節省人機互動的時間。

哪些人群會在語音交互的這股浪潮中得到益處？語音交互的智能化又能給行業帶來什么樣的新動向？

首先，隨著智能設備和應用的影響逐漸擴大，用戶群逐步向老齡人群、低齡人群、身體殘障人群滲透擴散的趨勢非常明顯，而對這些新進入人群而言，原有的觸控交互方式或許并不太適合，用戶習慣也未形成，例如老年人視力下降、手指也不夠靈活；低齡兒童還不能掌握手寫等能力也不適合長時間看電子屏幕；弱視/盲人更希望接受語音信息和發出語音指令，等等，因此語音交互也更適合拓展智能設備新的用戶人群。

其次，語音交互可能會成為繼搜索引擎、瀏覽器、智能手機OS之后，第四代的入口。語音識別將使人機交互能夠以人類最熟悉的方式進行，其優勢以及價值一旦發揮出來，天然的交互入口起到導流作用，將對即時通訊、搜索、購物、LBS等垂直應用服務市場產生巨大的影響，而且語音交互將凌駕于搜索引擎、瀏覽器等其他應用入口之上，形成一個以語音交互技術為核心的全新應用生態鏈，前景極為看好，這也正是產業巨頭紛紛在這一領域投入巨大資源的根本原因。

語音交互產業鏈的形成

當前，從整個產業鏈條來看，在語音交互技術領域，涌現出一大批優秀的中國企業，經過多年的積累，語音技術已不再是國際巨頭一家獨大的局面。如在核心技術研發環節，有小i機器人等智能機器人廠商，以及清華、中科院等人工智能技術研究院校和科研院所；人機交互技術及服務提供商，如科大訊飛、捷通華聲、車音網等語音技術提供商及微信、QQ等平臺服務商。在數據和內容提供商環節更是百花齊放，應用領域包括影視(百事通、優酷、土豆等)、音樂、餐飲(大眾點評、訂餐小秘書)、財經(新浪財經、東方財富網等)、天氣(問天網)、航班(攜程、去哪兒)、旅游(攜程、驢媽媽)、導航(高德、凱立德等)、政府、行業知識庫等細分行業；智能終端設備提供商中包括以中興、聯想、華為等為代表；智能電視領域有長虹、創維等智能電視提供商、機頂盒提供商，以及東方有線、百事通、中國電信IPTV以及機頂盒生產廠商、服務運營商等。

語音撥號特征矢量智能設備