語音交互的進化歷程
回顧人類發展歷史,不難看出,隨著人類不斷進化,從最初通過手掌、肢體使用簡單工具、傳遞簡單信息,發展到控制發聲并通過耳朵接收,形成了一個以語音為載體的快速信息傳遞通道和收發閉環,成為人類間最自然、最重要的信息交互手段。聲波作為一種音頻信號,和視頻信號、無線電信號一樣是,非接觸方式傳播,也是人類唯一可以不借助工具就可自由掌控的一種天然“無線”資源。
而且聲波對接收指向性的要求更寬松,這個非常寶貴的特性會在很多場景下帶來極大便利。特別是對于一些在視覺、觸覺等方面存在障礙(如老年人、弱視、殘障人士)或不適合(如兒童需要保護視力)的龐大特定人群,語音更是最佳的交互選擇。
而作為這種功能在移動端延伸,手機相關的語音交互功能最早要追溯到十幾年前的功能機時代。它最初是以語音撥號的形式來實現這種交互,當時以摩托羅拉、諾基亞為首的一批國外手機廠商,通過預先錄制預存用戶的語音樣本,然后使用時由用戶進行語音口述,比對預留樣本,從而實現語音撥號的功能。
這項功能后續進行了進一步的發展,例如摩托羅拉在其A系列上從語音撥號進化到語音控制層面,就是通過語音能控制手機發短信、打開應用程序諸如音樂等。但是,這一階段的語音交互技術有個致命的問題,就是準確性不高。因為它采用的是通過預存樣本比對的技術來實現,這樣的技術受限度很大,主要有以下三個:
A、受外界背景噪音干擾:因為是采用的樣本音頻分析對比,所以對來源音頻的質量要求較高,如果來源音頻背景噪音太嚴重,會造成與預留樣本不符而比對失敗。想想,你在一個安靜的環境里錄完音,然后在大街上去使用,這種成功率會高嗎?
B、使用者發音前后不一干擾:
同樣的道理,你預留的樣本音頻是健康時的,而使用時因為風寒感冒了,很可能會造成比對失敗,這樣也會影響成功率。
C、其它使用者無法使用:你的樣本是你自己的,如果換成你的愛人,或者小孩,按照這種樣本對比,就根本無法使用了。
以上這些因素,造成之前的手機語音功能識別率太低,如同雞肋,所以也沒有在手機中起到決定性的作用。
語音交互的新時代來臨
進入到智能操作系統時代,手機、平板、可穿戴、智能家居、智能汽車等不斷出現,各種業務、軟件、應用也迅速普及,而且越來越多應用也開始引入語音功能,有助于培養用戶使用習慣,語音交互迎來了春天般的新時代機遇。
據咨詢公司統計和預測,近兩年國內智能終端語音交互市場使用群體或將達到驚人的規模:
分析當前語音交互的熱潮,主要具備了以下幾個主要原因:
A、人工智能算法突破
前述我們講的過去的語音識別主要原理是模式匹配法,即在訓練階段,用戶將詞匯表中的詞依次說一遍,并且將其特征矢量作為模板存入模板庫。在識別階段,將輸入語音的特征矢量依次與模板庫中的每個模板進行相似度比較,將相似度最高者作為識別結果輸出。
而現在的技術突破方向是“機器學習”,通過語音識別聲學模型訓練,使用帶預訓練的多層神經網絡,語音識別錯誤率可降低30%,是近20年來語音識別技術方面最快的進步。
B、大數據的靈活應用
隨著及手機、平板、可穿戴等各種移動智能終端的普及應用,已經可以從多個渠道獲取大量文本或語音方面的語料,這為語音識別中的語言模型和聲學模型的訓練提供了豐富的資源,使得構建通用大規模語言模型和聲學模型成為可能。
而在語音識別中,訓練數據的匹配和豐富性是推動系統性能提升的最重要因素之一,但是語料的標注和分析需要長期的積累和沉淀,隨著大數據時代的來臨,大規模語料資源的積累成為現實并將提升到戰略高度。
C、高速移動數據網絡打通大動脈
2/3G時代,流量的限制使得語音交互技術無限制使用的條件不足,海量語音資料庫累積較慢,限制了語音辨識與語義理解的提升;而如果局限于本地模式下,又缺乏大數據處理的支撐導致語音辨識率低,影響用戶體驗,使用頻次下降,形成負反饋,就如同前十幾年那種雞肋的局面。
4G時代,手機網速大大提高,語音應用的頻次和范圍不斷增加,海量語音資料庫迅速增長;語音辨識準確率以及語音分析能力大大提升,而語音辨識精確度與語義理解能力的提升,又將進一步推動語音交互發展提升體驗,形成正向反饋,帶動語音交互應用更加豐富。
簡單總結,就是人工算法實現功能上的智能化,大數據形成大量的聲學模型,保障誤別的成功率,而4G高速網絡能講樣本快速上傳并下載相應的識別結果,提升用戶體驗。從這個層面上講,現在語音識別已經不僅僅是“聽”這個層面上,更多的是朝聽完之后“懂”的層面上發展,成為用戶真正的助力幫手。
語音交互的未來
隨著人類對智能設備的依賴和人機之間的交互日益頻繁,原有的操控方式變得越來越復雜、效率低下,迫切需要誕生一種新的更簡便的操作方式;而語音一旦成為主流的交互手段,可以做到各種設備指令統一、簡潔,大大降低人類對智能設備操作的要求、節省人機互動的時間。
哪些人群會在語音交互的這股浪潮中得到益處?語音交互的智能化又能給行業帶來什么樣的新動向?
首先,隨著智能設備和應用的影響逐漸擴大,用戶群逐步向老齡人群、低齡人群、身體殘障人群滲透擴散的趨勢非常明顯,而對這些新進入人群而言,原有的觸控交互方式或許并不太適合,用戶習慣也未形成,例如老年人視力下降、手指也不夠靈活;低齡兒童還不能掌握手寫等能力也不適合長時間看電子屏幕;弱視/盲人更希望接受語音信息和發出語音指令,等等,因此語音交互也更適合拓展智能設備新的用戶人群。
其次,語音交互可能會成為繼搜索引擎、瀏覽器、智能手機OS之后,第四代的入口。語音識別將使人機交互能夠以人類最熟悉的方式進行,其優勢以及價值一旦發揮出來,天然的交互入口起到導流作用,將對即時通訊、搜索、購物、LBS等垂直應用服務市場產生巨大的影響,而且語音交互將凌駕于搜索引擎、瀏覽器等其他應用入口之上,形成一個以語音交互技術為核心的全新應用生態鏈,前景極為看好,這也正是產業巨頭紛紛在這一領域投入巨大資源的根本原因。
語音交互產業鏈的形成
當前,從整個產業鏈條來看,在語音交互技術領域,涌現出一大批優秀的中國企業,經過多年的積累,語音技術已不再是國際巨頭一家獨大的局面。如在核心技術研發環節,有小i機器人等智能機器人廠商,以及清華、中科院等人工智能技術研究院校和科研院所;人機交互技術及服務提供商,如科大訊飛、捷通華聲、車音網等語音技術提供商及微信、QQ等平臺服務商。在數據和內容提供商環節更是百花齊放,應用領域包括影視(百事通、優酷、土豆等)、音樂、餐飲(大眾點評、訂餐小秘書)、財經(新浪財經、東方財富網等)、天氣(問天網)、航班(攜程、去哪兒)、旅游(攜程、驢媽媽)、導航(高德、凱立德等)、政府、行業知識庫等細分行業;智能終端設備提供商中包括以中興、聯想、華為等為代表;智能電視領域有長虹、創維等智能電視提供商、機頂盒提供商,以及東方有線、百事通、中國電信IPTV以及機頂盒生產廠商、服務運營商等。