2月2日,人民網輿情數據中心與搜狗知音聯合發布了《智能語音大數據分析報告》,報告認為社會已飛速進入智能語音輸入時代,并深刻改變了網民的上網習慣及人們的社會生活。以搜狗知音為代表的智能語音技術,準確率達97%以上,并已經在互聯網、教育醫療、車載軟件、智能家居等領域廣泛應用,實現了從概念、技術到商業產品、功能應用的跨越。其智能性、快速性、無需動手性不但能滿足用戶多種復雜需求,也打破了中外語言、地區方言差異的壁壘,實現了無障礙交流溝通。
語音識別是一門交叉學科,也被稱為自動語音識別。其目標是將人類的語音中的詞匯內容轉換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。與說話人識別及說話人確認不同,后者嘗試識別或確認發出語音的說話人而非其中所包含的詞匯內容。
語音識別技術在國際的發展
早在三四十年前,美國的一些大學和實驗室就開始了語音識別技術的研究,50年代的AT&T Bell實驗室研發的Audry系統第一個實現了可識別十個英文數字。60和70年代,提出了線性預測分析技術(LP)等相關理論并深入研究,創造出可以實現特定人孤立語音識別系統;
80年代和90年代是語音識別技術應用研究方向的高潮,HMM模型和人工神經元網絡(ANN)的成功應用,使得語音識別系統的性能比以往更優異;伴隨著多媒體時代的來臨,微軟,Apple等著名公司都研發出相當成功的商業應用語音識別系統,比如,Apple的Siri系統,微軟的Phone Query(電話語音識別)引擎等。
語音識別技術在國內的發展
我國的語音識別研究工作雖然起步較晚,但由于國家的重視,研究工作進展順利,相關研究緊跟國際水平。由于中國有不可忽視的龐大市場,國外對中國的語音識別技術也非常重視,漢語語音語義的特殊性也使得中文語音識別技術的研究更具有挑戰。但是,國內研究機構在進行理論研究的同時,應注重語音識別系統在商業中的應用,加快從實驗室演示系統到商品的轉化。
二十世紀末,語音識別系統已經在電腦游戲和玩具,不同樂器的控制,數據采集和聽寫等方面發現了廣泛的應用。而在近二十年,由于人工智能和機器學習迅猛發展,語音識別技術取得顯著進步,語音控制也變得更為實用,開始從實驗室走向市場。
《互聯網趨勢》報告中曾談及語音將是人機交互的新范式,語音技術將解放人類雙手和眼睛,用戶以較低的成本實現隨時訪問。人們預計,未來10年內,語音識別技術將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。未來與智能家居、可穿戴設備、機器人等交互模式,語音將是最佳人機交互模式。
近二十年,語音識別技術取得顯著進步,但識別的準確性問題一直阻礙著智能語音的進一步發展。目前在實際應用中,我們看見語音識別多是在智能家居領域,比如智能家電或智能音箱。此時,我們就需要考慮一個問題了,當多個家庭成員同時講話時,智能家電或智能音箱該執行誰的命令呢?它們又如何能在眾多聲音中找出自己主人的命令?這些都是當前語音識別所需要解決的問題,畢竟我們通常所說的語音識別不僅僅只是單純的對語音內容進行識別。
隨著準確性的提升,語音識別應用范圍將不斷拓寬,語音交互也逐漸成為可能。不過在語音識別更新迭代的過程中,新舊共存現象必可避免,在初期混亂的市場藍海中,只有看清發展大勢,方能真正抓住機遇,迎來新發展。