ZD至頂網軟件頻道消息:近日,中國人機語音交互領域最權威的學術會議——全國人機語音通訊學術會議(NCMMSC2015)在天津舉辦。會上,來自產學研各界的技術大牛分享了在人機語音交互方面的技術成果和突破,其中最引人關注的當屬百度語音技術部負責人賈磊的演講。
他在會上介紹了百度最新研發出的語音識別技術,識別相對錯誤率比現有技術降低15%以上,使漢語安靜環境普通話語音識別的識別率接近97%。這是繼2011年,引入深度學習技術,相對錯誤率降低20%~30%之后,語音技術領域又一次具有標志性意義的重要進展。
百度語音技術部負責人賈磊在NCMMSC2015上介紹百度語音技術取得的重大突破
一次框架性的創新
近年來,語音識別技術突飛猛進。2011年,隨著深度學習技術被引入語音識別領域,語音識別技術翻開了新的篇章。隨后的幾年里,CNN(卷積神經網絡)、LSTM(長短時記憶模型)、CNN混合LSTM的建模技術在語音識別工業產品中不停涌現,并持續提升語音識別產品效果。而百度此次研發的突破性技術,是漢語語音技術上一次框架性的革新,成為目前世界上最先進的漢語語音識別技術。
“百度研發出了基于多層單向LSTM的漢語聲韻母整體建模技術,并成功把連接時序分類(CTC)訓練技術嵌入到傳統的語音識別建模框架中,再結合語音識別領域的決策樹聚類、跨詞解碼和區分度訓練等技術,大幅度提升線上語音識別產品性能。”賈磊表示,該技術相比于工業界現有的基于狀態建模的深度學習的語音識別產品技術,相對錯誤率降低在15%以上。
值得注意的是,這一技術創新并非依靠單點的突破,而是“打造基于多層單向LSTM的漢語聲韻母整體建模技術”、“引入CTC技術”、“與語音識別領域的傳統技術相結合”三大方面共同作用的結晶,是一項框架性的創新。
這一革新不純粹是學術上的研究成果,而是可以直接應用在產品上。據悉,應用這一新技術的百度搜索產品即將上線。
三大因素助力攻克十年技術困局
LSTM與CTC技術都已經存在很長時間。特別是于2006年首次被提出的CTC技術,由于其容易收斂到局部點等特點,以及這兩大技術結合后計算量巨大等原因,10多年來,LSTM與CTC的結合一直沒有在語音工業領域成功應用。此次,百度依靠三大因素——大數據機器學習和語音識別傳統理論結合、創新的算法以及強大的計算能力,成功突破了這十多年的技術困局。
這一切的成功要回溯到4個多月前。早在今年6月初,百度展開了對語音技術的創新探索。“我們詳細地研究和分析了漢語狀態建模、聲韻母整體半音節建模、音節整體建模等多種漢語建模單元,并深入探索了不同建模單元的CTC訓練的價值和作用。”賈磊娓娓道來。
功夫不負有心人。經過短短4個月的不斷探索與試驗,百度在世界范圍內率先克服了在漢語領域使用CTC技術訓練單向LSTM的高精度建模難題。
相比雙向LSTM,單向LSTM的好處是明顯的。“單向比雙向更適于產品系統。因為用雙向LSTM技術建立的模型,需要使用語音的未來一段時間的數據,這就造成了解碼器的額外等待,會給語音識別造成時延;而單向則不需要,解碼過程和數據到達同步進行,識別速度更快。”賈磊介紹到,“雖然單向LSTM在做建模單元的整體建模上有諸多好處,但一直以來,因其存在解碼路徑右邊信息的不完整性,導致識別效果較低,始終超不過傳統的三狀態建模。”
LSTM和CTC技術各有特點,將二者結合的技術非常困難,以至10多年來在語音識別產品領域從未被成功應用過。“LSTM和CTC建模技術結合,其核心難度之一就在于海量數據下的深度學習需要強大的計算能力,這兩項技術的計算量比傳統深度學習的計算量大一個數量級。直接按照數學公式去實現上述算法,LSTM和CTC訓練就需要采用單幀遞推模式,這樣的訓練速度在工業條件下的將近1萬小時訓練數據下,幾乎是不可能實現的。”賈磊解釋到。
為此,百度進行了一系列的算法革新,并利用百度大數據平臺計算優勢,成功地攻克了這一學術訓練難題,打破十年來的技術困局。
據了解,對比谷歌2015年9月份于Interspeech 發表的在英文領域的類似研究成果,百度的訓練數據是谷歌的4-5倍,模型訓練參數規模是谷歌的10-20倍。而該技術成功突破的核心要素之一就是訓練能力的極致提升,大模型大數據下的難度要比實驗室小數據小模型的情況下難很多。百度研發出的全新訓練算法,更接近工業大數據的產品實踐,是可以推廣到10萬小時訓練的全新技術。
僅憑上述深度學習技術的創新,要想推動漢語識別技術的產品重大突破是遠遠不夠的。深度學習技術必須和行業專業理論結合才能以質變的方式提升工業產品技術。
“過去,有很多機器學習技術應用于語音識別領域取得了不錯的效果,但是在解決產品上線的計算量和用戶等待時間方面總是差強人意。”賈磊指出,百度根據自己在語音產品實踐中的長期積累和經驗,經過大量實驗詳細的比較,在嘗試了音節、聲韻母和狀態等不同長度的建模單元之后,最后探索出最適合漢語的聲韻母整體建模。最終,把上述成果一起應用到語音識別的傳統技術框架中,結合決策樹聚類、跨詞解碼技術和區分度訓練等一系列傳統技術,實現了漢語語音識別工業產品技術的實質性提升。
在解決工業難題的同時,百度還最先對工業情況下的CTC技術在語音產品中發揮巨大作用的本質進行了深入探索。
在研究過程中,賈磊和他的團隊發現,在大數據、大模型條件下,在固定邊界的CE訓練之后,采用CTC訓練,可能對多層雙向LSTM模型的性能提升很有限,但對多層單向LSTM模型的改善是顯著的。
“我們對CTC的本質進行了深度探究,”賈磊表示,“我們認為,一個可能的解釋是,CTC的空白吸收機制和動態邊界尖峰學習能力,可以動態自適應地形成‘target delay’,從而解決單向LSTM模型的右邊信息不完整的問題,而這個作用對雙向LSTM模型的價值就小很多。”
該理論的探索和發現,對于CTC技術進一步在語音識別中的創新研究打下了很好的基礎。除此之外,百度產品團隊還探索了語音識別中CTC訓練后的模型具有超快的解碼速度的本質原因,并向業界公開其相應的解碼器加速策略。
更深刻的變革正在來臨
如今,百度已經開始使用上萬小時的樣本進行模型訓練。不難預測,不久,語音識別技術發展將很快進入10萬小時數據樣本訓練階段,只有這樣,才能覆蓋千差萬別的用戶口音差異。再考慮環境變化的影響,未來訓練語料量可能會突破100萬小時。
在賈磊看來,隨著訓練數據量的迅速增加,如何實現大規模LSTM建模和CTC的有效訓練,會成為一個核心的技術難題。“以后,語音識別領域的深度學習將進入數百GPU并行訓練的狀態,理論創新和算法技術創新都將圍繞大數據展開。語音識別技術的研發方法,相對于現在必將發生深刻的變革。”
除此之外,CTC建模技術進一步降低了語音識別應用的解碼成本,隨著適合深度模型計算的專業硬件的大量涌現,語音識別云服務的成本將大量降低,從而推動語音交互技術的更大范圍的普及。
賈磊告訴我們,這次百度做出的重大技術創新,更大程度上是百度對計算能力極限挖掘的一次嘗試。“未來這樣的嘗試一定還會更多”。