深度學習在語音識別方面的使用方興未艾,但是可用的訓練數據集卻不多見。雖然Kaldi這種軟件可以使用神經網絡進行訓練,但是復雜的操作嚇退了很多小白。Google認識到,互聯網上沒有可供入門者快速入門深度學習的語言數據集,所以他們開源了語音指令數據集。
TensorFlow和AIY團隊開源的數據集包含65000個錄音,每個錄音時長幾秒鐘,包含30個左右的單詞。它們是通過網站采集而來的,參與人數達到了數千人。團隊貼心地附上了訓練和預測的TensorFlow示例代碼。數據集基于署名4.0 國際(CC By 4.0)許可發布,Google表示將繼續擴充這個數據集。Google還指出,這個數據集特別適合新手入門。此外,他們也開源了收集錄音的工具。
對于想嘗鮮的人,Google制作了一個基于TensorFlow的Android程序。程序會詢問獲取麥克風權限,隨后會給出10個單詞,程序將高亮顯示已經被你讀過的單詞。
這個例子的效果和數據集有很大的關系,有可能不盡如人意,畢竟商業語言識別系統比這個復雜的多。Google希望隨著更多的數據加入,模型的識別效果會日趨完善。
使用TensorFlow進行語言識別的教程可以在這里找到。使用最新版本的TensorFlow和主流配置,模型訓練只需要幾個小時。對神經網絡進行微調可以解決不同的問題,例如不同的響應時間、大小,以及在不同平臺上的準確度取舍問題。
查看英文原文:Launching the Speech Commands Dataset