對于諸如蘋果Siri,亞馬遜Alexa,微軟Cortana以及谷歌Home等語音控制的虛擬助手來說,音頻數據是其主要驅動因素。讓這些程序能夠真正了解用戶所說的話需要大量真實的人類語言實例。
這對現有的語音識別公司帶來了不少內在優勢,因為這些公司已經積累了可用于訓練算法的龐大語音數據庫。而新的創業公司必須有自己的語音音頻文件,當然其可以從現有的數據庫中獲取,比如很多公司通過TED Talk轉錄構建的約300小時語料庫訓練算法。
卡內基梅隆大學研究教授,卡內基梅隆演講聯盟主任亞歷山大·魯德尼奇(Alexander Rudnicky)指出,語音識別算法的開發人員通常需要數百或數千小時的音頻資料對算法進行訓練。
谷歌于周四發布了全球人類錄音的眾包數據集。 其中包括65,000個時長一秒鐘的音頻剪輯文件,內容是來自世界各地的人們關于簡單指令詞的發音——是的,不,停止,去等等。 而開發開源瀏覽器Firefox的Mozilla最近推出了一個名為Common Voice的新項目。其目標是建立一個免費的眾包性質數據集,其中包含了世界各地的人類語音樣本。
谷歌專門為人工智能發布的人類錄音數據庫,旨在讓第三方制造商能夠嘗試使用機器學習技術。 “我們用來創建數據的基礎架構也是開源的,我們希望看到其能夠被更多公司用來開發自己的應用,特別是開發更多的語音相關應用程序,”軟件工程師Pete Warden在發布會上如是指出。
這個音頻數據庫存儲量超過1千兆,但這只是谷歌用于訓練人工智能系統所收集語音數據總量的一小部分。該公司曾經打造了一個自動化的目錄幫助服務,事實證明,該服務是谷歌收集人類語音數據的主要方式。
同樣,亞馬遜的語音數字助理Alexa將用戶的語音查詢傳輸到遠端服務器,用于進一步訓練該數字助手。蘋果則通過雇傭演講者來朗讀特定的文字或語句讓Siri學習新的語言或方言,此外也會通過采集人們使用服務的語音來形成語音數據庫。此外據報到,微軟已經在世界各地設立了模擬公寓,模擬真實生活環境中的音頻片段并收集形成數據庫,從而用于訓練自己的Cortana數字助理。
但所有這些數據庫都是私有的,學術界,研究人員或其他競爭對手卻無法使用。這就是為什么Mozilla決定發布其開源的Common Voice項目。
“當我們開始打造語音識別系統時,我們發現我們可以在已有算法的基礎上工作,并在算法方面進行一些創新。但是要想讓語音識別系統真正起作用,數據的策劃,創建和聚合是一個繞不開的挑戰,“Mozilla新興技術高級副總裁肖恩·懷特(Sean White)如是指出,“如果你想做一個新的語音識別系統,你無法找到一個現成的高質量音頻數據集。”
而Common Voice項目會邀請能夠上網且配置有麥克風的任何人通過網頁瀏覽器上來提交他們自己閱讀特定句子的簡短音頻記錄。這與谷歌項目工作方式有些類似。但不同的是Common Voice要求人們提交完整的句子,而谷歌通常需要的是用作命令的特定單詞和數字。Mozilla還會要求參與者提供一些基本的人口統計信息,如年齡,性別和英語方言地區(例如美國英語,加拿大英語、西印度群島英語或百慕大英語)。
在57天內,Common Voice收集了大約307,000個錄音,每段約3至5秒。 Mozilla開放式創新團隊數字戰略家Michael Henretty說,這使得總音頻的播放時長為340到520小時。
他說:“我們已經超越了諸如TED等現有的開源數據庫。“
Mozilla的目標是在今年晚些時候發布音頻數據庫,其希望在此之前能夠采集到越10,000小時的音頻數據,這個體量足以訓練目前任何的語音識別系統。
擁有多樣化語音樣本的關鍵優勢之一是使得所訓練的算法避免了意想不到的偏見。因為任何一個帶有口音的人使用語音助手就會發現,這些系統在理解標準發音的語音要更好一些。
谷歌旗下數據科學平臺Kaggle的數據準備分析師Rachael Tatman在今年早些時候發表了一篇關于性別和方言是如何影響YouTube自動加載字幕準確性的文章。她發現對于女性和蘇格蘭的演講者來說,YouTube的自動加載字幕不太準確。不同的系統往往會出現不同的錯誤,這主要取決于訓練數據。
Tatman說:“如果我曾經看到過很多弗吉尼亞州女性的演講,我自然會對來自弗吉尼亞州女性的講話理解準確,而對來自加利福尼亞州男性的理解準確度就沒有那么高。”
但現有的開源數據集已經出現了此類問題。例如德州儀器公司最初收集的Switchboard對話數據集就有著不少偏見。而數據偏見在人工智能的其他領域一直是存在的問題,一些算法識別白人話語的效果更好,或者很難理解非裔美國人的本地英語很多高科技公司以及開源項目,都不同程度地存在偏見問題。
Mozilla還會邀請日常用戶通過收聽來驗證自己提交的音頻樣本。Tatman指出,大多數語音助手開發公司之所以不會提供音頻數據庫并不完全是為了阻止同業競爭。因為用戶的語音查詢信息包含了太多的個人內容,例如有個人的網絡搜索或發送的短信,這將會帶來嚴重的隱私泄露問題。對于特定用戶來說,不法分子可能會他們獨特的聲音來識別其身份。
然而,公司愿意在內部使用這些數據:蘋果公司曾表示,它有保留Siri數據,用戶標識符(如ID號碼和電子郵件地址)的權利,從而幫助改進算法。
“你的聲音是可識別的,”Tatman警告稱,“這通常被認為是可識別的信息。”
鑒于其語音數據庫最終會開源,Mozilla也采取了一定的措施來保護用戶隱私。他說:“我們不得不把用戶個人信息從錄音中剝離開來分開,這使得剪輯的音頻本身沒有嵌入任何個人識別信息。”
相比于現有的開源音頻數據庫,Mozilla打造的語音數據庫優勢在于,其更切貼于日常使用環境,這一點與Siri或Alexa語音設備采集的音頻樣本一樣。
Rudnicky表示:“從根本上說他們正在使用瀏覽器來收集數據,這意味著他們針對目標用戶收集的數據將具有更多的代表性。比如說我坐在辦公室里,就會使用在桌面環境下找到的麥克風,這樣采集的音頻具有環境代表性。”
擁有多種多樣的演講者和口音,加上數據集預期的規模,應該能夠使Mozilla收集到的錄音比現有的開源音頻數據集價值更大,甚至能夠與很多大公司內部的音頻數據集相媲美。
“我們會盡可能地覆蓋更多音頻數據,”Henretty如是指出。