“這是一項了不起的工作。”未參與該研究的英國倫敦瑪麗皇后大學計算機科學家Helen Bear說。
編寫可以閱讀唇語的計算機代碼令人抓狂。因此,在新研究中,科學家向機器學習“求助”,讓計算機從數據中學習。他們為該系統提供了數千小時的視頻和抄寫本,并讓計算機自己解決這個問題。
該項目始于14萬小時的YouTube視頻,視頻展示了人們在各種情況下進行的交談。然后,研究人員設計了一個程序,通過每個音素或單詞聲音的嘴部動作創建幾秒鐘的剪輯,并帶有標注。該程序過濾掉了非英語語音、非講話者面孔、低質量視頻和未直接拍攝的視頻。然后,他們裁剪了講話者嘴巴周圍的視頻。這樣產生了近4000個小時的錄像,包括超過12.7萬個英文單詞。
沒有參與該研究的美國哥倫比亞大學計算機科學家Hassan Akbari說,這個過程和由此產生的數據集比同類數據集大7倍,對于任何想要訓練類似系統閱讀嘴唇的人來說都是“重要且有價值的”。
此外,該過程部分依賴于神經網絡。AI算法包含許多連接在一起的簡單計算元素,這些元素以類似人腦的方式學習和處理信息。當研究人員為該系統提供未標記的視頻時,這些網絡會裁剪嘴巴動作片段。系統中的下一個程序也使用了神經網絡,為每個視頻幀提供了可能的音素列表及其概率。最后一組算法將可能的音素序列進行整理,并生成了英語單詞序列。
經過訓練,研究人員用它之前沒有看過的37分鐘的視頻測試了該系統。他們在發布于arXiv網站的論文中報告說,單詞錯誤率僅為41%。
這個成績可能聽起來并不怎么樣,但之前最好的算法——專注于單個字母而不是音素——的錯誤率為77%。在同一項研究中,專業唇讀者的錯誤率為93%(盡管在現實生活中他們能參考語境和肢體語言,這有助于讀唇)。這項工作由總部位于倫敦的人工智能公司DeepMind完成,但該公司拒絕就這一記錄發表評論。
Bear表示,該程序對音素的理解可能看起來不同,具體取決于之前和之后所說的內容。(例如,在說“boot”中的“t”時,嘴的形狀與說“beet”中的“t”不同。)系統有單獨的階段預測嘴唇形狀代表的音素和通過因素預測單詞。這意味著如果想教系統識別新的單詞,你需要重新訓練最后一個階段。但她說,這個AI也有弱點:它需要清晰、直白的視頻,41%的錯誤率遠非完美。
Akbarni表示,將程序整合到一部手機中可以讓聽力障礙人士隨身攜帶“翻譯”。這樣的翻譯也可以幫助那些不能說話的人,例如聲帶受損者。對于其他人來說,它可以簡單地幫助解析各種聊天。
這種技術也可應用于其他程序,例如分析安全視頻、解釋歷史鏡頭,或在音頻下降時聽到Skype伙伴的語音。新的AI方法甚至可以回答世界上最大的一個謎團:在2002年世界杯決賽中,法國足球運動員齊達內因用頭部頂撞對手而被紅牌罰下。他顯然是被對手的臟話所激怒,但他說了什么?我們也許可以揭開謎底了。