国产精品欧美日韩一区二区,日韩亚洲国产激情在线观看,91免费国产视频

讀唇用上人工智能

責任編輯：zsheng

2018-08-08 11:59:22

摘自：中國科學報

對于數百萬失聰者來說，唇讀可以提供一個與外界交流的窗口。但這種做法很難，結果也往往不準確。現在，研究人員編寫了一種新的人工智能(AI)程序，其性能優于專業的唇讀者和迄今為止最好的AI，且錯誤率僅為之前最佳算法的一半。如果被完善并集成到智能設備中，這種方法可以讓每個人都能懂唇讀。

“這是一項了不起的工作。”未參與該研究的英國倫敦瑪麗皇后大學計算機科學家Helen Bear說。

編寫可以閱讀唇語的計算機代碼令人抓狂。因此，在新研究中，科學家向機器學習“求助”，讓計算機從數據中學習。他們為該系統提供了數千小時的視頻和抄寫本，并讓計算機自己解決這個問題。

該項目始于14萬小時的YouTube視頻，視頻展示了人們在各種情況下進行的交談。然后，研究人員設計了一個程序，通過每個音素或單詞聲音的嘴部動作創建幾秒鐘的剪輯，并帶有標注。該程序過濾掉了非英語語音、非講話者面孔、低質量視頻和未直接拍攝的視頻。然后，他們裁剪了講話者嘴巴周圍的視頻。這樣產生了近4000個小時的錄像，包括超過12.7萬個英文單詞。

沒有參與該研究的美國哥倫比亞大學計算機科學家Hassan Akbari說，這個過程和由此產生的數據集比同類數據集大7倍，對于任何想要訓練類似系統閱讀嘴唇的人來說都是“重要且有價值的”。

此外，該過程部分依賴于神經網絡。AI算法包含許多連接在一起的簡單計算元素，這些元素以類似人腦的方式學習和處理信息。當研究人員為該系統提供未標記的視頻時，這些網絡會裁剪嘴巴動作片段。系統中的下一個程序也使用了神經網絡，為每個視頻幀提供了可能的音素列表及其概率。最后一組算法將可能的音素序列進行整理，并生成了英語單詞序列。

經過訓練，研究人員用它之前沒有看過的37分鐘的視頻測試了該系統。他們在發布于arXiv網站的論文中報告說，單詞錯誤率僅為41%。

這個成績可能聽起來并不怎么樣，但之前最好的算法——專注于單個字母而不是音素——的錯誤率為77%。在同一項研究中，專業唇讀者的錯誤率為93%(盡管在現實生活中他們能參考語境和肢體語言，這有助于讀唇)。這項工作由總部位于倫敦的人工智能公司DeepMind完成，但該公司拒絕就這一記錄發表評論。

Bear表示，該程序對音素的理解可能看起來不同，具體取決于之前和之后所說的內容。(例如，在說“boot”中的“t”時，嘴的形狀與說“beet”中的“t”不同。)系統有單獨的階段預測嘴唇形狀代表的音素和通過因素預測單詞。這意味著如果想教系統識別新的單詞，你需要重新訓練最后一個階段。但她說，這個AI也有弱點：它需要清晰、直白的視頻，41%的錯誤率遠非完美。

Akbarni表示，將程序整合到一部手機中可以讓聽力障礙人士隨身攜帶“翻譯”。這樣的翻譯也可以幫助那些不能說話的人，例如聲帶受損者。對于其他人來說，它可以簡單地幫助解析各種聊天。

這種技術也可應用于其他程序，例如分析安全視頻、解釋歷史鏡頭，或在音頻下降時聽到Skype伙伴的語音。新的AI方法甚至可以回答世界上最大的一個謎團：在2002年世界杯決賽中，法國足球運動員齊達內因用頭部頂撞對手而被紅牌罰下。他顯然是被對手的臟話所激怒，但他說了什么?我們也許可以揭開謎底了。

智能