精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

讀唇用上人工智能

責任編輯:zsheng

2018-08-08 11:59:22

摘自:中國科學報

對于數百萬失聰者來說,唇讀可以提供一個與外界交流的窗口。但這種做法很難,結果也往往不準確。現在,研究人員編寫了一種新的人工智能(AI)程序,其性能優于專業的唇讀者和迄今為止最好的AI,且錯誤率僅為之前最佳算法的一半。如果被完善并集成到智能設備中,這種方法可以讓每個人都能懂唇讀。

對于數百萬失聰者來說,唇讀可以提供一個與外界交流的窗口。但這種做法很難,結果也往往不準確。現在,研究人員編寫了一種新的人工智能(AI)程序,其性能優于專業的唇讀者和迄今為止最好的AI,且錯誤率僅為之前最佳算法的一半。如果被完善并集成到智能設備中,這種方法可以讓每個人都能懂唇讀。

“這是一項了不起的工作。”未參與該研究的英國倫敦瑪麗皇后大學計算機科學家Helen Bear說。

編寫可以閱讀唇語的計算機代碼令人抓狂。因此,在新研究中,科學家向機器學習“求助”,讓計算機從數據中學習。他們為該系統提供了數千小時的視頻和抄寫本,并讓計算機自己解決這個問題。

該項目始于14萬小時的YouTube視頻,視頻展示了人們在各種情況下進行的交談。然后,研究人員設計了一個程序,通過每個音素或單詞聲音的嘴部動作創建幾秒鐘的剪輯,并帶有標注。該程序過濾掉了非英語語音、非講話者面孔、低質量視頻和未直接拍攝的視頻。然后,他們裁剪了講話者嘴巴周圍的視頻。這樣產生了近4000個小時的錄像,包括超過12.7萬個英文單詞。

沒有參與該研究的美國哥倫比亞大學計算機科學家Hassan Akbari說,這個過程和由此產生的數據集比同類數據集大7倍,對于任何想要訓練類似系統閱讀嘴唇的人來說都是“重要且有價值的”。

此外,該過程部分依賴于神經網絡。AI算法包含許多連接在一起的簡單計算元素,這些元素以類似人腦的方式學習和處理信息。當研究人員為該系統提供未標記的視頻時,這些網絡會裁剪嘴巴動作片段。系統中的下一個程序也使用了神經網絡,為每個視頻幀提供了可能的音素列表及其概率。最后一組算法將可能的音素序列進行整理,并生成了英語單詞序列。

經過訓練,研究人員用它之前沒有看過的37分鐘的視頻測試了該系統。他們在發布于arXiv網站的論文中報告說,單詞錯誤率僅為41%。

這個成績可能聽起來并不怎么樣,但之前最好的算法——專注于單個字母而不是音素——的錯誤率為77%。在同一項研究中,專業唇讀者的錯誤率為93%(盡管在現實生活中他們能參考語境和肢體語言,這有助于讀唇)。這項工作由總部位于倫敦的人工智能公司DeepMind完成,但該公司拒絕就這一記錄發表評論。

Bear表示,該程序對音素的理解可能看起來不同,具體取決于之前和之后所說的內容。(例如,在說“boot”中的“t”時,嘴的形狀與說“beet”中的“t”不同。)系統有單獨的階段預測嘴唇形狀代表的音素和通過因素預測單詞。這意味著如果想教系統識別新的單詞,你需要重新訓練最后一個階段。但她說,這個AI也有弱點:它需要清晰、直白的視頻,41%的錯誤率遠非完美。

Akbarni表示,將程序整合到一部手機中可以讓聽力障礙人士隨身攜帶“翻譯”。這樣的翻譯也可以幫助那些不能說話的人,例如聲帶受損者。對于其他人來說,它可以簡單地幫助解析各種聊天。

這種技術也可應用于其他程序,例如分析安全視頻、解釋歷史鏡頭,或在音頻下降時聽到Skype伙伴的語音。新的AI方法甚至可以回答世界上最大的一個謎團:在2002年世界杯決賽中,法國足球運動員齊達內因用頭部頂撞對手而被紅牌罰下。他顯然是被對手的臟話所激怒,但他說了什么?我們也許可以揭開謎底了。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 福清市| 黔西| 白沙| 秀山| 灵璧县| 宁都县| 上高县| 湖南省| 武胜县| 商丘市| 上饶市| 北辰区| 航空| 大冶市| 沈阳市| 天全县| 阜南县| 文昌市| 精河县| 农安县| 仙桃市| 迭部县| 仪征市| 广丰县| 姚安县| 庄浪县| 迁西县| 海晏县| 台江县| 湘乡市| 东港市| 叶城县| 谢通门县| 长顺县| 合肥市| 区。| 兴安盟| 卢氏县| 翁源县| 渝北区| 凤冈县|