国产亚洲一区二区在线观看,在线观看91精品国产性色,亚洲视频免费在线看

中國高校結合語音和面部數據讓人工智能“察言觀色” 準確率高達62%

責任編輯：zsheng

2019-01-17 12:16:34

摘自：前瞻網

一些人工智能研究人員長期以來的一個目標是，開發出一種系統，可以僅根據人的語音和面部抽搐來對人的情緒進行分類。像Affectiva這樣的公司正在朝著這一方向發力。該公司最近推出了一款產品，可以通過掃描駕駛員的面部和聲音來監控他們的情緒。但由于語言和肌肉運動的細微差別，仍存在相當大的挑戰

一些人工智能研究人員長期以來的一個目標是，開發出一種系統，可以僅根據人的語音和面部抽搐來對人的情緒進行分類。像Affectiva這樣的公司正在朝著這一方向發力。該公司最近推出了一款產品，可以通過掃描駕駛員的面部和聲音來監控他們的情緒。但由于語言和肌肉運動的細微差別，仍存在相當大的挑戰。

不過，中國科學技術大學的研究人員聲稱已取得進展。本周在預印本服務器Arxiv.org上發表的一篇論文中，他們描述了一個人工智能系統，該系統能夠在流行基準上以最高水平的精度識別一個人的情感狀態。

“自動情感識別(AER)是一項具有挑戰性的任務，因為它具有抽象的概念和多種情感表達方式。”他們寫道， “受到人類認知過程的啟發，自然而然地在AER中同時利用音頻和視覺信息......整個管道可以在神經網絡中完成。”

該團隊的AI系統的一部分包括音頻處理算法，通過語音頻譜圖(聲音頻率隨時間變化的視覺展示)作為輸入，幫助整個AI模型回歸與情感最相關的區域。第二個組件通過兩個計算層運行人臉視頻幀：一個基本的人臉檢測算法和三個“最先進的”人臉識別網絡“微調”，使它們與“情緒相關”。這是一個比起聽起來更棘手的事情 - 正如論文的作者所指出的，并非所有的框架都對情緒狀態有同等作用，因此他們不得不實施一種能夠突顯重要框架的注意機制。

在從所有四種面部識別算法中提取特征(即，可測量的特征)之后，它們與語音特征融合以“深度捕捉”它們之間的關聯，用于最終的情緒預測。這是最后一步。

為了“教會”人工智能模型對情緒進行分類，該團隊輸入了AFEW8.0提供的653視頻和相應音頻片段。AFEW8.0是一個電影和電視節目數據庫，用于EmotiW2018的音視頻子挑戰。它堅持自己的觀點，在383個樣本的驗證集中，成功地從7個選項中對情緒進行分類——“憤怒”、“厭惡”、“恐懼”、“快樂”、“中立”、“悲傷”和“驚訝”——準確率約為62.48%。此外，研究人員證明其視頻幀分析受音頻信號的影響;換句話說，人工智能系統在進行預測時考慮了語音和面部表情之間的關系。

也就是說，當模型與“厭惡”、“驚訝”和其他“弱”表情或容易與其他情緒混淆的情緒作斗爭時，模型傾向于表現出“明顯”特征的情緒，如“憤怒”、“快樂”和“中立”。盡管如此，它的性能幾乎與之前使用五種視覺模型和兩種音頻模型的方法相當。

“與最先進的方法相比，”研究人員寫道，“[我們]提出的方法可以用單一模型獲得可比較的結果，在多個模型上取得新的里程碑。”

智能數據高校中國