不過,中國科學技術大學的研究人員聲稱已取得進展。本周在預印本服務器Arxiv.org上發表的一篇論文中,他們描述了一個人工智能系統,該系統能夠在流行基準上以最高水平的精度識別一個人的情感狀態。
“自動情感識別(AER)是一項具有挑戰性的任務,因為它具有抽象的概念和多種情感表達方式。”他們寫道, “受到人類認知過程的啟發,自然而然地在AER中同時利用音頻和視覺信息......整個管道可以在神經網絡中完成。”
該團隊的AI系統的一部分包括音頻處理算法,通過語音頻譜圖(聲音頻率隨時間變化的視覺展示)作為輸入,幫助整個AI模型回歸與情感最相關的區域。第二個組件通過兩個計算層運行人臉視頻幀:一個基本的人臉檢測算法和三個“最先進的”人臉識別網絡“微調”,使它們與“情緒相關”。這是一個比起聽起來更棘手的事情 - 正如論文的作者所指出的,并非所有的框架都對情緒狀態有同等作用,因此他們不得不實施一種能夠突顯重要框架的注意機制。
在從所有四種面部識別算法中提取特征(即,可測量的特征)之后,它們與語音特征融合以“深度捕捉”它們之間的關聯,用于最終的情緒預測。這是最后一步。
為了“教會”人工智能模型對情緒進行分類,該團隊輸入了AFEW8.0提供的653視頻和相應音頻片段。AFEW8.0是一個電影和電視節目數據庫,用于EmotiW2018的音視頻子挑戰。它堅持自己的觀點,在383個樣本的驗證集中,成功地從7個選項中對情緒進行分類——“憤怒”、“厭惡”、“恐懼”、“快樂”、“中立”、“悲傷”和“驚訝”——準確率約為62.48%。此外,研究人員證明其視頻幀分析受音頻信號的影響;換句話說,人工智能系統在進行預測時考慮了語音和面部表情之間的關系。
也就是說,當模型與“厭惡”、“驚訝”和其他“弱”表情或容易與其他情緒混淆的情緒作斗爭時,模型傾向于表現出“明顯”特征的情緒,如“憤怒”、“快樂”和“中立”。盡管如此,它的性能幾乎與之前使用五種視覺模型和兩種音頻模型的方法相當。
“與最先進的方法相比,”研究人員寫道,“[我們]提出的方法可以用單一模型獲得可比較的結果,在多個模型上取得新的里程碑。”