當前位置：安全 → 企業動態 → 正文

阿里安全摘下AI視覺“奧斯卡”雙料冠軍突破行為檢測技術瓶頸

責任編輯：zhaoxiaoqin |來源：企業網D1Net 2020-07-23 15:11:49 原創文章企業網D1Net

一場3個小時的直播結束后，由阿里安達實驗室(達摩院和阿里安全聯合實驗室)和華中科技大學打造的頂級AI，在3分鐘內精準檢測最佳商品展示片段，自動進行視頻剪輯并發布。不久前，在被譽為計算機視覺領域“奧斯卡”、AI領域規模最大的會議CVPR 2020上，這項行為檢測AI技術超越百度、商湯、中興等公司的同類技術，獲得了雙料冠軍，并比去年微軟、三星的參賽成績高出約17個百分點。

在人工智能頂會拿下雙料冠軍

當前隨著娛樂視頻、直播平臺的日漸成熟，直播視頻數量也出現了井噴的趨勢，自動化處理視頻的需求日益增長。作為自動化處理視頻的核心技術之一，行為檢測AI也越來越受到學術界和企業界的共同關注。

阿里安達實驗室高級算法工程師張士偉介紹，在CVPR 2020關于行為檢測AI的兩項賽道任務中，阿里和華科大聯手提出的解決方案不僅獲得了雙料冠軍，并以平均均值精度(mAP)42.788%的性能一舉打破眾多頂尖科技公司、科研院校去年無法突破“40%”的瓶頸，在AI視覺領域帶來新的可能。

CVPR兩個賽道的數據集分別有2萬個視頻和5萬個視頻，而且后者采用的是更貼近真實生活的視頻數據。這次兩個賽道任務目標是，給定一段無剪切的視頻，參賽AI必須檢測出目標行為發生的時間區間并正確預測該行為對應的類別。以一段跳水比賽視頻為例，視頻中有若干參賽選手的跳水動作，每個跳水動作約4秒，AI須準確定位某位或者多位參賽選手的跳水動作。

張士偉認為，CVPR的比賽任務還面臨四大挑戰：第一，目標行為時常分布廣，從0.5秒到400秒不等，以賽道中一個200秒的測試視頻為例，1秒采集15幀圖像，AI必須在3000幀圖像中精確定位;第二，視頻背景復雜，通常具有很多不規則的非目標行為嵌入在視頻中，比如一段集會場景的視頻中有許多參會者，AI必須從復雜的背景中精準定位演講者;第三，類間差大，行為的視覺效果會因人而異，比如專業舞者和業余舞者在跳同一段舞蹈，他們的動作必然有差異，AI要能識別這是同一段舞蹈。“此外，AI檢測人體動作還面臨人體之間的互相遮擋、視頻分辨率不夠、光照、視角等變化多樣的其他干擾。”張士偉說。

雖然面臨上述難題，兩個賽道的數據屬性也不盡相同，阿里安達實驗室和華中科技大學還是創造性地提出了兩項AI解決方案，出色地實現了比賽任務目標。

圖片說明：阿里安達實驗室和華科大在CVPR兩個賽道的獲獎證書