在人工智能頂會拿下雙料冠軍
當前隨著娛樂視頻、直播平臺的日漸成熟,直播視頻數量也出現了井噴的趨勢,自動化處理視頻的需求日益增長。作為自動化處理視頻的核心技術之一,行為檢測AI也越來越受到學術界和企業界的共同關注。
阿里安達實驗室高級算法工程師張士偉介紹,在CVPR 2020關于行為檢測AI的兩項賽道任務中,阿里和華科大聯手提出的解決方案不僅獲得了雙料冠軍,并以平均均值精度(mAP)42.788%的性能一舉打破眾多頂尖科技公司、科研院校去年無法突破“40%”的瓶頸,在AI視覺領域帶來新的可能。
CVPR兩個賽道的數據集分別有2萬個視頻和5萬個視頻,而且后者采用的是更貼近真實生活的視頻數據。這次兩個賽道任務目標是,給定一段無剪切的視頻,參賽AI必須檢測出目標行為發生的時間區間并正確預測該行為對應的類別。以一段跳水比賽視頻為例,視頻中有若干參賽選手的跳水動作,每個跳水動作約4秒,AI須準確定位某位或者多位參賽選手的跳水動作。
張士偉認為,CVPR的比賽任務還面臨四大挑戰:第一,目標行為時常分布廣,從0.5秒到400秒不等,以賽道中一個200秒的測試視頻為例,1秒采集15幀圖像,AI必須在3000幀圖像中精確定位;第二,視頻背景復雜,通常具有很多不規則的非目標行為嵌入在視頻中,比如一段集會場景的視頻中有許多參會者,AI必須從復雜的背景中精準定位演講者;第三,類間差大,行為的視覺效果會因人而異,比如專業舞者和業余舞者在跳同一段舞蹈,他們的動作必然有差異,AI要能識別這是同一段舞蹈。“此外,AI檢測人體動作還面臨人體之間的互相遮擋、視頻分辨率不夠、光照、視角等變化多樣的其他干擾。”張士偉說。
雖然面臨上述難題,兩個賽道的數據屬性也不盡相同,阿里安達實驗室和華中科技大學還是創造性地提出了兩項AI解決方案,出色地實現了比賽任務目標。
圖片說明:阿里安達實驗室和華科大在CVPR兩個賽道的獲獎證書
技術能力得益于現實場景磨煉
技術的進步往往得益于復雜現實場景的磨煉和沉淀。行為檢測AI經過長時間打磨,早在阿里安達實驗室的多媒體AI和安全審核等系統中布局,成為安全AI的核心組件之一。阿里安達實驗室負責人薛暉介紹,優酷、淘寶直播視頻等早已受益于這項頂尖技術。
行為檢測AI不僅可以準確定位、分析視頻中的違規行為,甚至還能預測一些行為的趨勢。同時,它還可以自動檢測淘寶直播中某個商品的最佳動作展示片段,自動剪輯出精華視頻用于櫥窗展示。
“把行為檢測AI應用在實際業務場景,并在業務的打磨和考驗中不斷成長,,這也是阿里安達實驗室打造的這項AI技術能在CVPR2020上取得雙料冠軍的原因。”薛暉說。
圖片說明:左為時長3小時的直播視頻,右為行為檢測AI識別出的某單件服裝展示視頻
打造數字基建“安全樣板間”
今年3月,阿里發布數字基建新一代安全架構。從實戰出發進行安全基建,讓安全能力和業務數字化建設實現同步,是新一代安全架構的核心理念。
安全技術以往大多只應用于安全風控領域。阿里安全在20多年間的發展歷程中,始終堅持立足于不斷創新的業務場景打造安全技術。在保障業務安全的前提下,也在為一些商業難題提供新的解決方案,為業界打造安全基建的樣板。
張士偉介紹,行為檢測AI在體育、直播、影視傳媒和安防領域有廣闊的應用前景,比如精彩動作檢測、智能集錦生成、介紹商品行為,以及通用動作檢測識別、多模態搜索、異常動作檢測等。在護航數字基建的同時,也為多個領域的創新和提效帶來更多智能化助力。