近日,谷歌發布AVA (Atomic Visual Actions)數據庫,由YouTube公開的視頻集組成,這些視頻可以用80個原子動作進行標注,例如走路、握手、踢東西等,所有動作具有時空定位,累計有5.76萬個視頻片段,9.6萬個人類動作,以及21萬個動作標簽。谷歌稱,此次發布的AVA技術將幫助谷歌分析多年的視頻,還能幫助廣告商更好地瞄準消費者。他們的最終目標是教計算機社交視覺智能化,即“理解人類在做什么,下一步該做什么,以及他們想要實現什么目標。”
目前,國內一些科研院所和企業也已經在行為識別相關領域進行重點投入,以解決視頻監控數據理解這一瓶頸問題,但要達到讓機器通過行為“理解”人類這個最終目標,還需要很多努力。“目前,人體行為識別大多還處在動作識別階段,對于實際應用而言,識別人的動作,還是一個巨大的挑戰。”11月8日,濟南大學模式識別與智能系統研究所所長李金屏教指出,動一動,機器就能發現你?有關專家表示,現階段,這是一件“可以有”的事。
應用:安防等領域大展神威
李金屏表示,動作識別可以看成是特征提取和分類器設計相結合的過程。養老院中,如果出現老人摔倒,行為識別系統可以立刻向工作人員發出警報,甚至直接與醫院進行聯系;黑科技滿滿的《碟中諜5》,安保系統的最后一道防線是步態識別……盡管技術難點重重,行為識別目前仍然在相關領域獲得了應用。
浙江大學人工智能研究所所長吳飛教授表示,這項最早被蘋果和微軟應用于游戲的技術,還在公檢法(在押人員審訊看護)、電力(風力發電、國家電網的安全生產)、銀行(業務區域智能安防)、醫院(病人狀態監護)等多個場景有更廣的應用空間。尤其在安防等領域,以行為識別為基礎的應用更廣泛。
比如通過人的走路方式來識別身份的步態識別,雖然屬于身份識別,但是也是行為識別和身份識別的一種有效交叉。步態識別是一種通過人們走路姿態進行的身份識別,分為人形檢測、分割、識別、跟蹤四個部分,而這些部分最具挑戰的環節都離不開以行為識別為基礎的研究。
在近年來尋找失蹤人口和嫌犯追逃的工作中,步態識別已經發揮了不小的作用。《機智過人》節目中,銀河水滴科技成功通過步態識別現場“嫌疑人”,加大難度后,還靠步態識別出狗的剪影。
銀河水滴科技創始人兼CEO黃永禎說,通過步態識別來實現異常行為分析,這是步態識別相比于其他生物特征識別的重要優勢之一。異常行為的應有之義就包括可以通過視覺觀察目標體形和動作狀態,來發現是否有異常行為,通常會涉及到目標檢測、分割、關鍵點定位、識別、跟蹤等技術環節,而這些技術環節也是步態識別的核心底層技術。目前,他們已能很好地完成遠距離非受控模式識別。
難點:定位、跟蹤、場景步步為艱
“行為識別的難點,首先表現為從連續視頻流中對人體運動的定位難、追蹤難。”吳飛說,在視頻行為識別中,要找到一個連續動作的起點和終點,即將連貫動作從視頻流中定位出來,在視頻識別中是非常困難的。而在找到某個連貫動作的起點后,對這個動作進行魯棒跟蹤也比較困難。比如一個跳躍動作,要實現追蹤動作持續展開的過程就不容易,還要考慮場景的復雜性以及背景動態變化或者攝像頭晃動等因素。
不僅如此,場景識別也是一大難點。首先,即使是同一類動作,在不同時刻、不同場景也具有很大差異性。吳飛舉例說,比如不同的人在不同時刻行走,速度、姿態和場景遮擋等方面都有差異。不同類別動作之間更是如此。李金屏表示,“與靜態對象不同,動作會隨著時間的推移而展開,會有更多不確定因素。”比如一幅人的“跑步”照片,實際上有可能只是這個人在跳躍的動作,只有看到更多畫面,才有可能清楚地知道到底發生了什么。可見人在場景中的動態是多么復雜。因此某一動作的識別方法很難直接用在另一動作的識別上。“一個動作,人類辨識兩三遍就可以了,但要讓機器記住并識別,則需要大量的訓練數據。”李金屏說。
此次谷歌發布的AVA與其他數據集相比,通過在相關場景中提供具有精細時空粒度的多個標簽,將極大推動人們對于相關模型的深入研究,最終不但能夠實現人的復雜活動精確建模,還將進一步獲得實際應用。
展望:設備平臺、理論模型方興未艾
“在行為識別領域,中國未來五年、十年的發展后勁非常強,建議在設備和平臺方面進行攻關,現在國內好多團隊的設備還是采用微軟等國外企業的設備和平臺,希望國家在這方面給予一定的支持和政策引導。”李金屏說。
在吳飛看來,中國的科研團隊和企業還應該在理論模型、數據驅動等基礎理論方面進行深耕。“一個行為動作的過程要經歷多個狀態(對應很多時間幀),人體在每個時刻也呈現出不同的姿態,那么,是不是每一幀在動作判別中的重要性都相同呢?對于行為動作的判別,是不是每個關節點在動作判別中都同等重要呢?這些都需要理論模型等基礎理論的完善。”吳飛說。