這一稱呼不無道理。在近日召開的全球科技青年論壇上,倪冰冰將其中的“簡單道理”娓娓道來,“人類每天接觸到的‘聽說讀寫’信息里有70%實際上是視覺信息。而在信息領域,大多數的信息也是視頻圖片數據。”
“體量之最”當然還包括視頻智能識別的“計算量之巨”。
“全世界每秒鐘傳到Youtube的視頻要達到幾千個小時。”倪冰冰表示,即使使用現在流行的神經網絡、深度學習技術,加上高性能硬件設備,計算時間之久也超乎想象。
“視頻一直被視為計算機視覺里的暗物質。”谷歌云人工智能和機器學習前首席科學家李飛飛曾如是說。即便如此,科學家及互聯網公司對視頻智能理解技術的“征服欲”也沒有減退之意,紛紛投入巨大的財力物力人力去攻堅克難,IBM、谷歌都曾為視頻智能理解的深入研究發布視頻數據集,臉書CEO扎克伯格在最新一季財報分析師溝通會上透露,視頻識別已成為旗下視頻在線產品、VR產品的核心競爭力之一。
因何具有如此動力?倪冰冰一語道破其中緣由:智能視頻理解技術在安防監控、自動駕駛,以及在社交媒體短視頻、直播里,都是最核心的技術。
而隨著視頻在人們生活中所占的分量越來越重,視頻智能理解技術有了越來越深厚的現實基礎。經過過去數年的努力,視頻智能理解研究領域已經有了一些突破式進展,變得更具有實際應用價值。
增加時間尺度建模
打開一些視頻網站,用戶經常可以看到與自身歷史瀏覽痕跡相關的視頻推薦,或者“以視頻搜索視頻”的內容搜索功能,這其中首先涉及到的技術其實就是視頻的行為識別。通俗而言,就是給正在運行的程序一段視頻,讓它告訴你“里面發生了什么”。
識別智能理解技術的研發過程并不像描述起來這么簡單,其面臨的技術挑戰巨大。除了視頻體量,視頻的質量、視頻內容中有效信息的數量也都是很大的技術難題。
以安防領域的視頻數據為例,倪冰冰解釋道,攝像頭的視頻質量有時候比較差,人動一下會有些模糊,使得技術對所捕捉到的動作的理解變得非常困難;另外,不同的人做同樣動作的樣式非常不同,“有人快有人慢”,這也造成智能理解的難點;不同位置的物體在視頻中的尺寸相異,要把“大的東西、小的東西”同時“抓”出來是很有難度的。
倪冰冰所在的團隊提出了時序金字塔算法,該算法通過對時間軸進行分尺度建模,使不同尺度的數據特征都能得到很好的表達。
“我們又配合流行的深度學習里的LSTM(長短期記憶網絡)、深度遞歸網絡,使得不同尺度的信息在不同時間進行流動,最后達到很好的識別效果。”倪冰冰進一步闡釋道。
這一研究在由谷歌、斯坦福等國際頂尖人工智能研究機構主辦的THUMOS行為檢測國際競賽中,獲得視頻檢測小組國際第一名。
“找人”不再是難題
“找人”是理解視頻中行為的關鍵所在。在計算機視覺領域中,“找人”行為的專業術語叫做“行人重識別”,專指利用計算機視覺技術判斷圖像或者視頻序列中是否存在特定行人的技術。
而在人工智能產業化的過程中,“找人”也恰恰是視頻智能理解可以快速投入的應用場景的形象描述。倪冰冰講述道,“如果我們能把人和人在不同攝像頭下的影像追蹤起來的話,就可以得到這個人在整個時間軸和空間軸上的分布,這可以實現很多的應用,比如找到一些非常敏感的人物。”
過去,倪冰冰團隊在進行視頻行為里的行人重識別時,通常利用單幀信息,比如在某個時間點上選一幀圖像與旁邊的其他幀圖像進行比對,但這樣的做法存在一定的問題。
“我們發現單幀圖像的信息是丟失的,攝像頭所拍攝的是行為人整個‘動’的過程,取得單幀的話,整個‘動’的行為就損失掉了。”倪冰冰說。
另外,利用單幀圖片信息很有可能會遇到一些特殊姿勢、遮擋、運動的模糊等問題。對此,倪冰冰團隊提出的一個方法使得識別技術能夠對整個視頻進行時序上的個人信息加以匯總,形成定量表征,從而使行人重識別的性能達到最優。
基于多角度攝像機的3D定位跟蹤模塊是當前業界比較新的技術。倪冰冰表示,過去,單個相機對人在2D場景進行定位,現在,技術可以在相機和相機之間形成匹配,用重識別以及跟蹤技術可以在3D空間里對人進行追蹤,對人的動態過程進行畫像。
“這些技術產生了很多應用,新零售、智能零售系統就是很好的例子。”倪冰冰自豪地說道,“新零售里,無非是有多少人進入我的商店、多少男生多少女生、什么年齡段、他們在哪個商品面前停留了多少時間,這些通過技術都可以解決。”
倪冰冰表示,抓到這些數據之后,可以反映在大數據端,有了客流分析、軌跡、略讀圖的數據,店家就能夠對行銷展開布局,對行銷策略做一定的改變和優化。
在小型終端運行
“用深度學習網絡進行視頻智能分析所需的網絡是很大的,它的參數量非常多,甚至超過幾十、幾百兆。”倪冰冰表示,以這樣大的網絡去做視頻分析,顯然使用時間是非常久的,但新一代人工智能希望很多智能的工作在端上進行,比如手機、平板電腦等,而如此大的模型顯然無法在一個小的運算設備上進行運算。
針對這個問題,倪冰冰團隊對網絡進行了二值殘差定量的簡化,使得過去用浮點數表達的網絡,用現在的二進制數據網絡來表達,這使得整合各個模型的過程變得簡單,計算變得更加高效。
“有了這個技術之后,實際上,很多原來一定要在‘云’上、在服務端去做的一些人臉識別功能,現在可以在很小的手機上進行。”倪冰冰表示,“智能刷臉閘機、智能訪客機以及智能門禁等有了這個網絡壓縮技術,都能在小型設備上運行。”
倪冰冰認為,對一個公司團隊來說,從算法到技術落地還有很長的路要走,“這里面相當多的功夫用在了工程化的落地上”。對此,其團隊提出的人、物檢測的算法也做了工程化的努力。
“現在對人的定位有輕量級的人臉檢測模塊,這樣,一個幾兆的小模塊可以在手機里運行;也有輕量級的人體骨骼檢測模塊,實際就是抓住人的一個動作,過去它是一個體量非常大的計算,現在,通過一些新算法和工程實踐可以把它做到很小的手機模塊上,而且能夠達到實時運行的效果。”倪冰冰表示。
“定位了人以后要進行識別,現在在小設備上,人臉識別也能做到在百萬底庫下95%以上的通過率,這是非常難的一個過程。”倪冰冰說。