計算機視覺正在成為科技公司的一大福音,能夠讓機器加速運轉,并完成迄今為止只能由人類完成的任務。
幾個月前,eBay公布將要添加新的搜索功能,可以讓用戶使用現有照片來尋找類似商品,同時線上服裝零售商ASOS則在時尚領域涉足此項。Shutterstock上周公布了一項全新的測試功能,用戶可以根據自己的布局來搜索股票照片。過了幾天,谷歌照片應用發布了新的寵物圖像識別功能。
簡而言之,在計算機視覺領域,發展越來越激動人心,同時也可以看到人們對人工智能領域的大量投資卓有成效。
目前,大多數計算機視覺技術的進步主要發生在靜態圖像領域,但我們也開始在視頻中看到計算機視覺技術的成果。例如,俄羅斯當局在全國的實時監控網絡中應用了面部識別技術。Pornhub也在做類似的事情,自動對“成人娛樂”視頻進行分類,包括訓練系統識別特定的性姿勢。此外,還有蓬勃發展的自動駕駛汽車行業,在很大程度上依賴于機器對現實世界行為理解的能力。
在這樣的背景下,谷歌推出了一個新的視頻數據庫,希望能夠推動計算機視覺識別影像中行為的研究。“原子視覺行為”的英文縮寫“AVA”是一個由多個標簽組成的數據庫,用戶可以在視頻序列中進行操作。
視頻中動作識別的困難主要在于視頻中各種復雜的場景交織在一起,多個動作也在同一時間由不同的人發出。
谷歌軟件工程師顧春暉和大衛羅斯在一篇博客文章中解釋道:“教會機器去識別影像中的人類行為是發展計算機視覺的一大基本難題,但是對于個人視頻搜索和發現、體育分析和手勢界面等應用至關重要。”“盡管過去幾年在圖像分類和尋找物體方面取得了激動人心的突破,但識別人類行為仍然是一個巨大的挑戰。”
本質上,AVA就是一堆被80個原子動作標注的YouTube網址,并延伸到了近5.8萬個視頻片段,涉及到很多日常活動,比如握手、踢腿、擁抱、接吻、喝酒、玩樂器、散步等等。
通過對外開放數據庫,谷歌希望可以改進機器的“社交視覺智能”,這樣他們就能理解人類在做什么,并預測他們下一步會做什么。
該公司表示:“我們希望,AVA的發布將有助于改進人類行為識別系統的開發,并有機會基于時空間隔標簽對復雜的活動進行建模。”