計算機視覺,人工智能的分支領域之一,計算機視覺既是工程領域,也是科學領域中的一個富有挑戰性重要研究領域。計算機視覺是一門綜合性的學科,它已經吸引了來自各個學科的研究者參加到對它的研究之中。
2017年6月2日-4日,中國圖像圖形學會主辦的高端學術交流活動:“CSIG圖像圖形學科前沿講習班”(Advanced Lectures on Image and Graphics,簡稱IGAL)將在北京舉行。講習班邀請了各大高校的知名專家學者,他們從各自研究的角度深入解讀計算機視覺領域的前沿技術和應用。
我們借此機會采訪到本次講習班的學術主任王亮博士,來為我們針對目前計算機視覺的發展現狀做一些簡單的分析。如果讀者想要更加深入了解學習計算機視覺方面的知識,可以報名參加CSIG圖像圖形學科前沿講習班(活動鏈接:www.csig.org.cn/igal),與專家老師們做進一步交流。
現在計算機視覺也成為了人工智能科技公司研究的重要方向,而人臉識別成了重要的一個研究分支,但似乎得到過度關注的人臉識別是否是未來計算機視覺的發展方向?而在學術界的技術專家也在向工業界轉型,學界與業界的關注點到底有什么區別?新技術不斷涌現,身在技術圈的技術人如何看待這些新興技術,想要投身于人工智能研究的年輕學者們應該從什么方向開始努力?
王亮博士將從他專業的角度來為我們解答。
視頻監控技術目前還不成熟
王亮博士做過不少關于動作識別、步態識別的研究,這些技術大量應用在視頻監控上。雖然研究者們在這些方面已經做了大量工作,近期也取得了較大的進展,但是在王亮博士看來,目前還遠不能說當前的視頻監控技術已經成熟。王亮博士做出了如下分析:
“事實上,我們算法所做的實驗大多是基于受限環境下所采集的視頻數據,這種數據一般來說是比較容易的,即背景簡單、個體單一,而且沒有較大的遮擋。
但是對于實際視頻監控而言,視頻中個體尺度各異、視頻分辨率低、個體部分遮擋、拍攝視角變化等問題都會影響到算法的實際應用效果。此外,除了上面提到的個體識別以外,還有許多類型的群體識別,比如打架等異常行為檢測、群體事件識別、人群密度估計、人群流向預測等。這些群體識別比個體識別更加復雜,存在的挑戰和困難也更多。綜上所述,現在視頻監控技術還遠遠沒有達到成熟的水平。”
圖像數據集仍有不足
在圖像識別方面,李飛飛團隊做的數據集ImageNet已經存在了很久,雖然如此,王亮博士認為它仍舊是比較權威、被廣泛應用的數據集,尤其是在目標識別模型的性能評估方面。該數據集至少在很長一段時間還會被繼續大量使用,因為除了應用在目標識別任務上,它還被廣泛用于其它視覺任務,例如使用ImageNet數據集進行模型預訓練。
在近幾年,李飛飛團隊又做出了新的圖像與語言結合的數據集Visual Genome,香港中文大學唐曉鷗團隊也做出了專注人臉識別的數據集WIDERFACE。這些數據集都是最近公開的新數據集。
客觀來說,任何一個數據集的建立都會存在一定的不足,這取決實際任務需求和客觀資源限制等諸多因素,例如一個可能的問題就是樣本類別不均衡。當然,在客觀世界中,可能實際樣本分布原本就是很不均衡的,但是從模型訓練的角度來說,我們通常希望樣本能均衡一些,這樣訓練出來的模型不會偏向某些類別,進而不同類別的識別性能不會相差太多。
王亮博士舉了一個有趣的例子:“ImageNet數據集中屬于人這個類別的樣本特別多,但關于鴕鳥類別的樣本就比較少,這樣訓練出來的模型對于人的分類性能就比鴕鳥要高很多,這就是樣本不均衡所導致結果。”樣本不均衡的情況甚至會有一些極端的體現,“再比如,LFW數據集也存在比較嚴重的類別不均衡問題,屬于一個類別的樣本最多幾百,而最少只有一個。”
無論是Visual Genome還是WIDERFACE,它們都是在特定的任務情況下把數據集做得規模更大、細節更多、潛在用途更多一些。
以Visual Genome為例,王亮博士為我們進行了講解:
“Visual Genome數據集其實是對目標識別數據集進行了擴充,在原有只提供目標類別的基礎上,增加多種其它標注信息,包括目標屬性、目標位置、目標與目標之間關系、目標文字描述等。
這樣的數據集除了可以應用于目標識別任務之外,還可以用于圖像描述生成、目標關系預測、視覺問答等其它任務。所以,數據集這個方面肯定會越做越好,或許在未來一些規模更大、更普適的數據集會被提出。
但是,值得注意的是,現在做得較多的都是圖像數據集,隨著視頻技術的快速發展,會對相關視頻數據庫產生較大的需求,所以希望以后會有更多視頻數據集。”
純無監督學習實現難度大,GAN未來很有潛力
標記數據的成本較高,而生活中大部分數據都是無標記的,要想充分利用這種無標記數據,需要應用無監督學習算法。
早期的玻爾茲曼機和自編碼機都是自深度學習流行起來,無監督學習的應用成果。它們是以重構數據自身的方式或者生成數據的方式來對無標記數據的潛在真實分布進行建模。
王亮博士指出,無監督學習存在一個問題是,通過它學習得到的模型性能通常要比監督學習低許多。因為它相對監督學習來說,畢竟缺少大量標記信息,目前無法學習到非常具有判別力的特征表示。事實上,當前要做純粹的無監督學習可能并不是特別現實,但如果能夠利用少量的有標記數據輔助來做半監督學習,可能會比較可行一些。
對抗生成網絡(GAN)是最近熱度較高的一種模型。它的基本原理是它有兩個模型:一個生成器,一個判別器。判別器的任務是判斷給定圖像是否看起來“自然”,換句話說,是否像是人為(機器)生成的。而生成器的任務是,顧名思義,生成看起來‘自然’的圖像,要求與原始數據分布盡可能一致。
對于GAN,王亮博士說:“它的難點可能在于訓練一個好的生成器比較困難,其訓練過程通常并不是特別穩定。盡管WGAN的提出可以緩解這一問題,但是我們在一些實驗上發現,其效果并沒有原始的GAN好。當然,GAN及其相關模型才剛剛起步,潛力很大,其應用范圍有待進一步拓寬。”
計算機視覺發展歷程中的關鍵技術節點
從CNN到GAN,神經網絡模型在不斷的進步,同時也影響到了計算機視覺的發展,王亮博士從視頻技術的角度為我們分析了計算機視覺發展過程中的關鍵技術節點:
“2012年ImageNet競賽上,使用了CNN的模型性能比傳統方法提升了大概11個百分點。自此以后,CNN強大的特征學習能力在不同視覺任務中都得到了證明,而且刷新了當時很多任務的最好結果。
當時的基于CNN模型叫做AlexNet,這個網絡只有幾層,后來出現的CNN模型包括VGGNet、GoogleNet、ResNet等網絡層數變得越來越深,從當時幾層到幾十層,進而發展到現在的幾百層。事實證明,網絡越深其學習到的特征判別力越強,所以每一個新型深度網絡的提出都階梯式地推動了視覺領域快速發展。
從CNN這方面來講,AlexNet、VGGNet、GoogleNet和ResNet都是很重要的技術結點。
對于視頻方面來講,2011年出現的3DCNN可能算是它的一個初始技術結點,其后續被擴展成一般化的視頻特征提取網絡C3D。在2014年前后RNN、LSTM這樣時序模型的大量出現,也是處理視頻這種時序數據的非常重要的技術結點。”
計算機視覺的哪些分支值得關注
計算機視覺畢竟是一個比較偏實際應用的學科,它的研究內容大多還是由實際應用來驅動的。有人認為現在做計算機視覺的公司太多專注于研究人臉識別這樣的功能分支,為什么很多公司都在專注做人臉識別這樣一個任務呢?
王亮博士這樣分析:“個人認為肯定還是受市場需求導向所致的。事實上,人臉識別在很多領域都有應用需要,正是由于這些需求從而推動了很多人去做這樣一個事情。對于計算機視覺幾個核心問題例如語義分割等,也有實際需求在推動一部分人研究。比如最近無人機、無人車比較火,這些任務都需要視頻場景解析技術,由此視頻語義分割技術吸引了大家越來越的多注意,相應的研究人員數量自然而然會增加。”
而作為研究人員,王亮博士認為應該更多關注兩個方面:
一、更多地研究基礎理論
在計算機視覺算法的理論層面去做一些事情。比如,大家都知道現在計算機視覺的很多技術都是基于深度學習的,但是深度學習的基礎理論目前還不是太清楚,相關研究也非常少,這也是它經常遭人詬病的主要原因。
二、深入挖掘一些實際應用需求比較高的研究問題
因為大部分研究最終還是要為實際應用服務的。
學術界與工業界關注點的差異
計算機視覺領域越來越多的學術界的專家學者加入了工業界:香港中文大學的賈佳亞教授加入了騰訊優圖,前幾年Yann LeCun加入了Facebook,還有谷歌的Geoff Hinton等等。中科院也成立了自己的銀河水滴科技,王亮博士作為該公司技術顧問,從自己的角度談了談學界與業界關注點上的區別:
學術界做研究是面向國際學科前沿,更多關注算法層面的研究問題,所以創新性會比較高一些。對于工業界而言,主要是以實際應用為導向,例如基于當前比較有效的一些模型算法,針對具體問題改進以達到實用的目的。因此,相對學術界來說,工業界做的東西可能比較偏實用、更工程化一些,但同時創新性也相對低一些。
大數據與計算機視覺
在計算機視覺發展過程中,很多模型算法都是基于機器學習算法衍生出來的。包括大家所熟悉的深度學習,其前身是深度神經網絡,也是機器學習算法的一種。
計算機視覺領域如何應用大數據呢?
“事實上,深度學習本身就是一種大數據分析模型,而且在計算機視覺領域已經得到很好的應用。”
王亮博士補充道:
“深度學習的一個最大的特點就是能夠利用大規模數據集來訓練出更好的模型,并自適應地學習用于不同任務的數據特征表示。ImageNet數據庫相對于早期的PASCAL VOC數據庫來說,它的數據集規模是非常很大的。深度學習包括CNN在該大規模數據庫上訓練出來的模型能夠更好地進行目標識別,這一過程利用到了大數據規模大信息多的特性,使得模型能夠挖掘到更有用的信息。”
目前深度學習和大數據兩者的有機結合確實給計算機視覺領域帶來了很多紅利,但是這樣的紅利能夠持續多久呢?王亮博士認為不好預測,但是可以肯定的是:深度學習和大數據的潛力可能還沒有被充分挖掘徹底。
王亮博士以CNN為例進行了分析:
“深度學習中的CNN,最早是幾層的AlexNet,后來到了十幾層的VGGNet,然后到了幾十層的GoogelNet,甚至到最近幾百層的ResNet,每一次這些新模型出現的時候,我們都懷疑深度學習是不是已經到了極限了?我們的模型性能是不是不可能再提升了?但是每一次又確確實實得有更深、精度更高的網絡被提出來了,并且每一次都不同程度地推動了計算機視覺領域的發展。所以,我們說深度學習和大數據應該還是處于上升發展期,其帶來的紅利可能還會再持續較長一段時間。”
給有志加入人工智能研究的年輕學者的建議
王亮博士的建議有兩點
1,加入人工智能領域,首先要加強自身素質的培養。
我平時無論是招生、招人,通常最關注的都是三個方面,編程、英語、數學。編程是實現算法的基礎,數學是理解模型算法的基礎,而英語是用于文獻閱讀、與人交流、文章寫作的基礎。編程、數學和英語,這三個方面缺一不可。
2,志存高遠,開拓創新
這幾年人工智能迅速發展,國內內容相關的高質量期刊或者會議論文層出不窮,但是真正在國際范圍內產生巨大影響的工作還是相對比較少的。不能說大部分都是跟風,但是很多情況下我們只是在別人的基礎上修修改改,原創性的工作并不多。所以,如果大家愿意加入人工智能領域的話,應當志存高遠,爭取做出一些原創有影響力的工作。
王亮博士
中國科學院自動化研究所研究員,博導,IEEE 高級會員、國際模式識別協會會士(IAPR Fellow),模式識別國家重點實驗室副主任、中國圖象圖形學學會視覺大數據專業委員會主任、圖像視頻大數據產業技術創新戰略聯盟秘書長、中國計算機學會計算機視覺專委會秘書長、中國電子學會青年科學家俱樂部副主席。中科院百人計劃入選者(終期優秀),國家杰出青年科學基金獲得者,國家青年科技獎獲得者。2004 年獲中科院自動化所工學博士學位。2004-2010 年分別在英國帝國理工學院、澳大利亞莫納什大學、墨爾本大學及英國巴斯大學工作。主要研究領域是模式識別,計算機視覺,大數據分析等。