隨著深度學習技術的發展,其使得計算機朝著真正的人工智能邁進了一大步,使用海量數據來自動識別圖像和文本,并實時進行人機間的“對話”將不再是天方夜譚。雖然目前還有很多理論和建模等方面的問題等待探索和解決,但是深度學習已經顯示出了它在技術上的巨大潛能。本文將簡要介紹深度學習理論的起源與發展,重點闡述深度學習在安防領域的具體應用現狀和存在的困難,并且介紹安防產品如何基于深度學習得到性能上的提升。
一、深度學習的起源與發展
人工智能(ArtificialIntelligence)是人類最美好的夢想之一,有很多的藝術作品和科研探索對它展開了廣泛的討論。雖然在人類和大量現成數據的幫助下,目前的電腦表現非常強大,可是人工智能的美好想法似乎仍然可望而不可及。不過令人感到振奮的是,除了云計算對大數據的并行處理技術手段,借助深度學習(DeepLearning)算法,人類終于找到了如何處理“抽象概念”的方法。
自2006年以來,人工智能和機器學習領域取得了突破性進展。近幾年深度學習的持續走紅也對這一領域產生了巨大的沖擊。“深度學習”的概念最早由多倫多大學的GeoffHinton和他的同事于2006年提出。Hinton意識到科學家們并沒有真正理解大腦——他們可以解釋電信號如何連接神經元,但他們無法解釋這些神經元是如何學習或計算的。他認為這些問題可能最終指向人工智能的終極夢想。當然我們也可以追溯到更早,由紐約大學的YannLeCun于上世紀90年代開發的5層卷及神經網絡(5-layercnn)進行手寫數字識別,不過由于當時的計算機硬件有限,沒有得到大規模的應用。
隨著互聯網的快速發展,特別是近兩年大數據時代的來臨,深度學習得到了進一步發展。2012年6月,《紐約時報》披露了GoogleBrain項目,即直接把海量數據投放到算法中,讓數據自己說話,系統會自動從數據中學習。2012年11月,微軟在中國天津的一次活動上公開演示了一個基于深度學習的全自動同聲傳譯系統,演講者用英文進行演講,后臺的計算機自動實時完成語音識別、英中機器翻譯和中文語音合成,效果非常流暢。2013年,DanC.Ciresan的乳腺癌細胞有絲分裂檢測超越了人眼的識別效果。在這之后,研究機器學習與人工智能領域的教授都開始發表有關深度學習的論文,以2015年的CVPR會議為例,很多論文主題和深度學習密切相關。當然,深度學習目前仍有大量工作需要研究,目前的關注點還是從機器學習的領域借鑒一些可以在深度學習使用的方法。
應該說,最早受到深度學習沖擊的就是互聯網行業自身。因此,他們更加關注如何將深度學習與具體應用相結合。互聯網行業的大型公司,如谷歌、微軟、百度、騰訊、阿里巴巴等,都相繼成立了自己的相關研發團隊,或者成立深度學習研究院,致力于大數據驅動的人工智能技術創新,在語音和圖像識別等具體應用領域取得了一定的成果。
二、安防領域的深度學習應用
隨著智能交通、智能家居的興起,安防領域也將成為人工智能和機器學習關注的熱點,從而成為受到深度學習第二波沖擊的重要領域。
深度學習作為機器學習研究中的一個領域,其動機在于建立、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,例如圖像、聲音和文本等。目前,深度學習的應用領域中大約有70%都在圖像識別方面,結合安防領域的現狀,這就意味著,深度學習在這一領域必然會有顛覆性的發展。隨著大數據與高清攝像機應用的普及,安防大數據時代已經到來,海量高清及以上分辨率視頻數據給安防產品技術帶來了大數據,這也就成為深度學習在安防領域必將快速發展的肥沃土壤。
機器學習(MachineLearning)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。它專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能。傳統的機器學習方法有adboost、神經網絡、支持向量機、隨機森林、提升決策樹等,雖然目前在安防領域已經獲得了一定的成功,但它們在目標的定位率和識別率的提升上已經陷入了一定的瓶頸:很多具體應用中的識別率無法得到提升;在大規模多場景應用中,虛警問題也給安防領域帶來了很大的困擾,即使是增加訓練樣本依然不能緩解這一問題。
以安防領域中最成功的車牌識別算法為例,雖然目前很多廠商都宣稱自己的車牌識別率已經達到了99%,但這也只是在標準卡口的視頻條件下再加上一些預設條件來達到的。在針對很多簡易卡口和卡口圖片進行車牌定位識別時,較好的車牌識別也很難達到90%。不過隨著采用深度學習的應用,這一情況將會得到很大的改善。
在傳統的圖像處理和機器學習算法研發中,很多特征都是人為制定的,比如hog、sift特征,在目標檢測和特征匹配中占有重要的地位,安防領域中的很多具體算法所使用的特征大多是這兩種特征的變種。人為設計特征和機器學習算法,從以往的經驗來看,由于理論分析的難度大,訓練方法又需要很多經驗和技巧,一般需要5到10年的時間才會有一次突破性的發展,而且對算法工程師的知識要求也一直在提高。深度學習則不然,在進行圖像檢測和識別時,無需人為設定具體的特征,只需要準備好足夠多的圖進行訓練即可,通過逐層的迭代就可以獲得較好的結果。從目前的應用情況來看,只要加入新數據,并且有充足的時間和計算資源,隨著深度學習網絡層次的增加,識別率就會相應提升,比傳統方法表現更好。
初看之下,深度學習似乎是一種萬能的方法,什么問題都能夠輕松解決,然而就深度學習的具體應用而言,目前依然存在三大主要難題:第一是大數據標定的問題,深度學習領域的一句流行語——“誰掌握著數據誰就掌握著市場”,就充分地說明了這一點;第二是計算量過大的問題,在具體應用中隨著數據和網路層次的增加,不僅訓練花費的時間在大幅增加,測試時間也在增加,在具體應用中很難實現前端化和實時化;第三是訓練收斂問題,以在圖像識別中應用最多的卷積神經網絡(CNN)為例,目前已經出現了幾百層的網絡結構,訓練過程中一般采用梯度下降的方法,這一過程中如果層數過多,數據初始化不合理就很容易不收斂。
三、基于深度學習提升安防產品性能
雖然存在以上這些問題,但是深度學習依然是非常有效的方法,這些問題也必將隨著時間的推移得到妥善解決。除此之外,很多企業以及機構的努力也正在使深度學習現有的一些問題得到較大的改觀,例如面對數據問題,目前國內已經出現了“數據堂”這樣專門整理數據的公司,安防公司只要一定的人力投入即可。關于計算量的問題,雖然目前像“英偉達”這樣提供高性能計算顯卡的公司還不多,但更多消息顯示,Intel、高通、AMD等公司都已開始進行相關產品的研發工作。此外,中科院已經開始研發專門的深度學習芯片。
在可以預見的未來,很多安防公司都會陸續推出與深度學習相關的產品,或是采用深度學習算法提升已有產品的性能。對于科達公司來說,剛過去的2015年是大規模應用深度學習的元年。在車牌識別、車輛顏色、車輛廠商標志識別、無牌車檢測、非機動車檢測與分類、車頭車尾判斷、車輛檢索、人臉識別等相關的技術方面,公司都已經開始應用深度學習算法,并且相關眾多產品的性能也在深度學習的幫助下得到了一定的提升。
以安防產品的具體應用為例,在車牌識別方面,目前深度學習算法克服了傳統方法在各種不同條件下識別率不夠穩定的情況,用這一方法識別的車牌識別率更穩定,污損與模糊不清的號牌的識別情況更好,圖片模式的車牌定位率和識別率更是分別從90%和85%提升到95%和93%以上。在車輛顏色識別方面,基本上克服了由于光照條件變化、相機硬件誤差所帶來的顏色不穩定、過曝光等一系列問題,因此解決了圖像顏色變化導致的識別錯誤問題,卡口車輛顏色識別率從80%提升到85%,電警車輛主顏色識別率到從75%提升到80%以上。在車輛廠商標志識別方面,使用傳統的HOG、LBP、SIFT、SURF等特征,采用SVM機器學習技術訓練一個多級聯的分類器來識別廠商標志很容易出現誤判,采用大數據加深度學習技術后,車輛車標的過曝光或者車標被人為去掉等引起的局部特征會隨之消失,其識別率可以從89%提升到93%以上。在車輛檢索方面,車輛的圖片在不同場景下會出現曝光過度或者曝光不足,或者車輛的尺度發生很大變化,導致傳統方法提取的特征會發生變化,因此檢索率很不穩定。深度學習能夠很好地獲取較為較穩定的特征,搜索的相似目標更精確,Top5的搜索率在95%以上。在人臉識別項目中,由于光線、姿態和表情等因素引起人臉變化,目前很多應用都是固定場景、固定姿態,采用深度學習算法后,不僅固定場景的人臉識別率從89%提升到99%,而且對姿態和光線也有了一定的放松。
結語
深度學習在語音識別、圖像識別、自然語言處理等應用中取得了顯著的成效,但是在安防行業,深度學習實際上才剛剛起步。然而,它正深刻地影響和改變著安防企業,影響著智能視頻分析技術。現在已經有很多安防企業開始投入資源開發基于深度學習技術的算法、產品。我們有理由相信,深度學習在安防領域中的前途是無限光明的。