圖像識別技術是實現攝像機從看清到看懂質的飛躍。在安防視頻監控領域,圖像識別技術結合行業視頻業務的應用,有效地提高了公安、交通、司法、零售等行業的效率,讓感知型攝像機實現了高附加值的市場定位。
文/葉霞蘇州科達科技股份有限公司新媒體營銷總監
近一兩年來,人工智能領域得到了媒體界、產業界和學術界等前所未有的關注,機器正在越來越多的取代人類特有的優勢和技能,這其中最為重要的可能就是圖像識別技術。本文將從圖像識別技術的原理闡述出發,介紹這一技術在安防行業的具體應用,并且闡述其在當前安防應用上碰到的困難。當然,面對這些困難,圖像識別技術將以此為契機,與安防技術實現更大范圍的融合與發展。
圖像識別技術與人工智能
說起圖像識別,人類的這一能力非常突出。圖形**作用于感覺器官,人們辨認出它是經驗過的某一圖形,甚至能感知到與圖像距離或者形狀的改變,這一過程叫做圖像再認。在圖像識別中,既要有當時進入感官的信息,也要有記憶中存儲的信息。只有通過存儲的信息與當前的信息進行比較的加工過程,才能實現對圖像的再認。
計算機圖像識別技術,則是利用計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對象的技術。圖像識別所研究的問題,是如何用計算機代替人類去自動處理大量的物理信息,解決人類所無法識別或者識別過于耗費資源的問題,從而很大程度上解放人類的勞動力。
圖像識別技術是人工智能的一個重要領域。圖像識別技術是以圖像的主要特征為基礎的。每個圖像都有它的特征,對圖像識別時眼動的研究表明,視線總是集中在圖像的主要特征上,也就是集中在圖像輪廓曲度最大或輪廓方向突然改變的地方,這些地方的信息量最大。而且眼睛的掃描路線也總是依次從一個特征轉到另一個特征上。由此可見,在圖像識別過程中,知覺機制必須排除輸入的多余信息,抽出關鍵的信息。同時,在大腦里必定有一個負責整合信息的機制,它能把分階段獲得的信息整理成一個完整的知覺映象。
為了編制模擬人類圖像識別活動的計算機程序,人們提出了不同的圖像識別模型。例如模板匹配模型。這種模型認為,識別某個圖像,必須在過去的經驗中有這個圖像的記憶模式,又叫模板。當前的**如果能與大腦中的模板相匹配,這個圖像也就被識別了。但這種模型強調圖像必須與腦中的模板完全符合才能加以識別,有一定的局限性。格式塔心理學家又據此提出了一個原型匹配模型。這種模型認為,在長時記憶中存儲的并不是所要識別的無數個模板,而是圖像的某些“相似性”。從圖像中抽象出來的“相似性”就可作為原型,拿它來檢驗所要識別的圖像。如果能找到一個相似的原型,這個圖像也就被識別了。但是,這種模型沒有說明人是怎樣對相似的刺激進行辨別和加工的,它也難以在計算機程序中得到實現。因此又有人提出了一個更復雜的模型,即“泛魔”識別模型。
隨著計算機技術及人工智能技術的發展,圖像識別技術越來越成為人工智能的基礎技術,它將是未來科技領域幾大關鍵產業的核心技術之一。微軟、谷歌、Facebook、亞馬遜、百度、騰訊等巨頭都在傾注大量資源推動這項功能進步。比如微軟的圖像識別應用“我看起來有多大”(HowOldDoILook?),成為網絡上紅極一時的話題。在去年舉行的第六屆ImageNet圖像識別技術比賽中,微軟憑借“圖像識別的深度殘差學習”(DeepResidualLearningforImageRecognition)系統獲得第一名。科技公司如此熱衷于圖像識別技術的應用和創新,這種進步顯然會大大方便互聯網、傳媒行業及科研領域的相關工作。
圖像識別技術與安防技術的融合
現在,圖像識別技術的應用范圍已經遠遠突破視覺的范圍,而更多地體現為機器智能、數字技術的特點。可以說,圖像識別技術就是人類視覺認知的延伸。
視頻監控在過去的實際應用中,面臨的最大問題就是必須由人工查看視頻。視頻智能分析技術正是為解決這一問題而生,它通過對視頻進行智能分析、有效信息的結構化數據提取,從而讓視頻監控的使用者真正告別人工安防而走進自動化安防的新時代。
目前視頻智能分析主要有兩種產品形態:前端智能和后端智能。前端智能以科達感知型攝像機為代表,將智能分析算法嵌入到前端攝像機,前端攝像機對采集的視頻內容立即進行分析,提取出畫面中關鍵的、感興趣的、有效的信息,形成結構化的數據,將后端感興趣的內容實時傳給后端做存儲或深入分析。后端智能是前端攝像機只負責采集視頻圖像,將碼流傳遞到后端服務器做集中處理。這樣對于后端的計算壓力比較大,也不利于實時處理。更合理的方式是前端攝像機進行基礎的結構化數據提取,后端服務器再進行深度二次分析;也就是說,將前端和后端配合起來做智能分析,才真正讓視頻圖像智能分析實現最大化價值。
視頻監控領域是圖像識別技術一直在尋求突破的主要領域之一。視頻智能分析技術目前在公安、交通、零售、司法、教育等行業都獲得了普及性應用。
公安
公安行業借助智能視頻分析主要用于實現城市道路、廣場及各類重點場所的人、車、物等目標的識別,提取包括人的性別、人臉、全身等信息,車的車標、車牌、車身顏色等信息,這些信息均可提煉為計算機能識別的結構化數據,送入后端進行專業的安全管理應用,主要包括實時布控、高危人員比對、以圖搜圖、多點碰撞、語義搜索等方面。
交通
具有分析、感知能力的智能攝像機通過視頻識別分析技術,可對每輛車進行完整的違法行為分析、識別、抓拍和錄像,記錄車輛違法的整個過程,再將每條記錄生成非結構化的視頻、照片數據和結構化的文本數據提交給后端智能管理與分析系統,由系統進行高度智能的交通違法行為處理。基于智能視頻分析技術,智能交通管理系統還能得出不同品牌的車型擁有量、過車高峰期、車輛進出城高峰期及行駛方向等豐富的交通數據,為城市交通流量管控、交通道路規劃等提供詳實的數據支撐。
零售
視頻智能分析在零售門店視頻監控方面的領先應用,是科達為聯合利華門店建設的熱點統計系統,系統通過感知型攝像機和后端的大數據分析平臺相配合,用于開展個人護理類商品陳列和貨架布局的顧客行為數據收集及分析,比如顧客在不同商品前的停留時間是多少、商品陳列和貨架布局調整前后的人流動向對比和購買金額對比等,進而作為最終的經營決策參考。這一系統不僅創新了視頻監控系統遠程管理零售門店的應用,更為連鎖零售行業如何通過視頻監控系統開展消費數據比對、分析等大數據應用開創了有益啟示。
司法和教育
在監獄和看守所,視頻智能分析技術更是較早得到了運用。除傳統的智能分析技術應用之外,感知型攝像機也被用在AB門等出入口,用于對所有過往人員進行臉部和全身的圖像采集,同時提供結構化和半結構化數據給后端管理平臺,平臺對人員進行實時比對,用于有效杜絕非法出入。學校采用視頻智能分析技術可以開展安全管理和教育錄播兩種應用,后者通過教室內的智能跟蹤攝像機自動識別、跟蹤老師的運動圖像,同時對視頻和聲音進行記錄,再生成錄播課程。
應該說,圖像識別技術對于整個安防方案來說都是一項艱巨而又關鍵的任務,直接決定了后續圖像處理與分析的準確性和便捷性。在視頻監控領域,圖像識別技術正面臨著不小的挑戰,具體可闡釋為:其一,對圖像質量的要求越來越高,圖像識別與處理的算法也越來越復雜;其二,對圖像的實時性處理和傳輸要求越來越高;其三,圖像識別的算法更加個性化,也更加成為市場競爭力的關鍵所在;其四,圖像數據往往涉及隱私,因此也需要提供可以信任的安全保證。面對這些挑戰,科達深知要使圖像識別技術與安防技術實現更好的融合,任重而道遠。盡管在業界已經擁有了一定的知名度,科達仍然深耕于安防行業,把感知型攝像機視為視頻監控的未來,在將圖像識別技術更好地應用于具體的行業需求方面,為其他人工智能的應用提供了一條有價值的參考路徑。