安防監(jiān)控,僅僅將畫面記錄下來只是第一步。當(dāng)事件發(fā)生后,準(zhǔn)確而快速地找到所需監(jiān)控工來完成,浪費(fèi)了檢索人的大量精力。治安管理者迫切需要一種能夠快速查找視頻信息的方式,加快辦案速度。在基于內(nèi)容的視頻檢索技術(shù)、存儲技術(shù)以及智能分析技術(shù)共同提升的環(huán)境下,海量視頻檢索離安防漸行漸近。
2011年6月16日,南京一騎電動車年輕女子被一輛貨車超越時刮倒,22天后,在對事故地點(diǎn)附近學(xué)校、商場、網(wǎng)吧等單位的監(jiān)控錄像進(jìn)行分析,并調(diào)取附近街區(qū)5萬多張監(jiān)控照片比對后,警方鎖定肇事車輛;2011年7月13日,福州何先生乘坐出租車時,將自己的LV旅行包遺落在出租車上,內(nèi)有現(xiàn)金2.1萬元。派出所民警接警后,通過視頻查到何先生乘坐的出租車,并于15日幫他找回了丟失的名牌旅行包;2011年7月27日凌晨,遵義一駕駛員駕車撞死行人后逃逸,警方調(diào)取了沿途視頻監(jiān)控錄像,并在長達(dá)144小時的錄像中,通過查找、分析和判斷,鎖定逃逸車輛……短短一月有余,諸多案件的偵破都利用了監(jiān)控視頻,可見查找監(jiān)控視頻已經(jīng)成為警方破案不可或缺的一個手段。
隨著平安城市等工程的推進(jìn),監(jiān)控攝像頭已經(jīng)遍布大街小巷,這為大多數(shù)案件留下了影像資料,給警方破案帶來了很大的便利。但是,有了相關(guān)視頻不等于就找到了目標(biāo)信息,查找視頻、分析視頻的工作常常會耗用警方大量的時間和人力。能否在海量視頻中更方便、更省力地查找到相關(guān)信息呢?這有待視頻檢索技術(shù)的進(jìn)一步發(fā)展。
視頻檢索技術(shù)當(dāng)前的發(fā)展
檢索技術(shù)源于互聯(lián)網(wǎng)發(fā)展需求。基于文本索引的方法進(jìn)行檢索是當(dāng)今最成熟的信息檢索技術(shù)。各類搜索引擎,如Baidu、Google、Bing以及Yahoo等都是以此技術(shù)為基礎(chǔ)的。隨著網(wǎng)絡(luò)帶寬不斷的提高,人們可以更加快捷地將自己采集到的各種多媒體信息進(jìn)行共享,或者進(jìn)行多媒體信息的交互,越來越多的信息通過視頻等多媒體的形式展現(xiàn)在互聯(lián)網(wǎng)中,這對以圖像、視頻為代表的多媒體信息檢索技術(shù)提出了越來越高的要求。20世紀(jì)90年代初,國際上開始了對視頻方面的檢索研究。區(qū)別于文字信息檢索,圖像視頻的檢索是建立在圖像視頻內(nèi)容分析的基礎(chǔ)上,所以常稱之為基于內(nèi)容的圖像視頻檢索。1992年,“基于內(nèi)容的視頻檢索”一詞開始使用。十多年來,視頻數(shù)據(jù)在獲取、存儲、操作及傳輸技術(shù)方面取得了重大的理論突破和技術(shù)進(jìn)步。
基于內(nèi)容的視頻檢索技術(shù)是針對音視頻這類非結(jié)構(gòu)化數(shù)據(jù),使用了視頻分割、自動數(shù)字化、語音識別、鏡頭檢測、關(guān)鍵幀抽取、內(nèi)容自動關(guān)聯(lián)、視頻結(jié)構(gòu)化等技術(shù),以圖像處理、模式識別、計算機(jī)視覺、圖像理解等領(lǐng)域的知識為基礎(chǔ),從認(rèn)知科學(xué)、人工智能、數(shù)據(jù)庫管理系統(tǒng)及人機(jī)交互、信息檢索等領(lǐng)域引入新的媒體數(shù)據(jù)表示和數(shù)據(jù)模型,從而設(shè)計出可靠、有效的檢索算法、系統(tǒng)結(jié)構(gòu)以及友好的人機(jī)界面。
基于內(nèi)容視頻檢索技術(shù)原理
視頻數(shù)據(jù)按照由粗到細(xì)的順序可以劃分為四個層次結(jié)構(gòu):視頻(Video)、場景(Scene)、鏡頭(Shot)和圖像幀(Frame)。由于一個鏡頭內(nèi)的相鄰幀間的變化不是很大,它們之間的特征差值會限定在某個閾值范圍內(nèi)。而在鏡頭突變時,突變點(diǎn)前后兩個相鄰幀在內(nèi)容上顯示會有很大的變化,如果特征差值超過了給定的閾值,則意味著出現(xiàn)一個分割邊界。鏡頭的關(guān)鍵幀就是反映該鏡頭中主要信息內(nèi)容的幀圖像。將各鏡頭檢測出來后,對每個鏡頭可提取關(guān)鍵幀,并用關(guān)鍵幀簡潔地表達(dá)鏡頭。關(guān)鍵幀數(shù)目的確定是關(guān)鍵幀提取中的一個重要問題,其確定方法可以根據(jù)鏡頭內(nèi)幀的差異進(jìn)行統(tǒng)計,求出其方差,用方差來衡量鏡頭視覺內(nèi)容的復(fù)雜程度。方差越大,該鏡頭提取的關(guān)鍵幀數(shù)就越多。
從內(nèi)容上對視頻進(jìn)行搜索,其特點(diǎn)包括:第一,直接從媒體內(nèi)容中提取信息線索;第二,基于內(nèi)容的檢索是一種近似匹配,這一點(diǎn)與常規(guī)數(shù)據(jù)庫檢索的精確匹配方法有明顯的不同;第三,動態(tài)特征提取和索引建立可由計算機(jī)自動實現(xiàn),這避免了人工描述的主觀性,也大大減少了工作量。基于內(nèi)容檢索時,根據(jù)媒體特征進(jìn)行相似性匹配檢索的媒體特征有:顏色、紋理、輪廓、形狀、空間約束、動態(tài)、概念、結(jié)構(gòu)描述及其他的圖像信息。
基于內(nèi)容的視頻檢索技術(shù)難點(diǎn)
2010年7月,美國哥倫比亞大學(xué)、卡耐基梅隆大學(xué)、西安電子科技大學(xué)、微軟亞洲研究院等諸多在多媒體信息檢索領(lǐng)域擁有實力的高校和研究機(jī)構(gòu)參與的2010年圖像與視頻檢索國際會議將多媒體檢索急需解決的問題歸納為八個方面,包括大規(guī)模數(shù)據(jù)挖掘即互聯(lián)網(wǎng)搜索問題、視覺概念標(biāo)注問題、交互式的基于概念的搜索以及人機(jī)接口問題、相似圖像檢測以及視頻復(fù)制行為的分析和研究、視覺搜索重排序問題、用戶個性化檢索、跨媒體理論與分析問題、視頻拼接與合成問題。
在八大難點(diǎn)中,人機(jī)接口問題受到關(guān)注。它是指用戶的搜索意圖需要通過人機(jī)接口告訴計算機(jī)。在文本搜索引擎中,關(guān)鍵字可以很好地解決這個問題,然而,在內(nèi)容、概念搜索時,如何將人的搜索意圖轉(zhuǎn)化為計算機(jī)容易理解的查詢非常棘手。這就是所謂的“用戶意圖鴻溝”。用示例圖像查詢時存在示例圖像本身的語義模糊性;用基于概念集的查詢時又不夠靈活。可見,用戶的搜索意圖的捕捉對整個檢索系統(tǒng)的性能的提高起著至關(guān)重要的作用。
除此之外,基于內(nèi)容的視頻檢索首先必須進(jìn)行視頻鏡頭分割、關(guān)鍵幀提取、鏡頭聚類,經(jīng)過這些處理,然后才能通過對視頻段之間特征空間的比較來進(jìn)行視頻段內(nèi)容的比較。然而由于視頻內(nèi)容繁多且復(fù)雜,對視頻的檢索十分困難。
視頻檢索技術(shù)在安防行業(yè)
應(yīng)用特點(diǎn)
目前全國治安監(jiān)控中,大容量數(shù)字化存儲已經(jīng)得到了大量應(yīng)用。隨著高清化的普及,存儲容量得到進(jìn)一步擴(kuò)大,如何查找錄像,在海量數(shù)據(jù)中快速找到所需要的信息,對基于內(nèi)容的視頻檢索需求越來越迫切。
安防行業(yè)的視頻信息有幾個特點(diǎn):
1.數(shù)據(jù)量非常大。由于安防監(jiān)控視頻是對監(jiān)控點(diǎn)進(jìn)行連續(xù)、持續(xù)的監(jiān)控,故視頻文件非常龐大,按照TB進(jìn)行量度(1TB=1024GB);2.人機(jī)接口較特殊。檢索安防視頻信息,往往是為了查驗?zāi)硞€已經(jīng)發(fā)生的事件。查閱信息者也許對事件發(fā)生時間、相關(guān)人員體貌特征等信息有一定概念,但對其在畫面中處于什么位置甚至是否攝錄到相關(guān)信息也許不確定;3.安防行業(yè)的視頻信息存儲與管理有自己一套封閉的系統(tǒng);4.重復(fù)、靜止視頻量較大。
針對以上特點(diǎn),如何對所拍攝的視頻關(guān)鍵幀進(jìn)行有效的分類管理、如何自動區(qū)分有效和無效畫面,如何通過自動標(biāo)注簡化查找過程,如何更為細(xì)化地滿足用戶行業(yè)化需求進(jìn)行視頻數(shù)據(jù)的管理和存儲以便快速查找都是需要解決的問題。
智能分析與存儲技術(shù)發(fā)展讓海量視頻檢索成為可能
海量視頻檢索,除了需檢索技術(shù)發(fā)展之外,對于存儲系統(tǒng)要求也是非常高的。目前安防行業(yè)視頻信息前端與后端分別采用不同存儲方式進(jìn)行。如漢邦高科認(rèn)為可采用DVR作為存儲前端,后端的網(wǎng)絡(luò)存儲主要起到數(shù)據(jù)備份及報警數(shù)據(jù)備份作用;同有飛驥常用FC-FC、FC-SATA/SAS、ISCSI-SATA/SAS幾種組合進(jìn)行存儲系統(tǒng)安裝等等。總而言之,在視頻監(jiān)控前端的存儲往往具有時間序列的流媒體特性,而后端主要是進(jìn)行數(shù)據(jù)備份和集中管理。在這種模式下,相關(guān)的視頻數(shù)據(jù)在各個分控的前端存儲設(shè)備上進(jìn)行保存,也可同時按照需求進(jìn)行備份,當(dāng)需要某個數(shù)據(jù)的時候,由集中管理平臺調(diào)閱相關(guān)數(shù)據(jù)顯示。
海量視頻檢索,智能分析技術(shù)不可或缺。在前端,智能分析可將每段視頻都打上特有的標(biāo)記,以便快速查找。比如要查找一些重要畫面的視頻,對于夜間靜止的視頻就可以快速跳過,此時即可利用智能分析工具在存入靜止視頻數(shù)據(jù)的同時打上標(biāo)記,這樣在查找人時候就可以快速跳過該文件。其它前端智能分析方法包括移動偵測、異常聚集、煙霧檢測等。經(jīng)過初步智能分析的文件還可進(jìn)行數(shù)據(jù)的二次備份。相關(guān)的視頻數(shù)據(jù)存儲在各個分控的前端存儲設(shè)備上,需要的時候由集中管理平臺調(diào)閱相關(guān)數(shù)據(jù)顯示。后端數(shù)據(jù)的管理和檢索可由應(yīng)用層軟件或平臺軟件來實現(xiàn),也可配套相應(yīng)的智能化開發(fā),比如將人臉識別加入存儲設(shè)備中,可以對某段視頻進(jìn)行具體人的定位等。
智能分析與存儲技術(shù)就像兩條腿,必須協(xié)調(diào)起來,配合行走才能抵達(dá)海量視頻檢索的目的地。智能化對存儲的控制器處理能力,存儲設(shè)備軟件兼容性等都提出了較高要求,而存儲系統(tǒng)沒有智能化的幫助是難以完成視頻檢索的。
結(jié)束語
雖然當(dāng)前治安視頻檢索主要還是靠人工進(jìn)行,但相關(guān)技術(shù)正在改進(jìn)。隨著基于內(nèi)容的視頻檢索技術(shù)的發(fā)展,以及存儲技術(shù)和智能分析技術(shù)的不斷給力,海量視頻檢索離安防會越來越近,并最終帶來視頻信息利用與管理的飛躍。