視頻監控就是通過攝像機觀測被監視場景中的運動目標,查看、分析、描述、記錄其行為,以滿足安全防范、遠程管理和實時交流的需要。視頻監控系統是多媒體、計算機網絡和人工智能等技術的綜合運用,在視頻監控系統中進行圖像處理,目的是提高圖像視感質量,適應傳輸網絡狀況,提取圖像的特征或信息,其核心問題是實現以更小的傳輸帶寬承載更高質量的視頻,減少運算資源消耗,實現對視頻內容的主動感知,對海量視頻數據的快速查找、精確定位和靈活呈現,涉及的主要技術包括:視頻編解碼、視頻傳輸與存儲、移動視頻技術、視頻分析、視頻檢索等,以下將進行簡要介紹。
視頻編解碼
目前提高視頻編碼效率的方法可分為兩大類:一是在傳統的編碼框架內繼續提高各模塊的編碼效率,這一類的編碼技術有變塊大小預測、自適應塊變換、自適應插值濾波等技術;二是結合人類視覺特性的新型編碼框架研究,這一類的編碼技術包括基于HVS評價標準的混合視頻編碼、基于紋理分析/合成的編碼、基于圖像修復的圖像/視頻編碼等。
視頻編碼關鍵技術
變塊大小預測
宏塊是視頻編碼的基本單位。H.264編碼算法中定義了七種大小可變的塊尺寸模式,同時利用率失真策略對這七種模式進行遍歷,這就使編碼器可以根據圖像中運動情況靈活地選擇塊的大小,提高運動預測精度。
自適應塊變換
H.264標準制定的初期曾有自適應塊變換的提案,目前的應用中自適應塊變換與信號特征的結合更為緊密,如變換塊大小與運動劃分大小的結合,更多的變換大小選擇,以及結合圖像紋理特征的方向變換等技術。
自適應插值濾波
部分像素預測是提高預測編碼效率的重要工具,其中插值濾波系數起著關鍵作用。根據圖像信號的特征,自適應選擇插值濾波系數使得預測誤差能量最小化,能夠大大提高編碼效率,這種方法在高分辨率編碼中優勢明顯。
新型編碼技術的方法
基于HVS評價標準的混合視頻編碼
由于人眼對圖像每個區域的敏感度是不同的,可以通過探索HVS的掩蔽特性來建立感知誤差的閾值,以區分人們能夠感知到的和不能感知到的信號,進而去除視覺心理冗余。
基于紋理分析/合成的編碼
基于紋理分析與合成的編碼主要是將視頻場景分為紋理區域和非紋理區域兩部分,并通過一個紋理分析與合成器把主觀不重要的紋理區域分割并重構出來,在編碼端,將原始序列某些區域的紋理,僅編碼其余區域以及用于合成去除紋理區域的參數;在解碼端,去除的紋理區域通過碼流中參數進行重構。
基于圖像修復的圖像/視頻編碼
對于失真不易覺察到的塊或區域不采用圖像修復的方法進行修復,要方法是根據偏微分方程計算出等照度線傳播方向,使信息從待修復圖像塊的邊緣向內部擴散,完成整個缺失塊的填充。
分布式編碼
在分布式視頻編碼技術中,視頻幀分為Wyner-Ziv幀和Key幀。Wyner-Ziv幀獨立進行Wyner-Ziv編碼,生成的碼流傳輸到解碼端,解碼器利用生成的邊信息來進行解碼,信號之間的相關性由解碼器來消除,Key幀采樣傳統視頻編碼中的幀內編碼(如H.264的幀內編碼),解碼端通過Key幀和邊信息重建視頻序列。相對于傳統編碼技術,分布式視頻編碼主要有以下特點:低復雜度的編碼、高復雜度的解碼,對于容易產生誤碼的通信網絡具有較好的魯棒性,具有較高的壓縮效率,易形成分級編碼的碼流,適合傳感器網絡、分布式監控等應用場景。
視頻編解碼標準化
在標準化方面,MPEG工作組和VCEG工作組自聯合制定H.264標準后,又陸續完成了面向可伸縮網絡傳輸應用的H.264 SVC標準擴展,以及面向多視應用的H.264 MVC標準擴展,預計在明后年將推出H.265(即H.264 HVC)的編碼標準,該標準主要依賴小波的聚能性能和分解級數進行視頻壓縮,在壓縮效率、魯棒性和錯誤恢復能力、實時時延和復雜度等方面將會有較大改進。在國內,AVS工作組自2002年成立至今,已經成功完成第一代AVS視音頻編碼標準制定工作,而面向高清、超高清、三維視頻的AVS2標準制定工作已經展開。
視頻流傳輸與存儲
由于目前的因特網在帶寬、延遲抖動和丟包率等方面的不可預知性,在大規模網絡視頻監控系統中,需要采用相關技術,提高流媒體服務質量,目前采用的技術主要包括:音視頻流播出質量服務、視頻流的轉發與存儲、漸進式音視頻流傳輸等。
音視頻流播出質量服務
包括各個層次上的網絡服務控制(QOS),如錯誤隱藏、跳幀處理和容錯編碼等。其中客戶端的差錯隱藏是比較常用的技術手段,該技術利用圖像序列的連續性恢復出受損塊的運動矢量,在沒有運動信息時利用受損塊周圍的相同信息來推測受損塊的內容。
視頻流的轉發與存儲
與數值、字符等數據不同,視音頻數據是非格式數據,并且數據量相對龐大,對存儲服務器和轉發服務器的性能有較高要求,因此服務器不僅需要有海量的多模態數據存儲能力,還需要有快速的數據吞吐量、實時的響應時間;對于存儲設備,主要技術包括有磁盤調度策略、數據條塊化、分級存儲和磁盤容錯等。
漸進式音視頻流傳輸
這種傳輸方式首先接收并顯示低分辨率的音視頻數據,然后再進一步接收更精細的數據,來提高音視頻的現實質量,這樣可以用來平衡等待時間與觀看質量之間的矛盾,該技術的關鍵問題是對音視頻對象的漸進式表達。
移動視頻技術
隨著移動互聯網的發展,移動終端已經成為信息獲取和交互主要工具,成為視頻監控系統中的重要終端。目前移動視頻監控系統應用中的核心問題是如何在較低的帶寬和較小的顯示屏幕限制下,更方便地獲取視頻監控信息,其技術主要包括以下幾個方面:
面向小屏幕應用的媒體內容適配顯示
由于移動終端的屏幕有限,而音視頻內容在移動環境下往往不能被充分顯示,需要采用自適應瀏覽技術,對于靜態內容的顯示可根據前期關注分析的結果,按重要程度依次顯示或進行放大縮小處理;對于動態音視頻內容的播放,可以采用最優化損失、曲線擬合等方法減少視頻畫面抖動。
面向移動音視頻訪問的人機交互界面
由于移動終端顯示屏幕大小的限制,往往不能像正常的屏幕那樣顯示檢索或推薦得到的多個媒體內容,這樣就需要研究移動環境下的媒體可視化技術,在有限空間范圍內盡可能多的表示媒體內容,同時還能增強用戶的瀏覽觀感。
面向移動應用的視頻轉碼
由于移動終端的顯示能力和計算能力各不相同,支持的視頻質量也各不相同,需要采用面向移動應用的視頻轉碼和視頻傳輸技術,能根據不同的信道狀況和終端顯示能力,對視頻進行自適應的轉碼處理。視頻轉碼技術分為碼率縮減的轉碼、分辨率縮減的轉碼、幀率縮減的轉碼、針對無線網絡的容錯轉碼、不同格式之間的轉碼等,其主要研究內容包括結合快速模式選擇,高效、低復雜度的率失真優化轉碼框架,以及根據輸入視頻碼流中的各種信息參數進行不同預測模式之間的快速預測和變換。在多模式的視頻轉碼中,還需要根據用戶所需要的視頻內容和網絡資源占用情況,綜合考慮動態調整視頻流的幀率、空間分辨率以及量化步長,使得用戶體驗最優化。
視頻分析
雖然音視頻內容的分析研究已經進行了多年,但許多問題依然只能在較小的范圍內應用,目前監控系統中應用的視頻分析和理解技術主要包括特征提取、分類方法、多模態融合等。
特征提取
現有的音視頻特征可分為兩類:整體特征和局部特征,整體特征往往從整個媒體單元中抽取得到,可以較好地描述音視頻數據的整體特性,但不能有效描述其細節特點,局部特征從音視頻數據的局部中抽取得到,并用于描述其細節特點,局部特征可以對遮擋、光照、視角變換具有更好的魯棒性。受文本信息檢索技術的啟發,通過將音視頻數據的局部特征量化為視覺單詞,從而將媒體數據轉化為類文本數據結構,進而采用較為成熟的文本信息處理技術處理音視頻數據,這種基于局部特征和視覺單詞模型,已經被應用于物體識別、物體檢測、視頻檢索、事件檢測等應用中。
分類方法
目前采用的分類方法可分大致為有監督學習、半監督學習和無監督學習三大類,其中,有監督學習方法需要大量的標注數據用于訓練分類器以對待處理的數據進行的分類識別,無監督學習方法通過聚類分析等提取出一些可能有用的信息來輔助滿足用戶的需求,這兩種分析方法已經在音視頻分析中得到了大量的應用;半監督學習方法,該方法利用數據的內在分布特點,只需要用戶標定少量數據以得到更準確的分類模型,在已標注的訓練數據不足而未標注的數據卻大量存在的情況下效果較好,目前半監督學習算法主要有如自訓練法、產生式模型方法、直推式支持向量機及其改進、多視角方法的和基于圖的學習方法等。
多模態融合
融合多種模態信息的音視頻分析可以根據不同模態特征在分類能力和可靠性的差異采用不同的處理模式,通過合理利用圖像/關鍵幀、聲音、文字等多種媒體源特征的互補性,獲得更優的分類或檢測結果;多模態融合主要可以分為前融合和后融合,多模態特征的前融合即將不同的特征向量合并在一起作為分類器輸入,具有應用簡單、魯棒性較強的特點但常不能反映各模態特征受關注程度的全部信息,后融合方法在解決數據的不對稱性問題和不同時序層次的判別融合問題方面具有較大優勢。
視頻處理
視頻監控中的視頻處理技術主要包括視頻格式轉換和圖像增強兩大類,視頻格式轉換包括視頻縮放和去隔行技術。
視頻格式轉換
視頻縮放技術
圖像縮放的方法主要有幾何變換法和離散圖像連續表示法兩大類。幾何變換法的主要原理是將目標圖像上的點映射成源圖像上的點,然后將目標圖像的顏色值取作源圖像的顏色值,而當源圖像上的點不是格點時,則采用鄰近若干格點處的顏色值表示;離散圖像連續表示法對原始的數字圖像用連續函數進行刻畫,再根據圖像放縮的倍數要求對該連續表示的圖像進行重新采樣,最后得到新的離散表示的數字圖像。視頻縮放算法中,關鍵是插值參數曲面的構造.常用的插值方法有:鄰近點插值,雙線性插值,雙三次插值方法和三次B樣條插值等。在以上方法中,鄰近點插值不能保證插值曲面零階連續,插值后圖像會出現塊狀化現象,圖像視覺效果不佳,因而在實際的應用中極少采用;雙線性插值只能達到零階連續,在插值處只能保證灰度值連續,不能保證導數值連續。因此,在某些要求較高的場合仍不能滿足要求;B樣條插值方法可以達到二階連續,在插值處可以保證灰度值和直到二階導數值連續,因而對一些細節豐富的圖像應用雙三次樣條插值可以得到更好的視覺效果,但B樣條插值需要求解線性方程組,其計算時間較長,尤其是在放大倍數很大時,尤為明顯。
去隔行技術
目前業界采用的去交錯方法主要可以分為四類:直接合并去交錯、圖場內差去交錯、動態適應去交錯和動態補償去交錯;直接合并去交錯法將連續的奇或偶圖場直接合并為一幀,此方法計算量小,但會產生梳狀流線、邊緣閃動等現象,一般用于靜態畫面的處理;圖場內差去交錯法在圖場內通過算法確定邊緣方向,通過在邊緣方向上進行插值確定目標圖場數值,通常這類方法計算量小可以讓物體邊緣更銳利,但會產生邊緣閃動的現象;動態適應去交錯法結合直接合并法和圖場內插法,在算法中增加了動態偵測器,通過圖場差判斷畫面某部分是否動態,將動態部分做圖場內插,對靜態部分做直接合并,此類方法計算量比較大,對于超大范圍的運動、移動、轉動和縮放會產生放射性條紋;動態補償去交錯法不僅要檢測視頻圖像序列中是否存在運動,還要計算運動的方向和大小,通過計算得到的運動矢量從鄰近場的像素點來還原本場內的像素點,此方法能解決運動物體的還原問題,但是計算量較大且運動矢量計算誤差將被傳輸到臨近的視頻場。
圖像增強處理
圖像增強方法主要分成兩大類:頻率域法和空間域法,前者把圖像看成一種二維信號,對其進行基于二維傅里葉變換的信號增強,采用低通濾波法,可去掉圖像中的噪聲,采用高通濾波法,則可增強邊緣等圖像高頻信號;基于空域的算法分為點運算算法和鄰域去噪算法,點運算算法即灰度級校正、灰度變換和直方圖修正等,目的是使圖像成像均勻,或擴大圖像動態范圍,擴展對比度,鄰域增強算法分為圖像平滑和銳化兩種,平滑一般用于消除圖像噪聲,常用鄰域增強算法有均值濾波、中值濾波,銳化的用于突出物體的邊緣輪廓,常用銳化算法有梯度法、算子、高通濾波、掩模匹配法、統計差值法等。
視頻檢索
目前視頻監控中的視頻檢索技術主要是通過在視頻碼流中加入特定標簽的對視頻進行標識,在關系數據庫中對標簽進行索引實現視頻檢索;未來的視頻檢索將采用面向對象的數據庫技術,實現基于內容的視頻檢索。基于內容的視頻信息檢索通過對非結構化的視頻數據進行結構化分析和處理,采用視頻分割技術,將連續的視頻流劃分為具有特定語義的視頻片段即鏡頭,作為檢索的基本單元,在此基礎上進行代表幀的提取和動態特征的提取,形成描述鏡頭的特征索引。依據鏡頭組織和特征索引,采用視頻聚類等方法研究鏡頭之間的關系,把內容相近的鏡頭組合起來,逐步縮小檢索范圍,直至查詢到所需的視頻數據,所以視頻分割、代表幀和動態特征提取是基于內容的視頻檢索的關鍵技術。
視頻分割有自動和半自動兩種方式,其中自動分割的難度大,分割效果隨視頻的內容復雜度變化很大,半自動分割方式適用于復雜場景下對象的分割,分割的質量較好,但沒有實時性,采用的方法主要有幀間差分法、運動矢量場估計法、基于貝葉斯和馬爾科夫隨機場的分割方法等;代表幀是用于描述鏡頭的關鍵圖像,常用的選取方法是幀平均法和直方圖平均法,抽取代表幀后,視頻檢索就轉變為數據庫中類似代表幀的檢索,目前常用的查詢方式是示例查詢,在視頻特征庫的支持下檢索到相似代表幀,用戶通過播放觀看相關視頻片段,選擇相似圖像進行查詢;動態特征是檢索時用戶所能給出的主要內容,如鏡頭的運動變化、運動目標的大小變化、視頻目標的運動軌跡等,這些動態特征的提取需要通過對視頻序列的分析提取分析,視頻運動信息的提取需要計算光流圖,它是對物體在三維場景中運動在二維圖像平面上投影變化的估計,主要采用基于窗口的塊匹配算法。
總 結
隨著物聯網和移動互聯網技術的迅速發展,傳統的IT架構逐漸云端化,計算資源和承載業務將進一步深度整合,在物聯網和云計算匯聚的潮流中,視頻監控技術將發生徹底的變革:視頻監控平臺將成為多信息互聯、集成、交互的核心系統,視頻監控前端設備逐漸進化為具有自主智能的節點,整個監控前端網絡將從星型管控向網狀感知系統轉變,通過RFID、無線傳感網、視頻監控網絡的協作互補,監控系統的感知能力和智能程度將得到極大提升,采集的數據也將從非結構化數據轉變為互相關聯的結構化數據。在這場變革中,圖像處理技術特別是視頻編解碼技術,視頻分析、理解、檢索技術是將是未來產業競爭的制高點,值得業內人士持續關注。