視頻摘要的英文名是Video Abstract,它是一個可以概括原始視頻主要內容的技術。隨著我們對視頻數據處理的要求不斷提高和視頻數據量的不斷增多,人們需要為一長段視頻建立一段摘要來快速瀏覽以便更好地利用它。通過視頻摘要技術,讓我們在基于內容的視頻檢索中不僅僅能利用文字,而且能夠充分利用音視頻信息。視頻摘要技術解決的問題是如何使視頻數據有效的表示和快速的訪問,它是利用對視頻內容的分析來減小視頻存儲、分類和索引的代價,提高視頻的使用效率、可用性和可訪問性,它是基于內容的視頻分析技術的發展。
一、視頻摘要解釋
視頻摘要技術的研究最早始于1994 年CMU 大學的Informedia工程, 隨后德國曼海姆大學、FX Palo Alto 實驗室、Minnesota大學、MITRE 公司、哥倫比亞大學與微軟研究院等都在這方面進行了較為深入的研究, 分別提出了各自的視頻摘要策略, 視頻摘要的表現形式也由最初的靜態摘要轉變為現在的動態縮略視頻。
總的來說視頻摘要是對一長段視頻內容的簡短總結,即:視頻摘要就是一連串靜止或運動的圖像,分別稱為靜態視頻摘要和動態視頻摘要,它們用精簡的方式代表了原視頻的內容,同時保留了原內容的要點。靜態視頻摘要是從原始視頻中剪取而生成的一系列靜止圖像的集合,這些代表了原始視頻的圖像成為關鍵幀,動態視頻摘要是由一些圖像序列以及對應的音頻組成,它本身是一個視頻片斷。兩者區別是靜態視頻摘要只考慮其關鍵幀,忽略了音頻信息,生成摘要的速度比動態視頻摘要快,動態視頻摘要表現的內容比靜態視頻摘要豐富,通常以鏡頭的方式表示,融合了圖像、聲音和文字等信息。
視頻摘要的作用主要是便于存儲和視頻的瀏覽或查找,相對于原始的視頻資料,視頻摘要的長度要短很多,節省了存儲時間、空間。視頻摘要保留了原內容的要點,所以對于用戶來說,瀏覽或查找視頻摘要比瀏覽原始視頻要節省時間。
二、視頻摘要生成方法及過程
視頻摘要的生成方法大致可以分為4類:
1、簡單的生成方法
基于時間點對視頻進行采樣,即每間隔一定的時間抽取一個代表幀或者一個片段,這種生成方法很容易實現,但完全沒有基于視頻的內容。
2、基于視覺信息的生成方法
根據視頻里出現的顏色、紋理、形狀、運動方向和強度等視覺信息,基于模式識別的思想,應用各種視頻和圖像處理技術,進行鏡頭探測、關鍵幀提取、場景聚類、運動特征提取等一系列操作,最終生成具有代表性的關鍵楨序列或縮略視頻。這種算法完全基于視覺特征,忽略了音頻、字幕等信息對視頻的作用。
3、融合多特性的生成方法
在基于視覺方法的基礎上融入其他媒體提供的信息,準確地判斷視頻片段的重要程度,這種算法是目前大多數視頻摘要技術采用的方法。
4、基于視頻句法語義的生成方法
從視頻的句法結構分析入手,探尋鏡頭與鏡頭之間、場景與場景之間的結構規則,將視頻的句法語義盡可能完整的保存在摘要中。
視頻摘要生成過程可以歸納為3個過程:
①視頻分割
任何視頻摘要算法都遵循“先分后合”的原則,要進行視頻內容理解和分析必須首先將視頻切分成合理的基本單位,這些基本單位包括場景、鏡頭、幀等。
②視頻內容提取
采用模式識別或者視頻結構探測的方法來獲取能夠被計算機或者人之間感覺的信息。
③合成摘要
把判定為重要的視頻片段組合在一起形成某種形式的摘要。
如果將上述3個過程細化,由原始視頻生成視頻摘要首先要對非結構化的圖像流進行處理,使之成為結構化的數據,這個過程稱為視頻結構化,又叫視頻分析。幀是視頻數據的最小單元,是一幅靜止的畫面,鏡頭是由幀組成的視頻數據的基本單位,是攝像頭的一次連續的動作,只能拍攝相鄰地點連續發生的事情,場景由內容相近的鏡頭組成,從不同的角度描述同一個事件,視頻是由許多場景組成,敘述一個完成的故事。針對視頻內容的結構化提取是通過自底向上的方法從每一幀中分析出結構化信息。
視頻結構化主要步驟有鏡頭分割、關鍵幀提取、場景重構。
鏡頭分割:鏡頭是視頻檢索的基本單元,大部分視頻是由一個個鏡頭連接而成的。在編輯時,可能采用不同的方法將前后兩個鏡頭結合在一起。兩個鏡頭的結合方法可能是突變,即一個鏡頭直接加在上一個鏡頭最后一個畫面之后,也可能是漸變,如淡入淡出、慢轉換等。鏡頭分割過程的主要工作是鏡頭邊界的檢測。常用的鏡頭邊界檢測的算法有突變檢測算法和漸變檢測算法。
關鍵幀提取:在進行鏡頭分割后,視頻被分解為一個個連續的鏡頭。在同一鏡頭中,t時刻的圖像幀和t+1時刻的圖像幀往往在視覺特征和內容上差別不大,所以在一個鏡頭中對分析過程而言存在太多的冗余的圖像幀,因此就需要從成千上萬的圖像幀中提取關鍵幀。所謂關鍵幀是用于描述一個鏡頭內容的關鍵圖像,它是從原始的視頻文件中抽取的一些靜態圖像。靜態視頻摘要就是由這些關鍵幀組成的。用它們來表示視頻,更加簡潔,也消除了在視頻分析時的巨大冗余。關鍵幀提取主要是利用圖論、曲線分裂、聚類和奇異值分解的方法。這些方法的基本思想是把一幀看成是多維特征空間中的一點, 選擇的關鍵幀是點的子集, 這些點集能夠覆蓋特征距離內的其它點, 或者能夠表明場景內容的變化。關鍵幀提取算法主要有: 基于鏡頭邊界法、基于顏色特征法、基于運動分析法、基于內容的自適應提取方法、基于聚類的關鍵幀提取方法等。
場景重構:場景是由語義上相關和時間上相鄰的若干組鏡頭組成的。場景是視頻所蘊涵的高層抽像概念和語義的表達。在視頻分割中,首先將視頻切分為一個個的鏡頭,然而實質上某一些連續的鏡頭在情節上是相關的,這組鏡頭具有相同的語義,表達同樣的主題,將這些鏡頭重構成場景也是視頻結構化的重要部分。重構的場景是觀眾頭腦中形成的主觀概念,因此,場景重構的邊界檢測也就比鏡頭邊界檢測要困難得多,更具有挑戰性。完全自動場景變換檢測系統很難實現,很多文獻提出了場景變化檢測的算法。這些算法可分為兩類:時間約束聚類算法和聲音、視覺特性檢測算法。前者是把視覺相似和時間接近的鏡頭組織成一個場景,目標在于用一種緊湊且有語義含義的方法表示視頻;后者則強調模仿人的觀察力檢測場景變化。
三、視頻摘要未來發展趨勢
隨著視/ 音頻內容分析技術、自然語言理解以及人工交互技術的不斷發展與完善, 未來的視頻摘要技術將出現以下發展趨勢:
1) 多模態的視頻摘要, 即融合圖像、視頻、音頻以及文本等多種媒體內容的視頻摘要。大量的實驗證明, 將各種媒體的特征有機地結合在一起, 才能最大限度地讓用戶在短時間內迅速理解并獲取視頻的內容,如標題與故事板相結合的摘要形式必定會比單一的標題或故事板的摘要形式更容易讓人理解。
2) 交互式的視頻摘要?,F在的視頻摘要多半是主觀的、按照生成者意圖定制的摘要, 力求于讓用戶理解或瀏覽視頻內容。但未來的視頻摘要將是交互式的, 允許用戶指定摘要的形式,摘要哪方面的內容, 便于用戶自己設計個性化的摘要。未來的視頻摘要技術目標是生成自適應的、可視化的視頻摘要, 即根據用戶需求對內容進行自適應的表現。具體體現在允許用戶對視頻片段進行標注, 允許用戶調整縮略的壓縮比, 如對感興趣的內容設置較小的壓縮率。另外, 它可以通過對用戶交互記錄的分析獲取用戶的喜好, 按照用戶喜好自適應地生成縮略。目前,已經能夠實現通過交互式的地圖以及時間線的方法對新聞視頻按地區和時間進行快速信息的獲取。
3) 總而言之, 視頻摘要技術正在向多模態、個性化以及融合的方向發展, 具有很好的研究價值以及廣闊的應用前景。
四、視頻摘要在安防領域的作用
視頻摘要技術目前已經廣泛地應用于大量使用視頻監控的行業,例如:
公安行業:關鍵道路、卡口視頻智能摘要;
交通行業:重點路段、收費閘口視頻智能摘要;
監獄看守所:重點監舍、人員交接班視頻智能摘要;
大型展會:場館、出入口視頻智能摘要;
電信行業:相關網店、基站、機房視頻智能摘要;
電力行業:相關變電站、電力設備。
領先的視頻產品及內容服務提供商海康威視推出的視頻摘要子系統是從海量的視頻文件中迅速定位播放相關事件的視頻,找出有價值的視頻信息,縮短視頻回放翻查時間,節省人力成本,使查看所有視頻成為日常工作的一部分。視頻摘要子系統能夠對重點監控區域的錄像文件進行特征分析,使原來需要數小時查看的文件,在幾分鐘內可以快速瀏覽查看。用戶通過摘要回放,可以快捷的預覽視頻覆蓋時間內的可疑事件和事件發生時間,并可以根據摘要短片中的單個事件索引,直接鏈接播放可疑事件的原始視頻,觀看整個事件的真實情況。同時視頻摘要子系統還提供對處理后的視頻文件進行物件特征搜索功能,用戶可以通過設置活動物件大小、移動方向以及顏色等信息,對大范圍的視頻進行搜索,找出與用戶設置信息類似的物件,并通過查找結果,回溯到原始視頻。
五、本文總結
本文對視頻摘要技術的方法、實現過程、應用范圍等做了一些總結,總的來說視頻摘要技術已經廣泛使用在安防行業各種應用場景。視頻摘要技術建立在基于內容的多媒體分析技術基礎上,多年以來一直是國內外多媒體研究的熱點之一。如何集成現有成熟技術到視頻摘要系統中,使視頻分析和檢索系統能夠真正商業化應用,也是今后研究的重點之一,而面向監視視頻的視頻摘要技術具有很大的商業應用前景。