海量視頻數據的存儲和管理
維基百科全書的定義:“大數據是飛速增長的,用現有數據庫管理工具難以管理的數據集合”。這些數據包括:社交媒體、移動設備、科學計算和城市中部署的各類傳感器等等,其中視頻又是構成數據體量最大的一部分。
據IMS Research統計,2011年全球攝像頭的出貨量達到2646萬臺,預計到2015年攝像頭出貨量達5454萬臺。僅僅視頻監控錄像而言,每天的數據量就達上千PB,累計的歷史數據將更為龐大,在視頻監控大聯網、高清化推動下,視頻監控業務步入數據的井噴時代。
“大數據或稱巨量數據、海量數據、大資料,指的是所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理、并整理成為人類所能解讀的信息。”維基百科對大數據的定義將大數據的特點闡釋得非常清晰: “海量”和“非結構化”。
海量
IDC研究表明,2012年的數據存儲總量約為2.8ZB,2020年數據存儲量約為40ZB(1ZB=1億TB)。數據量正在以 55% 的速度逐年增長。全世界粗略估計有至少有2億個攝像頭在角落里靜靜的看著我們。
非結構化
與通常講的Oracle、SQL這類傳統的數據中心級的結構化數據不同,視頻監控業務產生的數據絕大多數以非結構化的數據為主,信息呈現上為松耦合的關系,這給傳統的數據管理和使用機制帶來了極大的挑戰。
大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那么這種產業實現盈利的關鍵,在于如何讓數據會“說話”。如何將海量的數據變成落地民生,進行商業趨勢、判定研究質量、避免疾病擴散、打擊犯罪或測定實時交通路況正是“大數據”盛行的本質。
圍繞大數據的命題,經過采集后的視頻數據通過創建數據倉庫,進行數據的分析和挖掘,最終進行可視化的呈現,就是大數據的衍變過程。在大數據的發展趨勢下,對海量視頻監控數據的存儲和管理是當下各大廠商積極探索的命題之一。
海量視頻數據的存儲和管理
視頻數據的爆炸式增長,意味著需要投入更多的資源以及付出更多的努力,才能在這些體量龐大的數據中尋找到有價值的信息。目前各大廠商也發現單個節點的存儲設備無法適應海量的視頻監控數據的管理需求,其發展沒能跟上數據增長的速度。其實不難發現,視頻監控數據和傳統的數據中心的結構化數據的業務模型相差較大:
恒定碼流的高并發寫入
視頻監控數據具有高并發、大容量的特點。以1080P為例,在4Mbps的碼率下,中等城市的監控規模一般為數千到數萬攝像頭,按5000路計算,并發寫入碼流為5000路*4Mbps *24小時*60分鐘*60秒 ;
大容量
根據公安部要求錄像數據在系統中保存30天以上。中等城市的存儲容量為:5000路*4Mbps *24小時*60分鐘*60秒*30天;
高可靠
視頻監控存儲系統7*24小時不間斷的高壓力寫入的同時,還必須具有高級別的容錯性,存儲等硬盤類介質屬于電子產品,電子產品或多或少都存在軟件或硬件的bug,高壓力下的硬盤故障率也會比較高,如果保障故障發生時不造成監控數據的丟失,是視頻監控存儲管理的重要命題。
在線升級擴容
由于視頻監控項目本身在不斷發展,系統定期會進行在線擴容和升級,這就要求存儲系統具有高度的可擴展性,可在系統中簡單便捷地增添存儲設備。
信息價值
海量數據和有效數據之間的矛盾。攝像頭7*24小時工作,如實記錄鏡頭覆蓋范圍的發生的一切,僅僅記錄信息是不夠的,因為對于客戶來講可能大部分信息是無效,有效信息可能只分布在一個較短的時間段內,按照數學統計的說法,信息是呈現冪律分布的,也稱之為信息的密度,通常在最短的時間內提供的數據有效性越高,對客戶價值越大。
有效信息提取(計算)
在視頻監控領域,往往視頻分析的效率決定價值,更低的延遲、更準確的分析往往是平安城市這類客戶的普遍需求。隨著數據量的增加,哪怕對TB級別的數據進行對視頻內容的數據分析和檢索,采用串行計算的模式都可能需要花費數小時的計算,已遠遠不能勝任時效性的需求。大數據架構下的存儲系統還需要考慮后續的計算模式的匹配。
視頻文件存儲幾大問題
視頻文件目前絕大多數的系統都是采用文件系統的方式進行音視頻數據的存儲。文件系統有幾個最大的問題:
存儲設備管理接口不統一
存儲資源的管理及分配制度
以文件系統為核心的數據存儲方式
1) 文件系統易損壞,寫文件會導致文件系統元數據區的頻繁持續更新,因此文件系統的元數據區很容易損壞,導致文件系統不可用。
2) 性能問題:文件系統經IO過操作系統的封裝,在數據長時期持續寫入的情況下,開銷要大于直接裸盤寫入,降低性能。在磁盤上存在大量錄像文件時,系統的錄像檢索效率會下降很多。另外,磁盤上的大量文件在多次刪除重建后,數據在物理磁盤上的位置將變成不連續,導致數據寫入的隨機性加大,從而降低錄像數據的寫入性能。
視頻存儲作為圖像數據和報警事件記錄的基礎載體,重要性是不言而喻的,存儲的需求已不僅是一臺或幾臺設備而已,而已提升到了一個解決方案平臺的高度。大容量、高并發的視頻監控存儲系統并不是存儲設備的簡單堆積,更需要解決監控業務特色的存儲機制的完備性、存儲標準以及在時間(存儲數據處理速度)和空間(存儲容量)上的可使用性等問題上滿足大容量、高并發等大數據應用架構下的監控存儲系統的要求。
“云存儲”有許多的定義,大家公認的基本功能有:按需自動服務、資源池、快速靈活、廣泛的網絡接入等。云存儲是通過網絡提供的可配置虛擬化存儲和相關數據服務,這個服務級別是可以按需要來保證的。云存儲的第一個涵義是網絡,早期通過云的圖示表示網絡,這是云存儲的由來。“云存儲”實際上借助了網絡的概念,所以涵括了部分網絡在內;另一個含義就是它的服務,虛擬化存儲,提供存儲池,屏蔽單臺存儲設備的所有細節,提供傳統的存儲很難做到按需服務。
基于裸數據塊的視頻云直存虛擬化技術
虛擬化是云存儲的主要特征之一。存儲領域國際權威機構SNIA(存儲網絡工業協會)給出了存儲虛擬化(Storage Virtualization)的定義:“通過將存儲系統/子系統的內部功能從應用程序、計算服務器、網絡資源中進行抽象、隱藏或隔離,實現獨立于應用程序、網絡的存儲與數據管理”。存儲虛擬化技術將底層存儲設備進行抽象化統一管理,向服務器層屏蔽存儲設備硬件的特殊性,而只保留其統一的邏輯特性,從而實現了存儲系統的集中、統一、方便的管理。
與傳統虛擬化存儲相比,基于“裸數據塊”的虛擬化存儲化技術,不僅繼承了“磁盤利用率高” 和“管理方便”的特點,還能將文件系統的風險及碎片問題徹底解決。
高磁盤利用率
傳統存儲技術的磁盤利用率一般只有30-70%,而采用虛擬化技術后的磁盤利用率高達95%;存儲靈活,可以適應不同廠商、不同類別的異構存儲平臺,為存儲資源管理提供了更好的靈活性;
管理方便
管理方便,提供了一個大容量存儲系統集中管理的手段,避免了由于存儲設備擴充所帶來的管理方面的麻煩;性能更好,虛擬化存儲系統可以很好地進行負載均衡,把每一次數據訪問所需的帶寬合理地分配到各個存儲模塊上,提高了系統的整體訪問帶寬。
無文件碎片及文件系統問題
云存儲是炙手可熱的“大數據”中組成之一:存儲單元模塊。“大數據”中提及富媒體資源指的就是視頻監控業務產生的大量數據,占比巨大的富媒體信息中的載體為存儲設備和云存儲解決方案。
存儲設備或云存儲解決方案作為視頻監控里中結構化和非結構化數據的載體,橫跨基礎架構、內容信息三個維度的信息化建設的基礎。如果將“富”媒體中的視頻信息,從底層的動態存儲到以事件或物理為索引的信息分析,再到將海量的非結構化數據轉化成信息和洞察力,做到真正的“為人所用”,才是大數據的真正魅力所在。
監控特色的數據倉庫
數據倉庫是一個面向主題的、集成的、相對穩定的、反映歷史變化的數據集合,用于支持管理決策。 數據倉庫是一個過程而不是一個項目;數據倉庫是一個環境,而不是一件產品。數據倉庫提供用戶用于決策支持的當前和歷史數據,這些數據在傳統的操作型數據庫中很難或不能得到。
監控特色的數據倉庫技術是為了有效的把基礎視頻庫中的錄像信息,按照某些特性或邏輯或定義的結構類型,進行信息的提取,作為數據集成到統一的環境中以提供決策型數據訪問的基礎。目的做的一切都是為了讓用戶更快更方便查詢所需要的信息,提供決策支持
傳統的數據處理和加工是:從外界存儲取出來數據,被應用程序或其他系統程序所讀取并計算處理,處理完畢將其放入程序里面,整個業務流有多個處理環節,要不斷地存儲、讀取、計算、再存儲,其系統的大量時間花費在數據的遷移上,一旦數據量增加,從數據向計算遷移的環節就肯定“費時費力”。
大數據整理架構發展趨勢下,將管理的重點由以前的“設備”為中心,衍變成以“數據”為核心的模式。用戶根據數據具體分布,推送部署計算單元,大大節省額外的空間計算消耗。
數據可視化
無論是單一的存儲設備,還是IT或監控云存儲的解決方案,其核心都是作為數據的載體。任何行為本身都會產生數據,視頻監控業務中每個物體的軌跡、每秒中呈現的數據,都是就是大數據的最原始雛形,但雛形不等于本質,擁有這些軌跡數據的本質,才能更全面、更清楚的對原始數據的認知。
數據可視化技術的基本思想是將數據庫中每一個數據項作為單個圖元元素表示,大量的數據集構成數據圖像,同時將數據的各個屬性值以多維數據的形式表示,可以從不同的維度觀察數據,從而對數據進行更深入的觀察和分析。主要旨在借助于圖形化手段,清晰有效地傳達與溝通信息。但是,這并不就意味著,數據可視化目的為了有效地傳達“數據”的過去狀態的呈現及未來狀態的預測,通過直觀的數據傳達關鍵的方面與特征,從而實現對于相當稀疏而又復雜的數據集的深入洞察。
監控視頻數據可視化依據數據及其內在模式和關系,利用計算機生成的圖像來獲得深入認識和知識。模擬感覺系統的廣闊帶寬來操縱和解釋錯綜復雜的過程、涉及不同學科領域的數據集以及來源多樣的大型抽象數據集合的模擬。
監控視頻數據可視化是大數據架構下的特征產物之一,通過視頻云存儲作為承載。“可視化”的實現能打破成熟的科學可視化領域與較年輕的信息可視化領域間的技術壁壘,同時也是一條鋪滿荊棘的探索之路。