動互聯(lián)網(wǎng)時代,視頻傳播有著碎片化、質(zhì)量殘差不齊、傳播成本低、負面內(nèi)容殺傷力大的特點。每天產(chǎn)生數(shù)千萬小時的視頻內(nèi)容,其中有大量的不良視頻,包括躲貓貓式的直播。在帶有隱蔽性的海量數(shù)據(jù)面前,完全依靠人工是沒辦法解決內(nèi)容審核難題,這給視頻的內(nèi)容管理帶來了巨大的壓力。因此,人工智能或許是視頻內(nèi)容管理的不二之選。
在大數(shù)據(jù)基礎上,在視頻文件或直播中,人工智能可以進行智能化視頻分析。快速識別視頻中人臉、聲音、文字、物品、行為、場景等信息,為決策提供參考。具體來說,內(nèi)容審核可化繁為簡,將視頻、直播內(nèi)容轉化為人工智能可以判斷的內(nèi)容比如圖片和文字,通過圖片識別、語音語義識別等人工智能技術對特殊物體如人體、刀具、槍支等做判斷。
搜索了一系列文章,才發(fā)現(xiàn),在網(wǎng)絡視頻內(nèi)容審核這件事上,如今已有多家平臺商推出了人工智能技術的應用服務,百度即是其中之一。說視頻內(nèi)容審核可能大家感覺會比較嚴肅,直白點,大概就是原來人工鑒別(暴恐血腥、不良信息)現(xiàn)今已進化到了機器鑒別的階段。至于審核效率提升了多少,引用下網(wǎng)易杭州研究院執(zhí)行院長汪源的話:“現(xiàn)在依靠深度學習的算法能夠做到99.8%的準確率。”
這樣看來,人工智能技術在網(wǎng)絡視頻內(nèi)容審核方面的作用可謂是一場“輕量級”的智能視頻分析應用,“輕量級”則是相對于專業(yè)級的安防監(jiān)控視頻的規(guī)模而言。同樣是視頻內(nèi)容檢測、分析和搜索,網(wǎng)絡視頻和監(jiān)控視頻完全是兩個級別。無論是分析的視頻數(shù)據(jù)量還是視頻內(nèi)容的類型都有極大的差異。
量不同
首先從視頻數(shù)據(jù)的量來看,網(wǎng)站視頻主要集中在各平臺播出的影視劇、PGC/工作室內(nèi)容、網(wǎng)友上傳的原創(chuàng)視頻(UGC)以及這兩年來走紅的網(wǎng)絡直播視頻上,這其中,數(shù)據(jù)量最大的要數(shù)網(wǎng)絡直播視頻,這類視頻同屬于網(wǎng)友原創(chuàng)視頻的類型,也是各平臺審查力度最大的一類視頻資源。
據(jù)2015年艾媒的視頻直播市場調(diào)研數(shù)據(jù)來看,僅2015年,全國在線直播平臺數(shù)量就接近200家,大型直播平臺每日高峰時段同時在線人數(shù)接近400萬,同時直播的房間數(shù)量超過3000個,這樣算下來每日高峰階段即有600000在線視頻直播的內(nèi)容輸出,這還只是兩年前僅網(wǎng)站直播視頻這一項的數(shù)據(jù)量,如今這個數(shù)據(jù)恐怕早已翻出幾倍。
不過盡管如此,相較于城市視頻監(jiān)控的數(shù)據(jù)規(guī)模,網(wǎng)站視頻的數(shù)據(jù)量仍然只是很小的一部分比例。安防視頻監(jiān)控實行的是7*24*365的全時段運作,以一個攝像頭密度為6000的小型城市為例,6000高清攝像頭一小時的視頻大小將有10800000MB,一天算下來,一個城市將有247TB的視頻數(shù)據(jù),一個月7416TB,而這僅僅是一個超小型城市的視頻數(shù)據(jù)量。
內(nèi)容類型不同
網(wǎng)絡視頻大致可分為娛樂、生活、新聞、體育、在線教育、游戲、電競等類別,無論是影視劇還是網(wǎng)絡直播,審核的目標主要是查看視頻內(nèi)容是否涉及黃反、暴恐血腥、政治敏感、虛假廣告等,審核的項目除了視頻畫面本身之外,還包括圖片、文字、彈幕、網(wǎng)友留言、惡意刷榜、活動反作弊等項目。其中鑒別不良信息是網(wǎng)站視頻內(nèi)容審核的最大項目。
而安防監(jiān)控視頻的內(nèi)容則來源于實時的社會場景畫面,結合公安、交通等應用領域的實際業(yè)務,主要針對的是對視頻畫面中人、車、物三大元素的檢測和分析,細化為對目標的類型、大小、顏色、方向、速度、運動軌跡等各項特征的識別和分析。
人工智能如何鑒別不良信息?
由于視頻數(shù)據(jù)量和內(nèi)容類型的大不相同,因此,采用的視頻內(nèi)容分析手段也有所針對性。更確切的說,網(wǎng)站視頻的視頻內(nèi)容分析主要是為做內(nèi)容審核,在此基礎之上,視頻平臺商也會通過內(nèi)容分析技術來優(yōu)化用戶體驗,這些我們可以從百度、網(wǎng)易等互聯(lián)網(wǎng)廠商的推出的相關服務內(nèi)容中感受得到。
比如網(wǎng)易推出的網(wǎng)易易盾針對機器鑒別不良信息自主研發(fā)了一套圖片特征提取算法,包括人體膚色識別、人體特征部位識別、人體姿勢識別等技術。同時,基于深度學習的算法,易盾積累了大量的樣本數(shù)據(jù),用計算機模擬人腦神經(jīng)網(wǎng)絡的原理,使計算機訓練后具備一定的識別能力,在沒有具體特征樣本庫的情況下也可以對內(nèi)容進行識別與分類。
百度在其云視頻生態(tài)解決方案主打的視頻內(nèi)容分析VCA(VideoContentAnalysis),能夠通過人工智能技術,對視頻進行語音、文字、人臉、物體等多維度智能分析,它整合了百度的深度學習、自然語言處理等人工智能技術,支持視頻分類、視頻元素提取、關鍵字提取以及自定義模型,適用于黃反、暴恐、政治敏感、資質(zhì)審核等內(nèi)容審核場景,在提取了關鍵的內(nèi)容信息之后,還可輸出視頻內(nèi)容的泛標簽(TAG),從而提高搜索準確度和用戶推薦視頻的曝光量,提升視頻的個性化推薦和檢索能力。
人工智能在網(wǎng)絡視頻內(nèi)容審核方面的應用其實也并非才興起,除百度、網(wǎng)易外,也有不少技術提供商和視頻平臺商達成合作推出了相關服務項目。從健康和諧的視頻運營環(huán)境的角度考慮,人工智能技術的應用,對人力、財力都是一種解放,并且順應了當前用戶對個性化視頻內(nèi)容的需求。
同樣是進階到人工智能技術應用的階段,深度學習算法必不可少,樣本訓練也同樣重要,在安防智能視頻分析已成為常態(tài),并且更具規(guī)模化、智能化效應。安防監(jiān)控視頻分析主要是為視頻關鍵信息的高效提取和結構化做前期的準備,將視頻數(shù)據(jù)語義化。由于安防視頻監(jiān)控的數(shù)據(jù)主要由社會實時畫面構成,所以智能分析技術中常用的算法也以計算機視覺領域的算法為主,如前背景建模、目標檢測、分類、識別、跟蹤、特征點提取、匹配、運動估計等等。
在分析的類型上還細分為診斷類智能分析、識別類智能分析、行為類智能分析等,由于視頻數(shù)據(jù)量巨大,因此,安防視頻智能分析目前也廣泛采用軟硬結合、前后端結合的方式來實現(xiàn)智能分析性能的最大化,這些都是網(wǎng)絡視頻分析不可比擬的應用規(guī)模,當然,這也是商業(yè)應用和專業(yè)領域應用差異所決定的。