值得關注的是,本次線上“掃黃打非”工作,將重點整治對象瞄準了包括自媒體、文學、直播以及學習類APP等場景。豐富大眾娛樂生活的直播 APP 快速發展,衍生出了眾多全新內容平臺,別有用心者嗅到機會,開始散播色情、暴力等“網絡垃圾”。此外,互聯網流量的不斷增加,也使得互聯網“掃黃打非”工作難度不斷升級。面對此次國家新一輪的凈網行動號召,直播 APP 等內容平臺何去何從?
梳理互聯網“掃黃打非”的歷程,不難發現出現了三次顯著的技術對抗更迭:
- 互聯網起步階段,互聯網鑒黃主要走“人肉攻略”,人工完成圖片鑒定工作;
- 隨著互聯網的發展,網絡數據量驟增,以膚色識別算法過濾“黃色”圖片成為了主流手段,機器鑒黃與人工鑒黃相互配合;
3.如今,到了移動互聯網階段,網絡數據再次驟增,人工鑒黃已經很難適應如今的工作量,加上視頻、直播等業務的暴漲,純靠膚色識別算法作為“過濾”的方式,已經過時。
好在人工智能的適時出現,通過深度學習匹配處理龐大的數據信息。
特征提取+智能識別,掃蕩“音視圖文”的黑暗角落
針對藏匿在互聯網“音視圖文”中的不良內容,騰訊云天御對色情、暴力、敏感等非法內容中提取的特征,配合騰訊多年的內容安全經驗,針對不同形式的違規內容,打造了一整套的高效識別引擎模塊。
首先,面對圖片內容會有相似度識別通過與過往的數據內容相比,判斷該圖片是否屬于違法范圍。如果命中將會給予客戶攔截的建議,否則將送到后續的智能識別模塊識別色情、暴力、敏感等非法內容。
針對視頻內容,騰訊云天御會根據一定頻率截取視頻圖片,得到視頻按幀記錄的圖片庫。去掉重復的和模糊的,提取關鍵因素的圖片送到產品后臺系統。之后對其采用圖片識別模塊的操作,對其視頻內容進行判斷。
此外,在面對文本內容信息時,騰訊云天御通過智能模型處理系統,對其包含的內容做檢測,識別其中是否包含色情、暴力、敏感等違法要素,給予迅速地攔截。
除了能夠檢測正常文本之外,還配置了強大的文本預處理系統對抗非法分子創造的惡意文本,有效地打擊了非法分子的惡意文本傳播行為,建立一個健康的檢測模型。
以 AI 正視聽,毫秒級識別不良音頻
道高一尺,魔高一丈。除了常見的圖片、視頻、文本等形式外,音頻如今也成了垃圾內容的“主戰場”。
當下,游戲內語音交流已成常態,無論是手機游戲中的音頻傳輸,還是通過語音及時通訊工具傳輸的音頻內容,都是音頻垃圾內容的災區。此外,在直播平臺直播過程中,也有違規音頻內容的傳播、傳遞,制造網絡垃圾。
音頻內容往往時間短或是信道復雜等問題,難以分辨,隱隱成為當下“掃黃打非”的難點。
騰訊云天御語音識別模塊能夠對語音進行音頻分類和種子庫匹配等方式來過濾惡意音頻,同時還通過音轉文技術對樣本庫進行更新,達到精確識別語音的目的。
在具體技術上,騰訊云天御采用了高效的 i-vector 系統保證較長音頻正確快速檢出,同時對信息量不足的短音頻采用 DNN embedding 系統進行特定檢出,兩者互為補充,加上多種信道補償算法的融合,同時保證了系統的識別性能和識別效果。
基于變長統計和深度學習混合的鑒黃系統,騰訊云天御可以做到0.02秒能夠識別1秒的音頻。
權威認證 騰訊云天御守衛您的內容安全
騰訊云天御針對互聯網不良內容的體系化識別能力,也獲得了國家的認可。2019年1月16日,在由中國信息通信研究院指導,云計算標準和開源推進委員會承辦,云計算開源產業聯盟支持的”嚴守紅線,共筑安全-內容安全的管與控”的云計算安全沙龍上,中國信息通信研究院發布了國內首批內容安全解決方案評估成果,騰訊云成為首批通過試點評估測試的企業。
目前,騰訊云天御已在多個行業被應用,守護近萬家客戶的內容安全,保障業務健康開展,守衛互聯網的一片凈土