隨著移動互聯網讀圖時代的到來,大量游走在政策邊緣的色 情、暴力、血腥等擦邊球的低俗內容,每天都以數以億計的數量在各大網站、移動社交類App和UGC類App等平臺上涌現,對用戶的互聯網的內容消費體驗造成了干擾,其中色 情的圖片內容表現最甚。但由于過去對色 情內容的監管手段主要依靠的還是人工的排查和過濾,所以高效準確地鑒別和剔除這些淫穢色 情信息,成為了一項十分艱巨的任務。
在這里,不得不提的一個神秘職業就是社交圈上廣為流傳的所謂的“鑒黃師”。據了解,依靠人工排查,鑒黃師們每日人均的審核極限大約在2w張圖片量級,除了圖片,還需要深入到各種隱蔽的網鏈背后去尋找并識別那些可能涉黃的信息。這份“看上去很美” 的工作,其實是非常枯燥和繁瑣的。此外,單純依靠人工排查的手段,面對互聯網上山呼海嘯般的涉黃信息,在效率上無疑是捉襟見肘的。隨著近些年人工智能技術的飛速發展,依賴海量數據與機器學習的智能鑒黃手段憑借著高效率高精度等優勢,正在逐步取代人工審核,成為打擊色 情信息的中堅力量。
據小花邊了解,目前國內至少已有三家企業平臺推出了智能鑒黃服務,分別為阿里綠網、圖普科技、騰訊優圖(又名萬象優圖)三家,那么究竟智能鑒黃技術哪家強?三家在鑒黃效果上又有何不同?帶著一點小嬌羞,同時又懷揣著一點小激動,小花邊低調地進行了一番智能“鑒黃”體驗!
由于圖普和騰訊優圖很貼心地提供了線上測試網頁,支持上傳圖片實時返回鑒別結果,小花邊用某搜索引擎隨機找了幾張測試圖片,直觀體驗了下鑒黃效果。結果如下:
PS:在以下鑒黃體驗中,所有可能的涉黃信息都會經過系統打分。“打個比方,如果系統打分說這個圖片99%涉黃,那就幾乎可以確定是,機器自己會處理。另外一些次一點分值的圖片,就需要人工鑒別。”
騰訊優圖返回結果
圖普科技返回結果
赤裸裸的圖片顯然容易判別,但是一些并不**,卻充滿性暗示的圖片,應該怎么判斷?對圖片的智能識別能力將成為一個大考驗。為此,小花邊特意選擇了三張羞羞的圖片(別問我是從哪里弄來的)、一張頗受爭議的wanimal攝影集的圖片(第四張)和四張正常的圖片(后四張)來進行識別。
從打分結果上看,似乎騰訊優圖的識別精度更高。圖片識別結果以標簽(色 情、性感、正常) + 概率的形式返回,與人工在涉黃可能性上的判斷上近乎一致,效果棒棒噠。
然而僅僅幾張的測試圖片,并不能說明哪家的算法效果,小花邊雖然不是專業人士,但也清楚大數據上的評價會更符合統計規律、更貼合實際應用場景。為了更科學公正的比對這三家的技術實力,小花邊采取了如下的評測方案:
首先,從網上的某搜索引擎收集了25005張正常圖片(主要為一些風景照和生活場景照片)。另再從近期熱點“艷照門”視頻中截取了92張色 情圖作為色 情的評測集。
樣本采集完備后,需要制定評測指標。這里需要和讀者普及下兩個機器學習領域的重要指標:
正確接受率(true acceptance rate)和錯誤接受率(false acceptance rate)其中正確接受率表示的是N色 情圖片中能識別出M張是色 情圖片的比例,M/N數值越大,則說明算法對色 情圖片的發現能力越好(比如給定的92張色 情圖片,如能全部定義為色 情,則正確接受率就為100%)。而錯誤接受率是指在X張正常圖片中,把Y張錯判為色 情圖的比例,Y/X數值越大,則出錯的概率越高。一般來說,要公平比對不同算法能力,只需比較在同等的錯誤接受率條件下各自的正確接受率高低就可以了。
OK,萬事俱備,就不再賣關子了,直接公布測試結果吧!
先看圖普,通過將數據上傳官方的測試網頁得到了以下結果:25005張非色 情圖片中有9張被判成了色 情;92張色 情圖片中有27張被判成了色 情;因此,其錯誤接受率為 9/25005=0.036% ,正確接受率為27/92=29.348%。大概有2/3的色 情圖被系統漏掉了。
然后是騰訊優圖和阿里綠網,注冊為開發者后,根據官方提供的sdk,批量地獲得了每張圖片的色 情概率;為了和圖普的結果看齊,從小到大遍歷色 情概率閾值,獲得了各自同樣錯誤接受率條件下的正確接受率,具體見下表:
結果已經一目了然,在這一輪的比對測試中,騰訊優圖完爆了另外兩家的效果,此處小花邊必須給騰訊的工程師點個贊。不過整體看起來,智能鑒黃技術水平的上升空間還比較大,與肉眼鑒別還有一定的差距,希望在不久的將來可以取代人工,徹底解放苦逼的“鑒黃師”一職。而當這項技術有一天得到了大規模的應用和普及,也不難腦補到數以萬計的宅男哭暈在廁所的畫面。
作者:孫海亮(微信公眾號:花邊科技),本文由作者授權創業邦(微信公眾號:ichuangyebang)發布,轉載請注明作者信息及來源,違者必究