近期,雅虎剛剛開源了他們自己構建的一套深度學習神經網絡,它專門用于自動檢測圖片是否含有色情內容。
NSFW(Not Suitable For Work)用于標記不適合上班時間瀏覽的網絡內容,它的界定其實是很主觀的,有的人反感的東西可能其他人并不覺得如何。雅虎的這個深度學習神經網絡的定位是專注于NSFW中的色情圖片。所以,該模型不適用于處理素描、文字、動畫、暴力圖片等內容。
對色情圖片的鑒定并不容易,所以除了技術手段之外往往都離不開人工,于是就催生了鑒黃師這樣的崗位。因為對于機器來說,圖片都是些RGB的像素罷了,不論是花草樹木,還是香車美女,擺在無欲無求的機器面前并無差異。而人,卻對它有天生識別能力。美國前大法官波特·斯圖爾特就有這樣一句名言:“ 我看到它,才知道它是不是”。因此,機器是得向人來學習如何判定色情圖片的。
該神經網絡使用了CaffeOnSpark ,這是一個基于Hadoop/Spark的分布式深度學習框架。雅虎已經基于已有的數據對模型進行了訓練,這些數據既包括NSFW的,也包括SFW(suitable for work,適合上班時間瀏覽)的,每張圖片已明確標記好。在通過學習之后,它會為每張待鑒定的圖片打出一個NSFW得分,表示屬于NSFW的可能性。該值范圍從0至1,小于0.2表示很有可能是安全的,大于0.8表示有很大可能是NSFW的。如下圖所示,花叢中的少女衣著保守,得分0.001,而運動中的女孩和海邊的男子雖暴露了部分肢體,但得分也僅為0.116和0.074,都未達到NSFW的標準。想了解該模型生成和訓練的更多詳情,請戳這里。
雅虎建議大家在使用時選擇自己的閾值,因為應用場景和對NSFW標準的理解可能會有差異,所以開發人員最好根據自己應用對NSFW的定義來設定評估值。
在Reddit上,大家就該模型對評估的有效性展開了討論。有人認為:
“不知道它的評估是否準確,如果能允許大家上傳圖片,它打出分來讓大家評價一下效果就好了”
而有人就此回應說:
“我不知道你會怎么看,但我肯定不會讓人把最NSFW的圖片上傳到我的服務器上的”
出于某些原因,在公共網絡上放置各類NSFW圖片的確不太合適。好在雅虎已經將此模型開源,如果各位感興趣的話,可以自己動手實踐一下,看它給出的評估是否符合你的標準。你可以通過 雅虎的文章 了解更多詳細內容,模型可以在 GitHub 上下載。如果你想要搭建自己的色情圖片識別系統,必須要自己提供數據,這可能對大家來說不算什么難事。