隨著安防行業的快速建設與發展,目前全國攝像機的總量已達到億級規模,每天有海量的視頻資源不斷產生,公安機關辦案需要對大量的視頻錄像進行觀看研判。當前視頻圖像建設應用工作是構建立體化現代化社會治安防控體系的重要組成部分,也是深入推進“警務大數據”工程的重要抓手。人像識別作為視頻圖像應用的新方法新手段,在公安實戰中具有重要價值。
回顧過去十年來人工智能的發展,一切都是有意義的,不過最好的還沒有到來。隨著2018年的到來,還會有很多激動人心的進展出現,特別是在人工智能視頻監控方面。迄今為止,人工智能的成就一直都是趣味性大于實用性。不過,時代在變化,人工智能除了在醫療和衛生領域取得了重大突破外,在安全行業也看到了積極的進展,尤其是視頻監控領域的改善。
人工智能在視頻監控中的多方面應用
人工智能克服人類的生理缺陷
監控操作人員的一個問題是注意力疲勞,大腦會自然地交替出現注意力集中和注意力分散。在監控過程中,注意力分散會導致嚴重的后果。而人工智能可以做到從不分心,與人類合作來杜絕這種錯誤的監控系統。
盡管視頻監控技術可以錄制視頻,允許人們有需要的時候可以拿出來進行觀察,但它永遠無法告訴人類操作者,“嘿,這看起來不太對!”除了經常產生誤報的運動檢測,還沒有任何功能可以積極彌補人腦的心理缺陷。
直到去年,機器視覺開發商Movidius和安全硬件制造商Hikvision宣布了合作意向以及開發一套配備深度神經網絡的智能攝像機的打算——當壞事發生時,攝像頭會提起注意,并提供實時警報。
出色的面部識別
犯罪行為發生后,為了找出肇事者,攝像機的鏡頭往往會被仔細審查。可惜的是,只有從屏幕上辨別出肇事者時,才能識別他們。一些高級人工智能軟件希望能改變這一現狀。
在犯罪發生之后,經常刻意審查相機鏡頭,以查明可能的犯罪人是誰。上海交大目前正在研究該類項目,在實驗過程中,研究員使用了1856名男性的身份證照片,他們的年齡在18到55歲之間,其中一半的人有犯罪史。90%的照片用來訓練這一AI算法,剩下的10%用來檢驗算法效果,結果十分驚人,這一系統的識別準確率高達89.5%。
在測試中,系統在100萬幅面部圖像的單獨數據集中匹配同一人的兩幅圖像的準確率為75%。如果給予10次識別機會,準確率會提高到90%。
顯然,面部識別系統有很多潛在的價值,可以與視頻監控協同合作。它可以幫助執法人員在人群中發現個人面孔,這將有助于抓捕罪犯,甚至防止犯罪的發生。
實時應對犯罪
人們希望新型的人工智能監視系統能夠實時監控犯罪行為。例如,Movidius系統可以發現無人看管的對象,實際應用在機場或火車站——攝像頭可以識別無人看管的包,追蹤遺落的時間并發出警告,讓現場的安全人員檢查可疑活動。
再比如,可以使一個經過訓練的攝像系統,用于發現小偷在行竊前和行竊中的肢體語言和動作。當這些行為被識破后,安全團隊就可以部署人員對這一情況進行檢查。
雖然準確率高達90%,但依然無法進行現實應用
這項研究的意義其實不在于是否能識別罪犯,而是證明了面相和行動具有相關性。
其實有一種方式可以理解,面相和情緒相關,情緒容易激動的人面部都有相似的特征,而情緒容易激動的人也可能容易犯錯,比如打人傷人之類的。
目前并沒有論文顯示,機器學習有沒有把罪犯分類,是傷害罪還是高智商犯罪。小智君認為只有一兩種罪是可能通過面相看出來的,比如上面提到的傷害罪,可能由情緒變化引起。其他的犯罪基本不大可能通過面相表現。
同時行動受情緒影響非常大。而每個人都有自己的情緒波動范圍,這個是內在的,而且很有可能通過面部特征表現出來。經常激動的人臉部就容易形成某些特征,這跟經常鍛煉的人身體容易形成某些特征一樣。就像根據人體的體型肌肉判斷哪些人是健身俱樂部的會員一樣,是有一定道理的。
很多人認為基因決定面相,其實并不全如此,不考慮畸形臉(畸形臉也不在論文的識別范圍),基因只能決定大體框架,人臉的面部脂肪、肌肉甚至骨骼在成長過程中都是可以微調的,而且調動范圍不像想象中那么小。
上海交大研究里面提到的“罪犯與常人的的面部特征的三大不同”,一是罪犯上唇的彎曲程度比非罪犯要大23%,二是罪犯兩只眼睛內角之間的距離比正常人短6%,三是罪犯從鼻尖到嘴角兩條線的角度比非罪犯小20%。
其中比較重要的關注點:嘴——嘴唇和嘴角,而嘴算是人類面部表情最豐富、脂肪最多的地方之一,完全可以說和基因無關,單靠后天長期做某些表情就可以改變嘴的脂肪、肌肉分布。而眼睛距離雖然看起來鍛煉不出來,不過差距只有6%,非常小,也是可以通過長期的微表情改變的,況且這么小的差距也不能用來識別什么,所以即便理論上已經已經達到90%,但用機器判斷人臉表情這件事,本身就有待商議。小智君預測,未來監控系統將利用全國攝像頭以及一些監聽設備采集的視頻和音頻信息進行處理和分析,最終提前找出與即將發生的犯罪行為相關的人。利用圖像識別,語音識別,語義分析,云計算,數據挖掘,多信息融合等等。
也可以簡單的概括為:data-driven,即數據驅動。而其中能真正很快提高識別準確率的就是“多信息融合技術”,除了利用臉部特征信息,還可以利用聲音特征信息,利用聲音內容(比如電話交談)等信息進行融合和判斷。
人工智能在許多行業和領域都有很大的潛力,但很難忽視它在安全領域的變革。無論是用于商店監控,還是房主保護自己的財產,或是執法查明犯罪行為,其可用之處有更多。