我們通常會認為監(jiān)控攝像頭是數(shù)字化的眼睛,監(jiān)視著我們,或者是為我們進行監(jiān)視,具體是哪種情況取決于你的立場。但實際上,它們更像是舷窗:只有當有人通過它們看時才有用。有時候這意味著會有人監(jiān)看監(jiān)控視頻,通常是同時監(jiān)看多個視頻窗口。然而,大多數(shù)監(jiān)控攝像頭都是被動的。它們在那里作為一種威懾,或者在出現(xiàn)問題時提供證據(jù)。
但是,這種情況正在發(fā)生變化視頻監(jiān)控,而且變化的速度非常快。人工智能給了監(jiān)控攝像頭提供了能夠匹配它們眼睛的大腦,讓它們能夠分析實時視頻,而且不需要人類的干預。對于公共安全來說,這可能是一個好消息,幫助警察和應急救助人員能夠更容易地發(fā)現(xiàn)犯罪和事故,并且有一系列的科學和工業(yè)上的應用。但是這也對隱私的未來引發(fā)了嚴重的問題,并給社會正義帶來了全新的風險。
如果政府可以使用閉路電視視頻監(jiān)控跟蹤大量的人,會發(fā)生什么情況?如果警察只要將你的臉部照片上傳到數(shù)據(jù)庫,就可以對你進行全城數(shù)字化跟蹤,又會怎么樣?或者你所在當?shù)氐纳虉龅臄z像頭上運行的算法存在偏見,僅僅因為不喜歡某群青少年的樣子,就發(fā)出警報召喚警察,又會怎么樣?
雖然這些情景的出現(xiàn)尚需時日,但是我們已經(jīng)看到將監(jiān)控和人工智能結(jié)合的初步成果了。IC Realtime公司就是一個例子。該公司去年12月份推出的旗艦產(chǎn)品被谷歌用于閉路電視視頻監(jiān)控。這是一個應用程序及網(wǎng)絡平臺,名為Ella,它使用人工智能對視頻流中的內(nèi)容進行分析,并使之可供即時搜索。Ella可以識別成千上萬的自然語言查詢,讓用戶能夠搜索鏡頭中的內(nèi)容,找到包含了特定動物、穿著特定顏色衣物的人,甚至是包含了某款特定汽車品牌或型號的剪輯圖像。
在一次網(wǎng)絡演示中,IC Realtime公司的首席執(zhí)行官Matt Sailor向《The Verge》展示了Ella的一個版本,該版本連接了監(jiān)控一個工業(yè)園區(qū)的大約40臺監(jiān)控攝像頭。他輸入了各種搜索內(nèi)容--"一個穿紅衣服的男人"、"UPS貨車"、"警車"--所有這些都在幾秒鐘內(nèi)提取出了相關(guān)的鏡頭。然后,他縮小和時間范圍和地點范圍,并指出用戶可以如何用拇指向上和向下滑動改善結(jié)果--就像Netflix一樣。
人工智能監(jiān)控從可搜索視頻開始
Sailor表示:"假如有搶劫,你并不真的知道發(fā)生了什么"。他表示,"但之后有一輛吉普牧馬人(Jeep Wrangler)向東飛馳而去。所以我們來搜索'吉普牧馬人(Jeep Wrangler)',然后就找到了。"在屏幕上,開始出現(xiàn)視頻剪輯,顯示不同的吉普牧馬人(Jeep Wrangler)從鏡頭前滑過。這將是人工智能和閉路電視視頻監(jiān)控相結(jié)合的第一大優(yōu)勢,Sailor解釋說:讓你很容易找到你要找的東西。他表示:"如果沒有這種技術(shù),你所能知道的不會比你的攝像頭更多,而且你必須從數(shù)個小時、數(shù)個小時又數(shù)個小時的視頻中篩選內(nèi)容。"
Ella運行在谷歌云(Google Cloud)上,可以從幾乎任何閉路電視視頻監(jiān)控系統(tǒng)中搜索鏡頭。Sailor表示:"它在從單攝像頭系統(tǒng)--例如保姆攝像頭或者狗攝像頭--一直到擁有成千上萬攝像頭的企業(yè)級系統(tǒng)中,都能工作得很好。"用戶每月支付使用費用,起價為每個月7美元左右,總價會根據(jù)攝像頭的數(shù)量增長。
IC Realtime公司希望能夠針對各種規(guī)模的企業(yè),但該公司也認為其技術(shù)也能夠吸引個人消費者。這些客戶已經(jīng)通過"智能"家庭安防攝像頭市場的急速發(fā)展得到了很好的服務,這些攝像頭是由亞馬遜、羅技、Netgear以及谷歌旗下的Nest之類的公司制造的。但是Sailor表示說這種技術(shù)和IC Realtime公司的技術(shù)相比就太簡陋了。這些攝像頭連接到家庭Wi-Fi上,并通過應用程序提供實時視頻流,當它們發(fā)現(xiàn)有東西在移動的時候,會自動地將視頻記錄下來。但是,Sailor表示,它們無法區(qū)分闖入者和鳥類之間的差異,導致出現(xiàn)了很多誤報。他表示:"它們是非常基礎(chǔ)的技術(shù),已經(jīng)存在了很多年了。"他表示:"這里沒有人工智能,也沒有深度學習。"
這種情況不會持續(xù)很久了。雖然IC Realtime公司提供的基于云的分析功能可以升級現(xiàn)有的、傻瓜式的攝像頭,其他一些公司則直接在他們的硬件中加入了人工智能。Boulder AI就是一家這樣的創(chuàng)業(yè)企業(yè),該公司用自己的獨立人工智能攝像頭推銷"視覺即服務"。將人工智能集成到設(shè)備中的一大優(yōu)勢是它們不需要互聯(lián)網(wǎng)連接就能工作。Boulder公司廣泛地面向各行各業(yè)進行銷售,為每家客戶量身打造機器視覺系統(tǒng)。
該公司的創(chuàng)始人Darren Odom對《The Verge》表示:"應用程序真的是非常全面。"他表示:"我們的平臺銷售給了銀行、能源公司。我們甚至有一個應用程序可以觀察比薩餅,確定它們的大小和形狀是否正確。"
"我們現(xiàn)在能夠100%地識別愛達荷州的鱒魚。"
Odom舉了一個在愛達荷州建造水壩的客戶的例子。為了符合環(huán)保法規(guī),他們正在監(jiān)測能夠越過這個基礎(chǔ)設(shè)施頂部的魚類的數(shù)量。Odom表示:"他們以前安排了一個人坐在窗口看著魚梯,數(shù)著有多少鱒魚游過。"(顧名思義,魚梯指的就是一條階梯式的水槽,魚類可以通過這條水道奮力上游。)"然后他們轉(zhuǎn)移到了視頻技術(shù),有人(遠程)進行監(jiān)控。"最后,他們聯(lián)系了Boulder公司,該公司為他們搭建了一個定制化的閉路電視監(jiān)控系統(tǒng)以確定通過魚梯上游的魚的類別。Odom自豪地表示:"我們真的使用計算機視覺進行了魚類物種識別。" Odom表示:"我們現(xiàn)在能夠100%地識別愛達荷州的鱒魚。"
如果說IC Realtime代表了這個市場的通用一端,那么Boulder公司就是展示了精品承包商的能力。不過,在這兩種情況之下,這些公司目前所能夠提供的還僅僅是冰山一角。就像機器學習在物體識別的能力方面取得迅速的進步一樣,它分析場景、活動和動作的能力也有望迅速提高。一切都已經(jīng)就位,包括基礎(chǔ)研究、計算能力和訓練數(shù)據(jù)集--這是創(chuàng)建有能力的人工智能的關(guān)鍵組成部分。視頻分析的兩個最大的數(shù)據(jù)集來自YouTube和Facebook,這兩家公司都曾經(jīng)表示希望人工智能能夠幫助他們節(jié)制平臺上的內(nèi)容(不過兩家公司也都承認還沒有做好準備)。例如,YouTube的數(shù)據(jù)集包含超過45萬小時帶標簽的視頻,希望能夠刺激"視頻理解的創(chuàng)新和進步"。參與構(gòu)建此類數(shù)據(jù)集的組織的廣度讓人對該領(lǐng)域的重要性有了一些了解。谷歌、麻省理工學院(MIT)、IBM和DeepMind都參與進來,開啟了自己的類似項目。
IC Realtime公司已經(jīng)在開發(fā)面部識別等高級工具了。之后,它希望能夠分析屏幕上正在發(fā)生的事情。Sailor表示,他已經(jīng)和教育行業(yè)潛在的客戶進行過交談,對方希望當學生在學校遇到麻煩的時候,監(jiān)控能夠識別出來。他表示:"例如,他們對打架的迅速通知感興趣。"系統(tǒng)需要做的一切就是注意聚集在一起的學生,然后提醒某個人,這樣他就可以檢查視頻內(nèi)容,看看發(fā)生了什么事情或者親自去調(diào)查。
Boulder公司也正在探索這種高級分析。該公司正在開發(fā)的一個原型系統(tǒng)的目標是分析在銀行里的人的行為。Odom表示:"我們專門尋找壞人,并且探查一個正常人的行為和越界的人的行為之間的區(qū)別。" 要想做到這一點,他們正在使用舊的安全攝像頭拍攝的視頻來訓練他們的系統(tǒng),以發(fā)現(xiàn)異常行為。但是這種視頻有很多的質(zhì)量都非常低,所以他們也會找一些演員來拍攝自己的訓練視頻片段。Odom沒有詳細說明細節(jié),但表示該系統(tǒng)將尋找特定的面部表情和行為。他表示:"我們的演員們會做一些類似蹲伏、推搡以及回頭一撇之類的動作。"
對于監(jiān)控和人工智能方面的專家來說,這些功能的引入充滿了技術(shù)和道德方面的潛在困難。而且,和人工智能經(jīng)常遇到的情況一樣,這兩個類別的困難是彼此交織在一起的。機器不能像人類一樣理解這個世界,這是一個技術(shù)問題,但是當我們假設(shè)它們能夠做到這一點,并且讓它們?yōu)槲覀冏鰶Q定時,這就變成了一個道德問題。
卡內(nèi)基.梅隆大學的教授Alex Hauptmann專門從事這種計算機分析,他表示,盡管人工智能近年來已經(jīng)在這一領(lǐng)域取得了巨大的進步,但是在讓計算機理解視頻方面仍然存在著非常根本性的問題。其中最大的一個就是攝像頭的問題,這個問題我們已經(jīng)不再會經(jīng)常想到了:分辨率。
最大的障礙非常常見:低分辨率的視頻
舉個例子來說,一個神經(jīng)網(wǎng)絡經(jīng)過訓練,可以分析視頻中的人類行為。這些工作是通過將人體細分為多個部分--手臂、腿、肩膀、頭部等--然后觀察這些小的部分在視頻中從一幀到另一幀的變化來進行的。這樣,人工智能可以告訴你是否有人在跑步,或者是在梳頭發(fā)。Hauptmann對《The Verge》表示:"但是這取決于你所擁有的視頻的分辨率。" Hauptmann表示:"如果我用一個攝像頭對準停車場的盡頭,如果我能分辨出是否有人打開了車門,就算是非常幸運的了。如果你就站在(攝像頭)前面彈吉他,它就可以跟蹤你每一根手指的動作。"
對于閉路電視監(jiān)控系統(tǒng)來說,這是一個大問題,攝像頭往往會有顆粒感,而角度也常常很怪異。Hauptmann舉了一個便利店攝像頭的例子,攝像頭的目的是監(jiān)控收銀機,但是它也監(jiān)視著面向街道的窗子。如果外面發(fā)生了搶劫,攝像頭的鏡頭有一部分被擋住了,那么人工智能可能就會卡住。他表示:"但是我們作為人類,可以想象正在發(fā)生的事情,并且把它們拼湊在一起。可是電腦就做不到這一點。"
同樣,雖然人工智能很好地識別視頻中的相關(guān)事件(例如,某人正在刷牙、看手機或者踢足球),但仍不能提取重要的因果關(guān)系。以分析人類行為的神經(jīng)網(wǎng)絡為例。它可能會看到鏡頭并說"這個人正在跑步",但它不能告訴你他們之所以在跑步,是因為他們快要趕不上公共汽車了,還是因為他們偷了某人的手機。
這些關(guān)于準確度的問題應該讓我們認真思考一些人工智能創(chuàng)業(yè)企業(yè)的宣言。我們現(xiàn)在還遠未接近這樣一個點:電腦通過觀看視頻能夠獲得和人類一樣的見解。(研究人員可能會告訴你,要做到這一點可是太困難了,因為它基本上是"解決"智力問題的同義詞。)但是事情的發(fā)展速度非常快。
Hauptmann表示使用車牌跟蹤功能跟蹤車輛是"一個已經(jīng)得到解決的實際問題",在受控設(shè)置中的面部識別也是一樣的。(使用低質(zhì)量的閉路電視監(jiān)控視頻進行面部識別就完全是另一回事了。)對汽車和衣物等物品的識別也非常可靠,在多臺攝像機之間自動跟蹤一個人也是可以實現(xiàn),但前提是條件是正確的。Hauptmann表示:"在一個非擁擠的場景中跟蹤一個人的效果可能非常好,但是在擁擠的場景中,還是算了吧。"他表示,如果這個人穿著的是不起眼的服裝,要做到這一點就特別難。
一些人工智能監(jiān)控任務已經(jīng)解決了;另外一些還需要繼續(xù)努力
但是,即使是這些非常基本的工具也可以產(chǎn)生非常強大的效果。比如在莫斯科,一個類似的基礎(chǔ)設(shè)施正在組裝,將面部識別軟件插入到一個集中式系統(tǒng)中,該系統(tǒng)擁有超過10萬臺高分辨率攝像頭,覆蓋了這個城市90%以上的公寓入口。
在這種情況下,可能會有一個良性循環(huán),隨著軟件越來越好,系統(tǒng)會收集更多的數(shù)據(jù),從而幫助軟件變得更好。Hauptmann表示:"我認為這一切都會有所改善。"他表示:"這種情況正在出現(xiàn)。"
如果這些系統(tǒng)已經(jīng)在工作了,那么我們就已經(jīng)有了像算法偏差這樣的問題。這可不是一個假設(shè)的挑戰(zhàn)。研究表明,機器學習系統(tǒng)吸收了為它們編寫程序的社會的種族歧視和性別歧視--從總是會將女性放置在廚房的圖像識別軟件到總是說黑人更容易再次犯罪的刑事司法系統(tǒng),比比皆是。如果我們使用舊的視頻剪輯來訓練人工智能監(jiān)控系統(tǒng),例如采集自閉路電視視頻監(jiān)控或者警察佩戴的攝像頭的視頻,那么存在于社會中的偏見就很可能會延續(xù)下去。
Meredith Whittaker是紐約大學(NYU)關(guān)注道德的"AI Now"研究所的聯(lián)席主任,她表示,這個過程已經(jīng)在執(zhí)法過程出現(xiàn)了,并將擴展到私有部門。Whittaker舉出了Axon(以前被稱為Taser)的例子,該公司收購了幾家人工智能公司,以幫助其將視頻分析功能集成到產(chǎn)品中。Whittaker表示:"他們得到的數(shù)據(jù)來自警察佩戴的攝像頭,這些數(shù)據(jù)告訴了我們很多關(guān)于單個警務人員會關(guān)注誰的情況,但是并沒有給我們一個完整的描述。 "她表示:"這是一個真正的危險,我們正在將帶有偏見的犯罪和罪犯的圖片普遍化。"
ACLU高級政策分析師Jay Stanley表示,即使我們能夠解決這些自動化系統(tǒng)中的偏見,也不能使它們變得良性。他說,將閉路電視視頻監(jiān)控攝像頭從被動的觀察者轉(zhuǎn)變?yōu)橹鲃拥挠^察者可能會對公民社會產(chǎn)生巨大的不利影響。
"我們希望人們不僅僅擁有自由,還要感受到自由。"
Stanley表示:"我們希望人們不僅僅擁有自由,還要感受到自由。這意味著他們不必擔心未知的、看不見的觀眾會如何解釋或曲解他們的每一個動作和話語。" Stanley表示:"要擔心的是人們會不斷地自我監(jiān)控,擔心他們所做的一切都會被曲解,并給他們的生活帶來負面的后果。"
Stanley還表示,不準確的人工智能監(jiān)控發(fā)出的錯誤警報也可能導致執(zhí)法部門和公眾之間更加危險的對抗。比如說,想想看Daniel Shaver的槍擊事件吧,在看到Shaver拿著槍后,一名警察被叫到德克薩斯州的一個旅館房間里。警長Charles Langley在Shaver按照他的要求趴在地面上時,開槍射殺了他。而Shaver被發(fā)現(xiàn)持有的槍是一支粒丸槍,這是他用來從事他的害蟲控制工作的。
如果一個人可以犯這樣的錯誤,電腦還有什么機會?而且,即使是監(jiān)控系統(tǒng)變得部分自動化,這樣的錯誤會變得更加常見還是更少?Stanley表示:"如果技術(shù)出現(xiàn)在那里,就會有一些警察不得不照看那里。"
當人工智能監(jiān)控變得普及的時候,誰來管理這些算法呢?
Whittaker表示,我們在這個領(lǐng)域看到的只是人工智能大趨勢的一部分,在這個趨勢中,我們使用這些相對粗糙的工具,嘗試著根據(jù)人們的形象對他們進行分類。她列舉了去年發(fā)表的一項有爭議的研究作為一個類似的例子,該研究聲稱能夠通過面部識別來確定性取向。人工智能給出的結(jié)果的準確性值得懷疑,但批評人士指出,它是否有效并不重要;重要的是人們是否相信它有用,并且是否會仍然使用數(shù)據(jù)做判斷。
Whittaker表示:"令我感到不安的是,許多這樣的系統(tǒng)正在被注入我們的核心基礎(chǔ)設(shè)施之中,而且沒有讓我們可以提出關(guān)于有效性問題的民主程序,也沒有通知大家將要部署這些系統(tǒng)。"Whittaker表示:"這不過是正在出現(xiàn)的又一個新的例子:算法系統(tǒng)根據(jù)模式識別提供分類并確定個體類型,可是這些識別模式是從數(shù)據(jù)中提取的,而這些數(shù)據(jù)里包含了文化和歷史的偏見。"
當我們向IC Realtime公司詢問人工智能監(jiān)控可能如何被濫用的問題時,他們給出了一個在科技行業(yè)常見的答案:這些技術(shù)是價值中立的,只是如何使用它們以及由誰來使用它們才決定了它們是好是壞。Sailor表示:"任何新技術(shù)都面臨著有可能落入不法之徒的手中的危險。"Sailor表示:"任何技術(shù)都是如此……而我認為在這個問題上,利遠大于弊。"