“大數據”——如果你反感這一用語的話,你并不是唯一有這種想法的人,但我認為我們如今已經接受了它——最激動人心的一個前景是,規模日益龐大的數據搜集活動,借助于現代化的數據處理和模式識別算法,將讓我們對周圍這個世界具有更為全面的認識,尤其是對人類行為。不幸的是,這同樣也是大數據最令人擔心的地方。
目前,大數據和隱私似乎是一對不共戴天的死敵。個人數據可以降低汽車保險支出,但代價是你的個人隱私。它可以提供至關重要的公共衛生數據——通過獲取敏感且私密的個人健康信息。它可以幫助警察追蹤犯罪分子——通過一種在實踐中被認為遭到濫用的技術,創建面部識別“圓形監獄”(panopticon)。它可以根據你發布到網上的所有照片,對你的個人特征做出一個詳細描述——即便你根本不希望這一切發生。
這些并不是僅僅是純粹理論層面的擔憂。據《紐約時報》報道:
由于政府機構監管不力,數十年來數據挖掘公司、數據代理公司、數據中間商數不斷危害公民隱私,如今他們又將隱秘的個人數據分類帶到一個全新的水平。他們已經制作了性侵受害者名單以及性病患者的名單。此外,還有阿爾茨海默氏病、癡呆癥及艾滋病患者的名單,陽痿和抑郁癥患者名單。
與此同時,還有“沖動型買家”名單;“易受騙者”名單:即容易上當受騙的消費者,研究發現這個人群易于遭受“基于弱點的營銷宣傳”的影響。
可以想見,如果這種名單是來自于那些無意中顯露出他們易受數據披露影響的人,這會帶來什么樣的嚴重后果。例如,通過算法可解讀的Facebook帖子,再對比發帖者其他所有信息,可以作為他們本不想披露的秘密的證據。
這基本上存在兩個問題。一是數據的匿名化和安全性沒有任何一個標準。有些搜集和發布數據的機構會對數據進行匿名化處理,確保它們的安全,但這些舉動讓人感覺更像是權宜之計,“經過匿名化處理”的數據極少。例如,今年早些時候紐約出租車數據就未經過妥善的匿名化處理。
還有一個更深層、也更為重要的問題:人們是否有權知道他們的數據何時被別人搜集?一旦發生這種狀況,是個人還是搜集方擁有這些數據?下面,我就來介紹一下麻省理工學院教授阿萊克斯·彭特蘭(Alex Pentland)及其提出的“數據新政”(New Deal on Data):
從整體上講,我們現在擁有的數據可以幫助減少環境污染,幫助創建透明政府,幫助應對流行疾病,當然也有助于提高工人的工作效率,讓顧客獲得更好的服務。但很顯然,有人或有公司可以濫用數據…“新政”可以讓人們知道自己有哪些數據正在被搜集,進而可以選擇加入或退出。想象一下,如果你的儀表板可以顯示你的居室掌握了哪些信息,以及分享了哪些信息,你可以將它關閉或打開…透明是關鍵。正在搜集的有關你的數據能形成對你生活的相當全面的認識,我認為一些公司并未意識到“抓取所有數據”戰略的成本非常高。
然而,從實際情況來看,這種“新政”預示著創新和監管之間漫長而令人悲傷的戰斗故事將掀開一個新的篇章。我并不反對后者(即監管),但相對于前者(即創新)的快速演變,我只是對它的表現經常感到失望罷了。毋庸置疑,數據搜集能力的指數級增長可以給我們帶來巨大的好處,但同樣不容置疑的是,所有人都極為擔心科技對隱私發起的那場不可阻擋(幾乎出于偶然)的戰爭,我們正面臨著一場災難,或者說距離大聲疾呼更嚴格的監管只有一步之遙。
若想解決這個問題,科技行業理應從一開始就走到最前面,定義和執行對數據進行匿名化處理的技術標準。(如果這真的成為一個新的子行業,我絲毫不會感到吃驚。)但一個更好的結果是,大公司在一個性質相當于“新政”的自愿協議上達成一致,希望可以預先阻止民眾呼吁加強監管的行動,而且宜早不宜遲。我認為科技行業并未充分意識到數據隱私和缺乏隱私對公眾的危害。如果我們不認真對待這件事,那無異于是在玩火。