普林斯頓的計算機科學家艾文德奈瑞 · 亞南,曾在2006年發表的一篇文章中稱,在本該匿名的互聯網電影數據中,Netflix用戶的各種租借歷史數據卻能在交叉引用過程中被泄露。亞南登在7月9日的一份報告中稱,匿名化支持者們(認為匿名化可行的人)也許還沒預感到當下大數據中的危險漏洞。
不管是理論上還是實踐中,匿名化的作用并不大。那些認為匿名化很安全的人,其實是在營造一種“偽安全感”,嚴重低估了那些數據駭客的威脅力,他們很有可能從大數據中竊取到個人信息。
個人地理位置數據并未被隱藏
一份2013年的報告稱,從人們的手機中收集到的龐大數據組中看來,95%的手機用戶能被監測到,因為他們在網上總會留下登錄痕跡,實時照片分享信息。匿名化專家們會坦白地告訴你,根本沒辦法隱藏用戶的地理位置信息。
數據庫防線多么脆弱,專家也無法預知
在一份11萬3千名病人的醫療記錄案例研究中,匿名處理專家埃阿曼估計,不到1%的病人數據能做到再識別。但,亞南估計超過12%的病人數據能被鎖定。襲擊者要在數據庫中鎖定目標數據,簡直是輕而易舉。
匿名化很難,而數據再識別可永久
數據匿名化過程充滿挑戰,也容易發生錯誤。在近期發表紐約市一億七千三百萬組有關的士的數據中,包括司機都可能被重新識別出來,因為在駕照上使用的數據散列法(一種將字符組成的字符串轉換為固定長度的數值或索引值的方法)也是粗制濫造的。
如果某人的匿名數據被公開,那么會一直存在于網上,不會消除。這比起某公司或某應用軟件數據被入侵要嚴重的多了 。當一家公司的數據庫被入侵了,只需要做好安全工作:修復數據漏洞,警報通知各用戶,一切照常進行。 但是,這不代表我們要放棄使用數據,只需放棄被泄露的數據賬號即可。
那么,我們要不要砸碎手機,放棄醫療(醫療數據泄露),直接隱居山林呢?但埃阿曼教授卻不太認同,他極力支持匿名化技術,并表示:“亞南稱超過12%的病人數據能被鎖定,但他并沒有對單個病人的數據進行再識別。如果亞南是再識別技術領域的引領者,那么匿名化是非常可行的。”
這對我們這些處在大數據時代中的人來說,是一個大好消息。但是,大數據匿名化沒有崩盤,不代表匿名化技術堅不可摧。