報告說,大數據提出了嚴肅的隱私問題以待解決,宜早不宜晚。
大數據的潛力是無窮的-可能帶來好處也可能帶來壞處。一份描述大數據的變革特質的白宮新報告深入地探究了與數據相關的隱私和安全主題。
關鍵的關注點:大數據正在創造大量的隱私主題需要及時處理,宜早不宜晚。
該報告的引文說到:“本報告一個顯著的發現是大數據分析將個人信息用于供房、信貸、雇用、健康、教育和商場購物,有潛力使長期存在的公民權利保護黯然失色。美國人與數據的關系,她(他)們的機會和潛力將得以擴展而不是消減”.
報告討論了一系列有關隱私的主題,包括以下5個:
1.“去識別化”并不總是有效
機構常常采用隱私保護技術來去除與特定個人或設備數據的連接識別性。不幸的是,再識別技術又同樣有效地把這些數據連接起來。
報告提出:“綜合性的多種數據可能導致某些分析師所說的”馬賽克效應“,即個人可識別信息可以從甚至不包括個人識別碼的數據集里衍生或推斷出來,關注點在于描繪一個人的形象和她(他)們所喜歡的東西”.
隨著再識別匿名數據的技術日益強大,個人如何管理她(他)們的私人信息和身份,或者基于多種數據集信息做出決策,這逐漸變得撲朔迷離。
2.“完美的個性化”可以有助于識別力
報告說,不同類型非結構化數據的融合使得營銷人員可以“在消費者提出要求之前就準確地把她(他)們想要的消息、產品或服務發送過去”.“可惜的是,完美的個性化也為定價、服務和機會方面精細的和不那么精細的識別力留下了空間。”
3.“小”數據造成更大的隱私威脅
不論對大數據潛在侵犯個人權利的言論多么洶涌,今天大多數最常見的隱私風險都與“小數據”有關,比如黑客以個人銀行信息為目標實施金融詐騙。報告指出:“這些風險并不總是大量、快速或信息種類繁多的,也不隱含某種與大數據相關的復雜分析”.報告認為,小數據的保護已經由美國隱私法律、強有力的實施細則,以及全球隱私保護機制修正規范起來。即使這是事實,最近的2篇文章顯示出在這個領域還有很大的改進空間。
4.預測醫學可能導致隱私混亂
“預測醫學”是一個前景遠大的大數據應用,它深入挖掘病人的健康和基因信息,以預測她(他)們是否將得一種特殊的疾病,以及對具體治療方法的接受程度。這兒數據濫用的潛力是巨大的。比如,通過“預測醫學”收集來的健康信息也許就被運用于擁有類似基因的人們(比如病人的孩子們)的醫療決策中。
報告提到:“目前覆蓋信息并運用于健康的隱私框架體系并沒有很好的適應處理這些新發展,或者對驅動新發展的研究起到促進作用”.
5.相反地,隱私法律反而阻礙了某些重要的分析
報告說:“大數據分析使得數據科學家可以積累大量的數據,包括非結構化數據,并且發現異常現象和模式”,“這個發現模型中一個關鍵的隱私挑戰是,你不得不去大海里撈針。為了獲得一定的洞察力,你就需要一定數量的數據。”
因此難題就出來了:研究人員可以受益于獲得更大量敏感的基因信息數據集,但是隱私法律卻限制她(他)們獲取這些數據。報告說,舉個例子,布羅德研究所的一位基因研究者就未能探測與3500個精神分裂癥基因數據集相關的基因變異,但卻取得了35000個案例的“統計顯著性”結果。