在很多方面,“大數據”和“加密”是對立的,前者收集、存儲和分析信息,以此來揭示對學者、法律實施和企業有用的規律;而后者的目標是窺探隱藏的數據。這個議題(tension)是本周的一個由白宮科技政策辦公室和麻省理工共同舉辦的會議的核心,這次會議有來自學術界、政界和商界的許多專家人士出席,他們探討了加密技術以及其它以隱私為導向的技術,可以保護大數據所涉及的信息。
麻省理工計算機科學與人工智能實驗室(CSAIL)的Shafi Goldwasser教授在座談小組中說到,加密功能是必須要走的路。她還補充道,其余的選擇比如匿名的數據記錄并非有效。如今,在社交網絡和其它的公共網站上,可以免費獲得大量關于個人的數據,任何一個想要做壞事的人都可以從任意數量的在線資源通過交叉引用來建立關于他們的目標的輪廓(profile)。
一名來自麻省理工學院CASIL的副教授在周一的“隱私增強技術”座談小組中談道,如果數據只是簡單地被存儲起來,那么加密就可以非常完美地工作。而當你真的需要處理和分析被存儲起來的數據時,問題就出現了。然后他補充說,這也就是為什么現在需要一個實用性的處理加密數據的系統。
這種實際的努力通常是指所謂的“同態”加密,這使得它可以在不先對加密數據解密時而執行對加密數據的計算。20世紀70年代末,研究者一直強調完全同態加密是可能的,所謂的完全同態加密是指,在加密過程中,可以對信息以任意種方式進行切片或切塊,而同時不顯示實際的數據。這種系統可能對云計算特別有利,因其提供了一種分析信息的方法,這種方法對信息提供者來說有最小的隱私風險。
然而,實際上,計算機科學家在對加密數據進行更多語義操作上,還沒有開發出方法。IBM聲稱,2009年計算機科學家Craig Gentry已經開發出一個實用的且完全同態的系統,但批評者說,這項技術在實際的云計算的應用中太過于復雜、速度緩慢且不實用。IBM已為Gentry的成果申請了專利且繼續開發完善。
目前正在努力開發中,如果沒有完全同態的系統,那么可以用其它的創新的方法來處理加密數據。
其中一個這樣的項目就是CryptDB,這個系統通過將請求數據的軟件和存儲加密數據的數據庫之間的放置一個代理服務器,來保證對加密數據的分析。這個代理使用旨在比較和分析加密信息的算法,在某些情況下,代理需要去除不同的加密層來更好的分析數據,但是這種想法就是不會將數據完全的加密成為純文本。盡管CryptDB 只能進行有限種類的查詢,谷歌是該技術的一大支持者,并使用它在其基于云計算的、搜索大量數據集的BigQuery服務中提供加密查詢。增加一個額外的設備,比如在搜索和檢索過程中的代理服務器,通常會減慢速度,但是Zeldovich 和他的同事表示他們正在為解決這個問題而努力著。
麻省理工的小組成員還提出了不依賴于加密的安全措施,例如,有差異的隱私是一種替代的匿名數據。哈佛的Salil Vadhan 教授說,這種方法使用一個自動化的數據管理者,它可以在提供給數據請求者有用的信息的同時,保護數據集中個人隱私。正如2012年12月份的科學美國人網站上文章所指出的,差異化的私人數據發布算法允許研究人員提問關于有敏感信息數據庫的任何問題,同時提供經過模糊化處理的答案,因此,實際上不會暴露任何私人數據,即使某人是排在數據庫中的首位也不會被暴露。
另一種選擇就是在收集、存儲和分析數據的軟件中直接為工程師們編寫隱私政策的要求。麻省理工一位首要研究科學家Daniel Weitzner說,寫入這樣的“責任系統”可以自動的分析對數據的一個特定的運用是否違反了法律,他還補充說,通過類比,我們可以在全世界范圍內以一個較高的公眾信任度運行經濟,我們這樣做是因為我們一套有適用于一致方式的一致性的規則。
周一的會議起源于Pres,奧巴馬在今年早些時候呼吁要對大數據對美國人民的生活以及與政府之間的關系進行全面的審查。奧巴馬任命白宮顧問John Podesta 來領導這項審查過程,這項過程將會從現在開始持續幾個月,并得出一個期望會影響關于大數據的政策、資金和研究的報告。