2011年微軟進行的一項調查顯示,有94%的用戶認為基于地理位置的服務具有價值。但是調查中也顯示,52%的人也關注與使用地理位置數據有關的隱私問題。我們在生活中使用GPS、IP地址及Wi-Fi獲取基于位置的服務,實現實時導航、本地天氣、地理定位的功能,但在無形之中,它也泄露了我們的隱私。
此前數據科學家Anthony Tockar在西北大學讀研究生時,就采用可公開獲取的位置數據,通過交叉參考公共新聞與照片,跟蹤位于紐約市的名人。
隱私問題已經成為了研究界所關注的焦點,南洋理工大學的蕭小奎表示,「現在的計算能力與公開數據的規模可以使我們更容易地從數據中識別對方。」
日前蕭教授與微軟亞洲研究院的謝幸博士已經發現了一種可以緩解隱私問題的一種方式。這種名為PrivTree的數據操作技術能對地理位置數據進行預處理,以保障個人隱私。隨后,這些已經進行過隱私處理的數據可以安全地應用于任何預測分析,而不會對隱私造成進一步風險。
PrivTree的原理是通過數學方法的「模糊」(blurring)對地理信息進行處理,但保持整個數據集的總體準確性。以下圖為例,數據集里的個體在地圖上呈現各自的坐標。
接下來,PrivTree通過兩個步驟對地理位置信息進行模糊處理。
地圖分區(Map Partitioning),也就是基于數據點的密度,將圖片分割成若干區域。
位置擾動(Location Perturbation),即采用統計分析方法,個體受擾動方案隨機被摸除、添加或混洗以保證隱私及統計的準確性。在對每個子區域的應用位置擾動后,新的地理位置數據庫最終形成。
這些新數據點遵循與原始數據類似分布,但每個個體的真實位置被掩蓋了。這些被處理過的數據可以做為PrivTree的數據釋出。而這個數據集能夠拓展為支持各類位置數據的應用——比如你每天的慢跑路線會上傳到健康應用程序。具體論文《PrivTree: A Differentially Private Algorithm for Hierarchical Decompositions》已經被ACM SIGMOD 2016收錄。
蕭教授表示,「微軟亞洲研究院在管理海量地理位置數據上有著豐富經驗,比如北京出租車數據等。這些數據能夠幫助我們開發測試我們的模型。」他計劃進一步將PrivTree技術集成到微軟基于位置的服務里,為用戶提供隱私保護。
「數據隱私是云計算時代所面臨的一個關鍵挑戰,尤其是對于包含大量個人信息的用戶生成的位置數據。我們希望這項合作能夠為所有人建立一個更加安全的世界,」謝幸博士表示。