一、概述
“大數據”無疑是近年來最熱門的科技名詞,“大數據廣告”、“大數據電商”、“大數據金融”、“大數據醫療”甚至是“大數據農業”,這些“大數據”令人眼花繚亂。“大數據”給產業帶來了巨大的變革,不但改變了一些行業慣有的思維方式,同時也帶來了很多爭議,用戶隱私安全便是首當其沖的一個。
二、什么是隱私數據
研究用戶隱私保護技術,首先要明確什么是用戶隱私數據,GEO對用戶隱私數據做了如下分類:
1、 PII (Personal Identifiable Information),也就是能夠明確標識一個人身份的數據,比如用戶的姓名、手機號、身份證號、電子郵箱、住址等。
2、 用戶相關信息,比如用戶的年齡、性別、公司、職業等信息。這類信息雖然不能直接標識一個用戶,但是把這些條件組合在一起,還是有相當的隱私風險的。比如“年齡36歲,在天恒大廈工作,擔任集奧聚合GEO的架構師”,通過這些條件很容易定位出一個人,這就是所謂的“Quasi-identifier”。
3、 用戶屬性標簽,為了解決“Quasi-identifier”的問題,很多人會把用戶信息進行一定的泛化,比如上面的例子可以泛化成“30-40歲,在東直門附近工作,IT行業,喜歡汽車”,相較之下這樣會顯得模糊一些,也就是常說的“k-anonymity”。但嚴格來說,這些數據還是會涉及用戶隱私,并非絕對安全。
三、國內外相關法律法規
在用戶隱私安全保護方面,國外起步較早,形成了許多法律法規,國內目前還處于起步階段:
四、GEO隱私保護技術
作為業界領先的大數據技術公司,GEO一直對隱私保護十分關注,GEO的技術平臺對此做出了全方面的布局和設計,擁有眾多相關技術專利。
1、 統一標識,GEO不采用任何Cookie、PII或PII加密后的數據作為用戶標識,而是對用戶隨機編號,我們稱之為GEO User ID。該ID沒有任何物理意義,僅僅是一個編號,不同來源的數據采取統一的GEO User ID進行交換,有效解決PII問題。
2、 流處理技術,對于數據本身存在的用戶隱私數據,GEO認為只要存儲在一個物理介質上的就是不安全的。因此,GEO的技術平臺對這類數據的過濾采用了流處理技術,脫密前的原始隱私數據不會保存,即使系統被黑客攻破也不會導致隱私泄露。
3、 標簽化處理,GEO的用戶標簽主要有兩類,一類是用戶原始標簽,一類是廣告標簽。原始標簽保存在經過授權的第一方或第三方數據庫中,廣告標簽保存在GEO自己的廣告投放系統中。廣告標簽在第一方或第三方數據庫中計算得到,也就是說我們不知道每個人是誰,也沒有保存個人身份和興趣標簽,我們只知道該給他投放什么廣告。
4、 自動處理技術,GEO的廣告標簽計算完全憑借自身的自動算法實現,沒有人為介入,整個流程不可逆,完全是一個黑盒子,避免了人為原因造成的風險。
5、 加密技術,GEO采用三個層架實現數據加密處理:網絡層、數據匯聚層和應用層。網絡層主要通過傳統的防火墻、IDS等方式實現數據通道安全;數據匯聚層通過專有硬件實現數據的加密、過濾和去隱私化處理;應用層主要從分布式存儲、數據交換、業務模型等方面進行數據加密,保證系統的安全性。
6、 系統管理能力,系統的安全離不開有效的監控和管理。為此GEO專門開發了具備多級監控、調度和管理能力的iManager系統,能有效管理全國幾十個數據中心,配合相應的管理制度,最大限度的保證隱私數據安全。
7、 用戶可管理性,用戶可以了解自己的哪些數據被用作了哪些用途,并且用戶可以要求系統停止使用這些數據。比如用戶可以要求終止個性化廣告展示服務。這個能力只有基于非Cookie技術才能實現。我們都知道Cookie的生命周期短,用戶必須不斷告知系統停止服務,然而非Cookie技術就不存在這個問題。