當蘋果在 WWDC 2016 的主題演講中,講到“差分隱私 (Differential Privacy)”這個密碼學專有名詞的時候,只有少數人意識到,蘋果又走在了時代前列。
大部分中外觀察者都認為,蘋果為人工智能時代所做的努力不夠,它依然是一家以硬件設備為核心的公司,對于為更大規模的用戶提供服務不感興趣(例如 iMessage等軟件均沒有 Android 版),所以等人工智能技術得以真正嶄露頭角的時候,很可能難以追趕 Google、Facebook、亞馬遜和微軟。
這或許是對的。但蘋果在解決人工智能時代的隱私保護難題上,又似乎比其他科技巨頭,走得更遠。
人工智能依賴于機器學習(深度學習)算法,而機器學習又需要大規模的訓練數據,所以向用戶搜集數據比以往更加重要。
如今,當你向一家互聯網公司詢問,你們收集來的用戶信息會不會侵犯用戶隱私的時候,行業標準答案是:
1、收集用戶信息是必要的,這樣有助于改善產品或服務。
2、我們是匿名收集用戶信息的,并不保存任何用戶的身份信息。
“匿名收集”這個答案,作為擋箭牌非常好用。外行都會被它唬住,以為匿名就意味著無法關聯到具體的某個用戶的信息。
但是對這個行業稍有了解的人,都應該清楚,匿名并不能完全保證用戶的隱私安全。最經典的案例莫過于,Netflix 曾放出“經過匿名處理的”上億條電影評分數據,“僅僅保留了每個用戶對電影的評分和評分的時間戳”,希望通過競賽的形式,找到更好的影片推薦算法。但是 2009年,德州大學的兩位研究人員,通過這些匿名數據與公開的IMDB數據做對比,成功將匿名數據與具體的用戶對應了起來。Netflix 不得不取消了,這項原計劃每年舉行的競賽。
蘋果想把(一定會收集用戶信息的)科技公司在隱私保護方面的級別,提升到新的高度。而“差分隱私 (Differential Privacy)”,正是它找到的答案。這項密碼學前沿技術的基本原理,就是向包含個體信息的大量數據集里注入噪音(或者說擾動),目標是保證每個個體信息都無法泄露,同時這個數據集的統計學信息依然可以被外界分析。
科學家們正在研究,究竟注入多少噪音,可以實現隱私保護和數據分析的最佳平衡。
不出意外的話,蘋果將成為第一個真正大規模使用這項“差分隱私 (Differential Privacy)”算法的公司。但是也有學者表達了自己的擔心,他們認為這項技術前景可期,但還沒有成熟到大規模商用的時候。
也有人猜測,蘋果應該與微軟達成了某種私下協議,因為這項“差分隱私 (Differential Privacy)”算法的提出者,來自微軟研究院。蘋果在 WWDC 上引用了一名大學教授對蘋果使用該算法的看法——“使用這項算法說明蘋果很有遠見,蘋果在隱私保護方面領先其他科技公司”,而這名教授是《The Algorithmic Foundations of Differential Privacy》(差分隱私的算法基礎)一書的兩個作者之一,另一位就是微軟的研究員。
一個可能的情況是,研究這項算法的大公司不止蘋果一家,只不過它是最先表明積極態度的,至少在輿論方面占得先機。
總結一下。讀完本文,你只需要知道“匿名收集信息”并不能回答互聯網公司如何保護用戶隱私的問題,就可以了。就像亞馬遜CEO貝佐斯在 Re/code 大會上講的那樣,保護隱私是這個時代的難題。只不過,愿意給出新解法的公司,卻少得可憐。