蘋果正在加緊向人工智能領域發起沖擊,以趕上競爭對手的步伐。此前,其他企業一直在機器學習AI的高速公路上全速前進,這得益于它們挖掘起用戶數據來毫不手軟。
蘋果則不然,在一大群對數據如饑似渴的企業之中,蘋果獨以用戶數據守衛者的角色自居。當其他數據“吸血鬼”們悄悄上傳位置信息、鍵盤行為和搜索詞條的時候,蘋果對用戶信息不聞不問,還不斷推出新的硬件解決方案,讓自己(以及黑客、政府和身份信息盜用者)無從訪問用戶數據,而且,其數據分析歷來都限制在用戶設備上,不會上傳到蘋果服務器。
但iOS中有幾道繞不過去的坎,蘋果需要知曉用戶行為,才能對特定功能進行精細的調整,對于一家將隱私放在第一位的公司,問題就出現了。差分隱私(differential privacy)的概念由此登場。在近日召開的全球開發者大會(WWDC)上,蘋果軟件工程高級副總裁克雷格·費德里吉(Craig Federighi)就此作了簡要的討論。
“差分隱私是統計和數據分析領域的一個研究課題,指使用散列、子采樣和噪聲注入等方式,在每個用戶的信息仍然完全保密的情況下,使眾包形式的學習成為可能,”費德里吉解釋說。
差分隱私并非蘋果首創;學術界多年前就開始研究這一概念。但隨著iOS 10的逐步推出,蘋果將開始使用差分隱私來收集并分析來自鍵盤、Spotlight和Notes的用戶數據。
差分隱私的原理是用算法加擾個人用戶數據,使之無法回溯到個人,然后對數據進行批量分析,得出大規模的趨勢規律。其目標是保護用戶身份信息和數據細節,同時提取機器學習所需的通用信息。
重要的是,iOS 10會先對單個用戶的數據進行隨機化處理,再將設備數據集體發送給蘋果公司,保證任何時候都不會以不安全的格式傳輸。蘋果也不會收集用戶鍵入的每一個單詞或搜索關鍵字——該公司表示,對于從每個用戶那里獲取的數據量,它會設置一個上限。
頗不尋常的是,蘋果公司還將其差分隱私執行文件交給賓夕法尼亞大學教授亞倫·羅斯(Aaron Roth),接受同行評審。這位計算機科學教授是差分隱私領域的權威人士,著有《差分隱私的算法基礎》一書。費德里吉說,羅斯用“開創性”一詞評價了蘋果在差分隱私方面的工作。
蘋果表示,它可能會在iOS 10發布之前,發布差分隱私實施政策和數據保留政策方面的更多細節。
那么,這一切對你來說意味著什么呢?
鍵盤
在WWDC主旨演講中,蘋果宣布了iMessage的重大改進。差分隱私是這些改進的一大組成部分,因為蘋果希望收集數據,用以改進QuickType和表情符號鍵盤的建議功能。在iOS 9中,QuickType在用戶的個人設備上學習短語并更新字典——新詞輸入達到一定次數以后,自動更正就會停止修改動作。
但在iOS 10中,蘋果將使用差分隱私,識別數十億用戶的用語趨勢——因此,你可能會驚奇地發現,鍵盤給出的建議是你從未使用過的某個俚語。
“當然,讓軟件更加智能的重要工具之一,就是在眾多用戶之中發現使用規律,”費德里吉解釋說。“比如,找出時下流行的新詞,使QuickType鍵盤對新詞信手拈來。”
差分隱私也一勞永逸地解決了常用表情符號之爭,給表情符號鍵盤重新排序,愛心符號再也不會藏在散亂的星座符號和鳶尾花之間了。
Spotlight
在此之前,iOS 9為改進Spotlight搜索功能,引入了深度鏈接(deep linking)。費德里吉在去年的WWDC上揭曉了深度鏈接,他在演示中用Spotlight搜索了“土豆”,出現的是設備上其他應用中的菜譜,而不僅僅是網頁搜索結果。
如今,被孤立在應用程序之中的信息越來越多,超越了傳統搜索引擎的覆蓋范圍,為了這些內容變得可搜索,深度鏈接就成為必須。然而iOS 9該如何對深度鏈接的搜索結果進行排名,以防止不相關的建議泛濫Spotlight,這方面依然存在問題。
蘋果計劃使用差分隱私來解決這個問題。憑借被擾亂的用戶數據,蘋果可以將極受歡迎的深度鏈接識別出來,并分配以較高的排名——故而當你用Spotlight查找土豆食譜時,你會得到像Yummly這樣的應用提供的最美味的土豆食譜。
Notes
iOS 10用差分隱私來加以改進的最后一項功能是Notes。
在主旨演講中,費德里吉還討論了Notes的改進。在iOS 10中,Notes將變得更具互動性,可操作信息將著重顯示——打個比方,如果你在Notes中記下一位朋友的生日,它可能會著重顯示該日期,建議你創建日歷事件以得到提醒。
為提供此類智能建議,蘋果需要知道用戶普遍喜歡記錄何種筆記,而這就要用到差分隱私。
工作原理
那么,差分隱私究竟是什么?它不是一種單一技術,賓夕法尼亞州立大學計算機科學與工程系副教授亞當·斯密(Computer Science)說,他與羅斯一道,從事這方面的研究已有十多年。
它其實是一種數據處理方式,在數據中加入限制,防止通過數據聯系到具體個人。它允許你對數據進行總體分析,但會在提取自單獨設備的數據中注入噪聲,讓數據在接受批量處理的同時,不至于危及個人隱私。
“嚴格來說,這是一個數學定義。它限制了你處理數據的方式,在數據集里面間隔取點的時候,任何點都不會鏈向太多信息,”史密斯說。
他用沒有調準的電臺打了個比方,差分隱私就好比在一層靜態噪聲之下,聽到背后的旋律。“一旦你知道自己在聽什么,忽略靜態噪聲就很容易了。你了解不到什么個人信息,但可以看到比較清晰的整體規律。
“如果對自己不加約束,不插入這些噪聲,得到的規律還會更加清晰、準確。但為了更有力地保障用戶隱私,這是必須作出的犧牲,”史密斯說。
史密斯認為,蘋果是第一家嘗試大規模采用差分隱私的公司,盡管他也承認,其他大型商業實體(如AT&T)也曾做過這方面的研究(可能讓人意想不到的是,谷歌也通過Rappor項目做過這方面的研究)。他指出,初創企業也表現出了興趣。
雖然除蘋果之外,沒有其他商業實體大規模部署差分隱私,但史密斯表示,這一概念的穩妥性是毋庸置疑的,不過他指出,實施也要得當才行。
“與任何事關安全性的技術一樣,魔鬼就在細節間。落實必須非常妥善。但背后思路是非常穩妥的,這一點沒有爭議。”
AI的未來將受何影響?
史密斯說,蘋果公司采用差分隱私是AI領域的一件大事,差分隱私或能給機器學習技術發揮作用的方式帶來翻天覆地的變化。
在硅谷,隱私之爭往往以執法視角呈現,體現為用戶與美國國家安全之爭。但在科技企業,隱私之爭就成了用戶隱私與功能之間的取舍。蘋果引入差分隱私,可能會從根本上改變這場辯論。
谷歌和Facebook就一直困擾于這個問題:如何提供功能豐富同時又保護隱私的產品。谷歌的最新消息應用Allo以及Facebook的Messenger都不將端到端加密設為默認,因為兩家公司都需要大量用戶對話來提升機器學習,使聊天機器人運轉起來。蘋果也想從用戶數據中獲取深入的信息,但它不愿讓端到端加密的iMessage開倒車。
史密斯說,蘋果選擇差分隱私,將使企業重新權衡保護隱私與改進機器學習之間的取舍。“我們現在收集那么多數據,但真正需要的根本沒那么多,”史密斯說。“這類技術絕對是隱私保護的另一條出路。”
雖然iOS 10只會用差分隱私來改進鍵盤、深度鏈接及Notes,但史密斯指出,如果試水成功,蘋果可能將此策略延伸到地圖、語音識別等功能。史密斯說,蘋果還可以看看人們在一天中哪些時段使用哪些應用。
蘋果不收集原始用戶數據,或能提升用戶對它的信賴,同時在政府面前,蘋果也可以展現出更加強硬的立場——在近期與FBI的官司大戰之中,蘋果就為了用戶隱私據理力爭。
由于差分隱私研究已有十年的積淀,它對蘋果來說是個相對低風險的安全策略。史密斯表示,這個概念找到了創新和用戶安全之間的“最佳位置”。
“無論蘋果的成功是否徹底,這都將徹底改變隱私對話,”史密斯說。“我認為,人們對私人信息收集的看法將因此改變。這可能是蘋果公司這一項目的最大遺產,也許會遠遠超出它對蘋果業績的影響。”