無處不在的AI輔助成果為我們未來的智能生活指明了兩條實現方向——云端與設備內,這種戲劇般的分支選擇亦如故事般精彩紛呈。在云陣營中,谷歌公司舉起領袖旗幟。而在設備端,蘋果則一呼百應。那么誰能夠在對抗最終勝出?各擅勝場抑或是雙雙失利?
如果是在一個星期前,我個人絕對會將選票毫不猶豫地投給云陣營。在拜讀了Jeff Dean撰寫的《谷歌的大規模深度學習》一文后,相信大家會和我一樣驚嘆于谷歌實現的技術成果——精妙、普適、智能、系統化且極具優勢。
而蘋果公司則在將深度學習引入自家產品方面表現得較為遲鈍。但這似乎也在意料之中,蘋果方面有著自己的發展規劃。其并不打算充當什么早期采納者,而更傾向于推出已經被消費者市場所廣泛接受的技術成果。
還有一種可能性,事實上蘋果公司的行事作風相當隱秘,他們也許掌握著外界無從知曉的深度學習成果。當然,對于這一點我沒法打包票。
但能夠間接證明這種推論的證據在于,蘋果公司即將以種全新方式拓展深度學習:差異化隱私+功能強大的設備處理器+可下載模型離線訓練+承諾不收集任何個人信息+完美保密的深度學習機制。
Photos對Photos
在本次WWDC 2016大會的主題演講中,蘋果公司介紹了其全新照片應用,并宣稱將利用深度學習技術幫助用戶搜索圖片、將照片整理成簿以及通過迷你快照形式收集照片、視頻與位置。
這些功能聽起來與Google Photos如出一轍。事實上,Google Photos設計團隊已經能夠在無需為照片添加標簽的前提下實現搜索。大家不必標記即可找到對應內容的圖片。
二者的差異之處在于類似功能的不同實現方式。
蘋果公司采用了怎樣的實現方式?我們在WWDC 2016大會的脫口秀環節上找到了一些線索。
深度學習何時起效?
主持人Gruber幫我問出了最為關心的問題: 深度學習何時起效?
最終答案分為以下幾點:
深度學習運行在蘋果的數據中心之內。其構建一套模型,且可供設備進行下載。訓練過程并不涉及用戶數據,而是依托于外部數據集實現模型構建。拍攝照片時該模型即得到應用。分析工作在照片進入照片庫的同時瞬間完成。其通過110億次計算對照片內容進行歸類,分辨“其中是一匹馬”或者“其中是一座山”。iOS設備上的GPU已經相當強大,因此能夠迅速完成這些處理任務。很明顯,由于拍攝操作在數量上并不夸張,所以也不會對電池續航造成太大影響。全部現有照片在后臺進行分析。由于這會占用相當一部分計算能力,所以相關分析工作會在夜間設備接入電源進行充電時進行。分析結果不會在同一用戶的設備間共享。每臺設備會分別進行上述分析流程。未來具體實現方式可能有所變化,即分析結果可能共享。由于開發一套面向這類數據共享機制的安全系統非常困難,因此等待也是可以理解的。隱私是最大的差別所在
雖然蘋果方面并沒有談及其具體訓練方式,但很可能參考了谷歌在深度學習中的部分思路。
二者真正的差別在于對隱私的處理態度。谷歌方面會將全部個人數據保存在云端,并利用個人與他人數據加以訓練。換言之,谷歌公司很清楚這些數據各來自哪位用戶。事實上,我時常想到一種反烏托邦場景,即谷歌利用掌握的信息重建個人用戶的大腦神經網絡,并以模擬方式了解我們對于廣告宣傳及政治事件的態度——太可怕了。
蘋果公司采用的是完全不同的另一種處理思路。蘋果方面永遠不會了解手機上的分析結論,也不會查看用戶的個人數據。這一點已經在發布會上進行了無數次強調,也讓人們對數據與隱私安全更加放心。
Craig Federighi:
是的。需要明確的是,對于這些照片本身,其架構集以加密方式存儲在云端,而元數據——包括用戶創建的元數據以及我們深度學習后分類得出的元數據——同樣經過加密,蘋果無法進行讀取。
那么蘋果要如何保證不會上傳用戶的數據并了解個人信息?其采用的是方案名為差異化隱私(簡稱DP)。我之前從沒聽說過這項技術,因此對其倍感好奇。
Matthew Green在《差異化隱私是什么?》一文中對DP進行了詳盡說明,這是一項大數據技術成果,利用統計數據隱藏用戶身份,從而在數學層面證明用戶隱私得到保護。
那么其實際效果如何? Matthew Green表示:
實際答案可能外人永遠無法知曉。不過總體來講,看起來蘋果公司似乎確實誠實地踐行了自己的隱私保護承諾,同時提供了可行的解決方案,這才是最重要的。
Craig Federighi列舉了以下DP示例(內容經過編輯):
基本思路是,如果大量用戶輸入某個實際上并不存在的單詞,那么我們將不再將其視為拼寫錯誤,甚至可能將其納入拼寫補全推薦。
在這種情況下,我們希望全部客戶都能夠理解該單詞,但我們又不希望知曉具體是哪位用戶輸入了該詞。沒錯,我們要刻意回避這種將習慣與個人掛鉤的信息。
如果我們獲取的只是數據片段中的一個側面,那么我們擁有的最多也只是這部分片段。在所收集到的大量此類片段中,也許其表面的含義與實際情況并不相符,對吧?
但只要樣本量充足,這種不相符的問題將自行得到解決。因此如果我們希望學習新出現的單詞,我們會對其進行哈希處理,并從哈希中提取單一bit,例如將其稱為1。與此同時,手機設備會對數據內容進行混淆,意味著即使其讀取到的數據為1,其也可能通過隨機算法將其表達為0。
蘋果公司獲得的數據正是這類混淆處理后的結果。但由于擁有充足的數據量,蘋果方面仍然能夠建立起宏觀視角,并了解大規模群體表現出的真實傾向。具體來講,蘋果公司能夠借此了解廣泛用戶的思維方式,但卻無法具體將其與個人聯系起來。
蘋果公司正是利用這樣的機制,憑借全球十億臺手機幫助自身建立認知優勢。
Gruber提出了DP實現保密的一大關鍵點。由于數據與貨幣不同,我們無法在一段時間后判斷數據的具體來源,因此即使出現法律糾紛、蘋果也無法將數據與個人聯系起來。換言之,如果蘋果公司的某些人員未來希望利用數據牟取利益,也根本不可能實現。
谷歌公司還開發出了眾多模型,其中包含令人印象深刻的功能,且身材纖細可直接運行在智能手機之內。最典型的實例就是利用視覺取景器識別計算機中的文本。而后,其會進行文本翻譯并直接把結果疊加在圖片之上。谷歌公司很清楚,智能化技術必須能夠在移動設備端全面完成,因此其不必遠程接入云計算中心。TensorFlow模型能夠運行在手機上,這意味著云訓練與遠程設備相匹配,但就目前看谷歌不太可能為其采用差異化隱私保護。
蘋果公司實現差異化隱私的同時又會失去什么?
看起來蘋果公司似乎放棄了立足個人的深度學習分析,但這也只是種可能性。
以谷歌公司的Smart Reply為例。在手機之上,大家需要快速回復郵件,但輸入內容往往不太方便。因此,谷歌開發出一套系統,用于預測使用頻率較高的各類回復信息。
第一步是訓練一套小型模型,用于預測某條信息是否適合作為快捷回復。如果將這種方式推而廣之,甚至能夠作為信息序列有針對性地實現預測型回復。
舉例來說,在電子郵件當中,使用頻率最高的感恩節邀請回復內容包括:我們也來;一定準時到;我們來不了,很抱歉。
這很像是蘋果的設計風格。
下面再進一步,通過建立一套模型預測用戶可能做出的反應。例如,我們可能會對邀請消息做出怎樣的回復?也許蘋果公司做不到如此具體的個性化效果,這是因為其不會在云中保留身份信息,而僅存在宏觀的數據聚合視圖。而在涉及個性化信息時,蘋果公司的政策限制要求其只能在設備內部進行模型訓練。
這就引發了數據匱乏問題。單純訪問設備上的數據能否準確代表用戶的喜好?蘋果公司只依靠iMessage或者Siri就能掌握我們的習慣嗎?抑或是蘋果公司會攔截指向Twitter、電子郵件、Facebook乃至谷歌搜索的流量?
再就是存在計算問題。根據Jeff Dean的說法,我的理解是整套神經網絡是由成千上萬的參數構成,而非單純參考設備內運行的信息。
另外還有“多重人格”問題需要考慮。很明顯,我們在使用電話、iPad以及桌面系統時,交互習慣自然有所區別。如果立足于各獨立設備,那么我們的習慣自然也存在巨大差異。這意味著蘋果公司必須打造出某種元訓練層,即將各類設備結合起來以構建起統一的用戶視圖。這種作法恐怕比將全部信息傳輸至云端更具挑戰。
那么這種個性化能力的缺失是否致命?至于對谷歌而言是如此。谷歌公司最近在其谷歌I/O 2016大會上發布了全面普及機器學習的戰略。其中的典型方案就是Google Assistant,這款新的個人AI將更為全面地服務用戶。
那么蘋果是否關心這一點?谷歌公司似乎希望將深度學習本身作為主要目標,而蘋果則更傾向于利用這項技術打造更出色的產品。雖然存在巨大差別,但只要有著蘋果這位競爭對手的威脅,谷歌就必須提供更具吸引力的生態系統以發展技術成果。
每支團隊都需要決定其是否需要構建及部署深度學習系統。這不僅是一項技術方案,更會帶來道德層面的拷問。直到現在,我們只見證過一類深度學習系統實例,而蘋果公司的思路顯然提供了不同的實現模式。
遺憾的是,蘋果公司制定的隱私模式很難普及,因為其向來對自家方案采取封閉政策。在另一方面,谷歌公司則忙于利用深度學習探索整個世界。一方強調隱私,一方強調分析結論,多元的發展方向對于我們用戶而言顯然是件好事。
原文鏈接:The Technology Behind Apple Photos And The Future Of Deep Learning And Privacy