圖1:蘋(píng)果使用差分隱私技術(shù)保護(hù)從Mac上收集的數(shù)據(jù)
據(jù)《華爾街日?qǐng)?bào)》北京時(shí)間7月8日?qǐng)?bào)道,去年,蘋(píng)果公司針對(duì)一項(xiàng)新的隱私技術(shù)展開(kāi)了大規(guī)模試驗(yàn),旨在解決一個(gè)愈加棘手的問(wèn)題:如何在不窺探用戶(hù)活動(dòng)的前提下,打造出能夠了解用戶(hù)行為的產(chǎn)品。
答案就是“差分隱私”技術(shù)(differential privacy),這個(gè)名詞在學(xué)術(shù)圈以外幾乎無(wú)人知曉,直到一年前才被外界了解。現(xiàn)在,微軟公司、Uber公司等其他公司也都在測(cè)試這項(xiàng)技術(shù)。
差分隱私技術(shù)
差分隱私試圖處理的問(wèn)題,源自現(xiàn)代數(shù)據(jù)分析工具能夠找到大型數(shù)據(jù)庫(kù)之間的鏈接。隱私專(zhuān)家擔(dān)心,這些工具可能會(huì)被用于在其他匿名數(shù)據(jù)集中識(shí)別用戶(hù)。
兩年前,麻省理工學(xué)院的研究人員發(fā)現(xiàn),通過(guò)把社交媒體賬戶(hù)與匿名信用卡記錄以及位置、購(gòu)買(mǎi)時(shí)間等二手資料相鏈接,他們就能確認(rèn)購(gòu)物者身份。“我認(rèn)為人們并沒(méi)有意識(shí)到數(shù)據(jù)的去匿名化是多么簡(jiǎn)單,”伊桑·納尤爾卡(Ishaan Nerurkar)表示,他的創(chuàng)業(yè)公司LeapYear Technologies銷(xiāo)售基于機(jī)器學(xué)習(xí)的軟件,并使用差分隱私技術(shù)保持用戶(hù)數(shù)據(jù)的匿名化。
差分隱私算法通過(guò)增加大量可測(cè)量的統(tǒng)計(jì)噪聲,對(duì)正在被分析的數(shù)據(jù)進(jìn)行模糊化處理。例如,把一個(gè)問(wèn)題(你是否犯過(guò)暴力罪行?)置換成一個(gè)在統(tǒng)計(jì)學(xué)上擁有已知反應(yīng)率的問(wèn)題(你是在2月出生?)。這樣,試圖尋找出數(shù)據(jù)之間鏈接的人就無(wú)法確定一個(gè)特定人被詢(xún)問(wèn)過(guò)哪個(gè)問(wèn)題。研究人員在分析病歷等敏感數(shù)據(jù)時(shí)也就無(wú)法把數(shù)據(jù)與特定人綁定在一起。
有助于蘋(píng)果開(kāi)發(fā)AI產(chǎn)品
加州大學(xué)圣克魯茲分校助理教授阿布拉迪普·薩克塔(Abhradeep Guha Thakurta)表示,差分隱私對(duì)于蘋(píng)果在人工智能(AI)上的努力至關(guān)重要。薩克塔一直在從事蘋(píng)果的差分隱私系統(tǒng),直到今年1月。
圖2:差分隱私技術(shù)原理
外界批評(píng)蘋(píng)果在開(kāi)發(fā)AI技術(shù)上未能跟上谷歌公司等對(duì)手的步伐,后者已經(jīng)在圖像和語(yǔ)言識(shí)別軟件上取得巨大進(jìn)步,這些軟件被用于驅(qū)動(dòng)虛擬助手和自動(dòng)駕駛汽車(chē)。
盡管谷歌等公司獲得了提高AI技術(shù)所需要的海量數(shù)據(jù),但是蘋(píng)果的隱私政策成為了他們發(fā)展AI的一個(gè)障礙。這一隱私政策遭到了一些人的批評(píng),認(rèn)為它導(dǎo)致蘋(píng)果在Siri等AI產(chǎn)品方面成為了落后者。
“目前為止,蘋(píng)果一直設(shè)法避免收集用戶(hù)數(shù)據(jù),但是要想在AI時(shí)代取得成功,他們必須收集用戶(hù)信息,”薩克塔稱(chēng)。他表示,蘋(píng)果從去年9月份開(kāi)始推出差分隱私軟件。
在蘋(píng)果使用分析數(shù)據(jù)前,它必須得到用戶(hù)的同意。蘋(píng)果軟件工程師凱蒂·斯金納(Katie Skinner)在6月份舉行的全球開(kāi)發(fā)者大會(huì)上稱(chēng),蘋(píng)果原本使用差分隱私技術(shù)來(lái)了解用戶(hù)如何在手機(jī)上使用表情符號(hào)和新俚語(yǔ),現(xiàn)在已經(jīng)擴(kuò)大了它的用途,用于覆蓋所收集到的網(wǎng)絡(luò)瀏覽和健康相關(guān)數(shù)據(jù)及分析。
她表示,蘋(píng)果現(xiàn)在每天能夠收集到數(shù)百萬(wàn)份信息,全部使用差分隱私技術(shù)進(jìn)行保護(hù)。這些信息來(lái)自運(yùn)行最新操作系統(tǒng)的Mac、iPhone以及iPad。
“蘋(píng)果相信,優(yōu)秀功能的推出和保護(hù)隱私并不相悖,”蘋(píng)果發(fā)言人通過(guò)郵件表示。
局限性
谷歌是差分隱私技術(shù)的早期使用者之一,已經(jīng)在使用它保持Chrome瀏覽器數(shù)據(jù)的匿名化。但是,盡管這一技術(shù)很適合部分分析類(lèi)型,但是并不適用于高精度分析。例如,谷歌專(zhuān)家稱(chēng),它并不適用于所謂的A/B測(cè)試。A/B測(cè)試指的是開(kāi)發(fā)者針對(duì)少量用戶(hù)測(cè)試兩種版本的網(wǎng)頁(yè),看看哪個(gè)反應(yīng)更好。
“在一些情況下,你就是無(wú)法回答開(kāi)發(fā)者想要讓你回答的問(wèn)題,”谷歌隱私工程師約納坦·尊格(Yonatan Zunger)表示,“基本上,我們把差分隱私視為工具箱中的一個(gè)有用工具,但不是靈丹妙藥。”
賓夕法尼亞大學(xué)計(jì)算機(jī)科學(xué)教授本杰明·皮爾斯(Benjamin Pierce)表示,對(duì)于差分隱私,研究人員提出了“驚人的強(qiáng)大使用方式”,但是這項(xiàng)技術(shù)才剛剛問(wèn)世大約10年。“我們還遠(yuǎn)遠(yuǎn)不知道它的局限,”他表示。 自從蘋(píng)果首次使用差分隱私以來(lái),這項(xiàng)技術(shù)得到了更為廣泛的使用。例如,Uber員工使用它改進(jìn)服務(wù),同時(shí)不必過(guò)度曝光用戶(hù)數(shù)據(jù)。
微軟正和圣地亞哥電力公司(San Diego Gas &Electric)在一個(gè)試點(diǎn)項(xiàng)目上展開(kāi)合作,向研究人員和政府機(jī)構(gòu)提供智能電表數(shù)據(jù),以便進(jìn)行分析。圣地亞哥電力公司客戶(hù)隱私主管稱(chēng),公司同時(shí)要確保“不能通過(guò)任何數(shù)據(jù)集找到我們的用戶(hù)”。
美國(guó)人口調(diào)查局在10年前也面對(duì)過(guò)數(shù)據(jù)集之間的鏈接問(wèn)題。人口調(diào)查局首席科學(xué)家約翰·阿波德(John Abowd)表示,2005年,人口調(diào)查局曾擔(dān)心不在其控制范圍內(nèi)的大型數(shù)據(jù)庫(kù)可能會(huì)被用于對(duì)參與普查的人口去匿名化。在與部分差分隱私技術(shù)的開(kāi)發(fā)者會(huì)談后,人口調(diào)查局成為了這項(xiàng)技術(shù)的支持者。
2008年,人口調(diào)查局發(fā)布了首款基于差分隱私技術(shù)的產(chǎn)品——基于網(wǎng)絡(luò)的數(shù)據(jù)地圖網(wǎng)站OnTheMap。阿波德稱(chēng),人口調(diào)查局現(xiàn)在“正在作出巨大努力,把差分隱私技術(shù)用于2020年的人口普查”。