機器學習、數(shù)據(jù)、隱私和更大的善

責任編輯：editor007 作者：機器之心 Synced |來源：企業(yè)網(wǎng)D1Net 2016-01-10 20:29:39 本文摘自：百度百家

如果分析Twitter狀態(tài)或者Facebook帖子可以識別可能患有產(chǎn)后抑郁癥的新媽媽，會發(fā)生什么？盡管產(chǎn)后抑郁癥會帶來嚴重后果，然而早期識別和預防仍然困難重重。因為無抑郁癥病史，早期識別在很大程度上依賴于新媽媽們的自述。但是，研究人員發(fā)現(xiàn)，F(xiàn)acebook上一系列行為和用語的改變可以預測產(chǎn)后抑郁癥（如圖）。社會化媒體和其他數(shù)字化數(shù)據(jù)流產(chǎn)生了關(guān)于個人和群體的海量數(shù)據(jù)流，那些以此為基礎(chǔ)，通過機器學習獲取和利用與健康有關(guān)的預測的研究可謂前途無量，預測產(chǎn)后抑郁是其中之一。與此同時，機器學習也對保護個人隱私和確保數(shù)據(jù)的合理使用提出了新挑戰(zhàn)。我們必須在控制信息收集和數(shù)據(jù)使用之間取得平衡，也要追求可審計、可靠的技術(shù)和系統(tǒng)以增強基于使用的隱私保護。

機器學習能夠?qū)】颠M行跨類預測。社交媒體上，新媽媽們的行為和語言使用能夠被用來預測是否產(chǎn)后抑郁。

研究人員創(chuàng)造了一些術(shù)語，例如數(shù)字疾病檢測和信息監(jiān)測，來定義這類利用不同的數(shù)字信息流進行公共衛(wèi)生和政策信息通報的新科學，例如流行病的早期識別，疾病的傳染性和流動性建模，個人疾病風險分類等。這種新形式的健康研究也會擴展那些由傳統(tǒng)健康記錄和人體試驗得出的結(jié)論。比如，藥物不良反應(yīng)的檢測可以結(jié)合美國食品和藥物管理局的不良反應(yīng)報告系統(tǒng)及匿名搜索日志加以改善。搜索日志可以作為一個大規(guī)模的傳感系統(tǒng)，用來監(jiān)測藥物安全——藥物警戒。

信息監(jiān)測研究通常是指對公開披露或私有匿名數(shù)據(jù)的大規(guī)模綜合分析，就人群中公共健康問題得出結(jié)論和見解。然而，一些方法和模型可以針對特定個體加以推測，從而采取一些舉措來改善個體或公共健康狀況，例如警報或者進行數(shù)字干預（digital nudging）。

盡管數(shù)字干預顯示出良好前景，但是，英國最近發(fā)生的一次事件，讓人們注意到它也會對隱私造成困擾。Good Samaritan是Twitter上一款預防自殺的應(yīng)用，通過監(jiān)測用戶在Twitter上的用語，這款應(yīng)用能夠預測該用戶患有精神疾病的風險并通知該用戶的關(guān)注者，以便他們能介入以避免可能發(fā)生的自殺。但是，這項技術(shù)令輿論嘩然，也引發(fā)監(jiān)管機構(gòu)的擔憂，隨后被關(guān)閉。批評人士擔心，這款應(yīng)用會鼓勵在線騷擾者和恃強凌弱者將矛頭指向這些脆弱個體，他們的請愿書指出，這款應(yīng)用收集、處理并分享敏感信息，侵犯了用戶隱私，并收集到了1200個志愿者。雖然開發(fā)者預防自殺的初衷值得嘉獎，但是，此項非盈利之舉卻因它將試圖拯救的那些人的隱私和精神健康視為兒戲而遭到訓斥。

機器學習可以促進信息環(huán)境與社會環(huán)境之間的交流，借助遠超醫(yī)療環(huán)境的非醫(yī)療數(shù)據(jù)就健康狀況或者傾向做出跨類推測（category-jumping）。這對隱私的影響是深遠的。跨類推測可能會揭露一個人特意向別人隱瞞的問題或狀況。為了防止出現(xiàn)這些違背意愿的現(xiàn)象，美國對健康護理隱私嚴加監(jiān)管。但是，雖然從健康理療和支付中獲得的健康狀況信息能夠以一種尊重患者隱私的方式加以保護，但是，機器學習和推測可以繞開許多現(xiàn)存的保護機制。

即使不是跨類推測，機器學習也能從自我揭露、看似良性的數(shù)據(jù)以及易于觀察的行為中，進行強大而折衷的推論（ powerful and compromising inferences）。這些結(jié)論可能會與隱私法的根本目的相悖——個人有權(quán)決定誰知道以及知道自己哪些隱私。機器學習和預測會讓人們越來越難判斷：根據(jù)自己或明或暗共享過的信息，他人有權(quán)獲知自己的哪些隱私。這些計算機收集健康狀況的信息渠道與其他技術(shù)手段聯(lián)手之后，會讓既有健康隱私的保護機制出現(xiàn)很大漏洞。特別是，面對大量可以用來再次識別個體的各種輔助性數(shù)據(jù)，我們很難將公開分享過的數(shù)據(jù)組去識別化（deidentify）。

現(xiàn)有的美國隱私制度將個人健康狀態(tài)隱私保護與被先驗確定為健康信息的特定文本或特定信息類型關(guān)聯(lián)起來，機器學習的威力讓這種規(guī)定的根本局限性無所遁形。現(xiàn)有美國健康隱私規(guī)則和隱私法律都是基于這一假設(shè)：孤立環(huán)境中的數(shù)據(jù)語義相對固定并且可知。但是，機器學習卻被用來從數(shù)據(jù)、跨數(shù)據(jù)中來預測新的數(shù)據(jù)語義，通常不受美國隱私法約束。例如，使用Twitter上的公開推文來預測產(chǎn)后抑郁癥風險，這并不違反現(xiàn)有的隱私法。由于文章是公開共享的，這樣做可能并不會讓人吃驚，也似乎不成問題，但是，這種預測行為也會導致令人不安的后果。

當前的隱私法通常采用雙重責任（double duty）。作為基本原則，法律會限制有權(quán)訪問個人信息的主體。這也間接限制了信息能夠影響決策的范圍，因此也進一步限制了信息引發(fā)歧視的機會。出于對隱私的高度敏感以及健康方面歧視的關(guān)注，還另立法律，對健康醫(yī)療數(shù)據(jù)文本之外的健康信息使用緊行規(guī)制。美國法律明確限制了不當使用健康信息的行為。例如, 決定就業(yè)、信貸或住房時，法律通常禁止信用報告機構(gòu)提供醫(yī)療信息。《美國殘疾人法案》(ADA)禁止身體或精神殘疾歧視，甚至不允許人們這么認為個體備受殘疾折磨。如果機器學習被用來推斷某人患有身體或精神障礙，那么，即使推斷是錯誤的，雇主據(jù)此決定聘用對方的行為也違反了法律。

但是，《美國殘疾人法》并不禁止歧視殘疾傾向（predispositions）。機器學習也能發(fā)現(xiàn)那些殘疾傾向。理論上，《禁止基因信息歧視法案》(GINA)應(yīng)該通過保護基因上具有殘疾傾向的人來填補這一空白。但是，機器學習又讓這種保護變得困難。盡管GINA禁止以基因測試或某種疾病的家族遺傳史等信息為基礎(chǔ)的歧視，但是，機器學習能從其他類型數(shù)據(jù)中發(fā)現(xiàn)這些殘疾傾向，GINA并未限制人們利用這些信息進行歧視（即使它還是根植于基因問題）。換句話說，機器學習能從非基因信息（包括遺傳傾向引發(fā)的健康變化）中預測未來的健康狀況，規(guī)避現(xiàn)有法律。

正如機器學習會暴露隱私一樣，它也為社會分類——對人分門別類，不同類別不同待遇——提供條件，無論這種處理的初衷如何（善或惡、好或壞）。為了將個體納入公共健康計劃和干預機制，對其進行分門別類的方法也能輕易地被用于邪惡的目的，例如，通過歧視來保護組織的利益。

美國和其他國家的決策者們剛剛開始著手梳理機器學習預測對信守隱私、公平帶來的挑戰(zhàn)。白宮公布了一份報告，討論了大規(guī)模數(shù)據(jù)分析可能導致歧視，雖然沒有特別關(guān)注健康信息，但是，報告和美國聯(lián)邦貿(mào)易委員會(FTC)都建議采取新舉措來保護隱私、整治惡意使用信息并增加透明度。

FTC是監(jiān)管商業(yè)活動中不公平、欺詐性交易的關(guān)鍵部門，包括那些涉及隱私與個人信息安全的商業(yè)活動。試行的隱私政策鼓勵公司將技術(shù)與政策機制結(jié)合來，防止再次識別（reidentification）。試行規(guī)定力圖確保數(shù)據(jù)「不能進行合理識別」，也要求上市公司（public company）承諾不會再次識別經(jīng)過反識別處理的數(shù)據(jù)。試行也適用于數(shù)據(jù)下游使用者。這一政策方針有望適用于機器學習以及以數(shù)據(jù)為中心的分析領(lǐng)域中來。通過鼓勵公司減少數(shù)據(jù)池和數(shù)據(jù)分享對個人隱私造成的風險，使對大量數(shù)據(jù)組的學習和數(shù)據(jù)分享成為可能。

FTC的規(guī)定部分取材于機構(gòu)近期采取的一些行動，行動焦點正是我們謂之「文本跨越（context-jumping）」的預測行為。有一個頗受關(guān)注的案例，Netflix公開一批數(shù)據(jù)組支持競爭以改善公司的推薦算法。當公司以外的研究人員用輔助數(shù)據(jù)重新識別、推測來自Netflix數(shù)據(jù)組的個體敏感特征時，F(xiàn)TC與Netflix合作，對將來公開預測結(jié)果進行了限制——FTC上述限制規(guī)定正是源于此。遵循類似脈絡(luò)，F(xiàn)TC反對改變Facebook的默認規(guī)定：可以根據(jù)已經(jīng)公開的個體隸屬組別中的敏感信息，諸如政治觀點和性別取向，進行預測。

除此之外，F(xiàn)TC也努力確保個體能夠控制在線跟蹤以及移動網(wǎng)絡(luò)環(huán)境。部分是因為人們可以從巨大的數(shù)據(jù)集合中進行比較隱秘的推測，給用戶帶來風險，比如，市場活動中，用戶會被分門別類地予以特殊對待。在某相關(guān)規(guī)定中，F(xiàn)TC建議國會要求數(shù)據(jù)掮客（data brokers）——那些搜集用戶個人信息予以出售或分享的公司——向客戶清楚說明他們搜集的數(shù)據(jù)信息并如實告知客戶，公司從這些數(shù)據(jù)中得到了一些預測。這里，F(xiàn)TC再次表明，它的關(guān)注點不僅僅是原始數(shù)據(jù)，還包括基于這些數(shù)據(jù)作出的預測。

奧巴馬政府的大數(shù)據(jù)計劃也考慮到機器學習給隱私造成的威脅以及機器推測在市場活動中帶來的潛在威脅，計劃總結(jié)道，我們需要更新隱私政策，提高消費者保護和民主權(quán)利機構(gòu)的技術(shù)專業(yè)性以描述出大數(shù)據(jù)引發(fā)的新奇的歧視議題，并為個體提供隱私保護工具，讓公民可以控制、管理個人信息管理，增加公司使用和交易數(shù)據(jù)的透明度。政府也關(guān)心機器學習在政策與國家安全方面的使用情況。白宮報告要求提高專業(yè)技術(shù)，幫助民主權(quán)利和消費者保護機構(gòu)識別、調(diào)查以及消弭會對受保護階層帶來歧視效應(yīng)的大數(shù)據(jù)分析使用。

請注意，政府報告和法律規(guī)定清楚強調(diào)了政策規(guī)范關(guān)注的是數(shù)據(jù)使用，而不是數(shù)據(jù)收集。盡管我們也需要工具來幫助用戶控制自身數(shù)據(jù)收集的時間和方式，但是，政府的建議是讓個體有權(quán)參與到如何使用與公開搜集到的數(shù)據(jù)的決策過程中來。總統(tǒng)科技顧問委員會（PCAST）出具的一份獨立報告的結(jié)論是，技術(shù)保護這個方向更加富有成效。兩份報告均建議，基于數(shù)據(jù)使用的保護能更好地描述出潛在數(shù)據(jù)意義——使用機器學習對數(shù)據(jù)進行預測——也能適應(yīng)數(shù)據(jù)豐富規(guī)模以及將來的關(guān)聯(lián)環(huán)境。政府呼吁各方通力合作以確保對健康數(shù)據(jù)文本的規(guī)制使以下期待成為可能：享受機器學習和預測的好處的同時降低其可能招致的風險。這種基于數(shù)據(jù)使用的保護方法也經(jīng)常得到工業(yè)領(lǐng)域的支持，該領(lǐng)域傾向于將數(shù)據(jù)視為一種自然資源，無論是出于商業(yè)目的還是公共利益，都要對之進行開采，抵制限制數(shù)據(jù)搜集的舉措。

盡管當前陷入僵局的國會不太可能，也不會完全依從這些建議，但是，采用它們會增強數(shù)據(jù)搜集、使用以及相應(yīng)后果的透明度。連同努力識別、限制不公平或歧視性數(shù)據(jù)的使用和推測等建議，它們都是頗為有用的舉措。這些建議也與歐盟目前有關(guān)數(shù)據(jù)處理透明度與公平性的隱私法律，特別是全自動化決策可能給個體造成的風險方面，步調(diào)一致。

目前歐盟的法律要求實體為個人提供獲得決策數(shù)據(jù)的途徑以及決策標準的信息【參看第21款第12條和第15條】。盡管目前有歐盟統(tǒng)一指令約束，但是，具體規(guī)定仍是各國法律的事情。當個體要求獲取數(shù)據(jù)和進行加工時，他們能夠獲取的權(quán)限大小會隨著各國對「全自動化」過程施加限制的不同而所有不同。歐盟想要采用一項高于本地法律的數(shù)據(jù)隱私規(guī)定，實行單一國家標準。盡管現(xiàn)有草案包含平行條款，但是，最終版本以及如何進行最終解釋都尚不清楚(27)。

理論上，歐盟提出了一項新要求來公開數(shù)據(jù)的處理邏輯，這可以得到廣泛適用，同時也預示著將有公開途徑獲得數(shù)據(jù)分析及算法。歐盟將基于當前歐盟的統(tǒng)一指令，就獲取數(shù)據(jù)和處理邏輯的程度補充一些細節(jié)，在這之前的過渡期，今年夏天將有望出臺一項決議。

對數(shù)據(jù)擁有者來說，提高數(shù)據(jù)處理的透明度至關(guān)重要又頗具挑戰(zhàn)。盡管這一目標會促進我們加深對運作方式或機器學習和推理方法的可能輸出結(jié)果的實際理解，但是，算法和決策標準的工作流和機制或許難以進行描繪和解釋。例如，流行的卷積神經(jīng)網(wǎng)絡(luò)學習程序能夠自動催發(fā)豐富的、多層的表征，但對于這些表征，可能開發(fā)者自己都無法清晰理解。盡管可以提供對步驟和表征的高級描述，但是，即便是一個能夠取得源碼的嫻熟程序員, 也無法對這一系統(tǒng)的準確運行進行描述，無法對一組既定輸入值的輸出結(jié)果進行準確預測。

數(shù)據(jù)的意義已經(jīng)成為了一個不斷移動的目標。數(shù)據(jù)集可以通過去定義化被輕易的組合成重新定義的數(shù)據(jù)集，感知知識可從常規(guī)和雜亂分享的良性數(shù)據(jù)中推斷出來。這對目前美國利用合法手段進行隱私保護造成了困難，他們的保護手段往往是基于數(shù)據(jù)的可識別性和明確含義對其進行管理。

基于應(yīng)用的解決方案在一定程度上僅聚焦于有限的數(shù)據(jù)收集，這是不夠的。因為從某種程度上來說，這種做法預設(shè)了數(shù)據(jù)是可被基于某種原則進行收集的純粹的物品，無論何時何地。雖然我們尚未準備好廢棄掉數(shù)據(jù)收集的限制，但我們對此表示同意——基于應(yīng)用的管理條例是未來法律藍圖的重要部分，盡管實施起來將面臨挑戰(zhàn)，但它將有助于促進隱私、平等和公共物品的保護。在提高透明度的同時還要平衡隨之而來的各種限制，基于應(yīng)用的解決方案將需要格外強調(diào)個人數(shù)據(jù)的獲取、準確性和修正權(quán)利。

盡管關(guān)于個人健康信息的管理條例的演化還不完整，但它卻提供給了我們一個有價值的圖景，使我們能夠?qū)裉焖媾R的機遇和挑戰(zhàn)進行思考，同時也為潛在解決方案提出了框架思路。在醫(yī)療健康領(lǐng)域，隱私條例中總會包含不歧視條款，同時也伴隨著支持研究的特殊條款。如今，隱私條例與集體管理模型聯(lián)系在了一起，后者的設(shè)計初衷是鼓勵將支持研究的生物樣本庫數(shù)據(jù)進行匯總，同時保護集體隱私。

盡管還有些較為現(xiàn)實的挑戰(zhàn)，我們?nèi)韵Ｍ咧贫ㄕ吆凸娔軌蚓蛿?shù)據(jù)、機器學習的能力進行開誠布公的討論，這將為接下來的程序和政策提供富有洞察力的設(shè)計思路，我們一方面需要保護隱私和確保公平，另一方面也需要享受（基于個人數(shù)據(jù)的）科學研究成果給個人和公眾帶來的好處，程序和政策的設(shè)計有利于在這兩者之間取得平衡。我們對隱私和公正的追求是永恒的，我們的政策必須適應(yīng)這種進步，同時也要支持深化我們認識的新技術(shù)。

關(guān)鍵字：數(shù)據(jù)語義機器學習