一個月前,《終極算法》作者、人工智能著名學者、華盛頓大學教授 Pedro Domingos 在社交網絡中寫道:“自 5 月 25 日起,歐盟將會要求所有算法解釋其輸出原理,這意味著深度學習成為非法的方式。”一石激起千層浪。人們不禁要問:歐盟為何出臺這個法規?以深度學習為核心的人工智能真的會遭遇重大挫折?中國應當借鑒并仿效嗎?
利用人工智能的自動化決定
盡管真正擁有知覺和自我意識的“強人工智能”仍屬幻想,但專注于特定功能的“弱人工智能”早如雨后春筍般涌現。在萬物互聯的背景下,以云計算為用,以個人數據為體,以機器學習為魂的智能應用已經“潤物細無聲”。
從今日頭條的個性化推送到螞蟻金服的芝麻信用評分,從京東的“奶爸當家指數”到某旅游網站用大數據“殺熟”,個人信息自動化分析深嵌入到我們日常生活之中。在法律上,我們稱之為“基于個人信息的自動化決定”。簡單來說,就是通過自動化的數據處理,評估、分析及預測個人的工作表現、經濟狀況、位置、健康狀況、個人偏好、可信賴度或者行為表現,進而利用這種“數據畫像”(profiling),在不同的業務場景中作出有關數據主體的各項決定。
人工智能的自動化決定一方面可以給我們帶來便利,比如智能投顧或智能醫療,但另一方面,它絕非完美無缺,它可能出錯,甚至還可能存在“惡意”。美國馬薩諸塞州的居民John Gass便深受其害。聯邦調查局的反恐識別系統將他誤認為是另一位司機,并吊銷了他的駕駛執照,于是,他不得不費時費力,讓當局相信他不是那名司機。
其實,John Cass已經非常幸運。在美國,每周超過1000人被機場使用的算法錯誤地標記為恐怖分子。一名美國航空公司的飛行員在一年中被拘留了80次,因為他的名字與愛爾蘭共和軍領導人的名字相似。這還不算是最糟糕的。人工智能的算法依賴于大數據,而大數據并非中立。
它們從真實社會中抽取,必然帶有社會固有的不平等、排斥性和歧視的痕跡。例如,為了在Twitter上與千禧一代進行對話,微軟開發了Tay聊天機器人,它旨在學習如何通過復制網民的語音來模仿他人。可僅僅在試用24小時后,它就被引入歧途,成為支持種族滅絕的反女權主義納粹分子,以至于發出了“希特勒無罪”的消息。更有甚者,美國法院用以評估犯罪風險的算法COMPAS,亦被證明對黑人造成了系統性歧視。
無論是程序錯誤,還是算法歧視,在人工智能的前沿領域——深度學習中,都變得難以識別。華盛頓特區的Sarah Wysocki是一位被普遍認可的老師,但當2009年政府用一個自動化決定程序來評價教師表現時,她和其他205人因得分不佳被解雇。據稱,該決定以少數學生的成績為依據,可學校始終無法解釋為何優秀教師會落得如此下場。華盛頓學校的難題有著深層次原因。
與傳統機器學習不同,深度學習并不遵循數據輸入、特征提取、特征選擇、邏輯推理、預測的過程,而是由計算機直接從事物原始特征出發,自動學習和生成高級的認知結果。在人工智能輸入的數據和其輸出的答案之間,存在著我們無法洞悉的“隱層”,它被稱為“黑箱”(black box)。
這里的“黑箱”并不只意味著不能觀察,還意味著即使計算機試圖向我們解釋,我們也無法理解。哥倫比亞大學的機器人學家 Hod Lipson把這一困境形象地描述為“這就像是向一條狗解釋莎士比亞是誰。”
《統一數據保護條例》的應對
正是因為人工智能的自動化決定對個人權利的重大影響,將于2018年5月25日生效的歐盟《統一數據保護條例》(GDRR)在1995年《數據保護指令》(Directive 95/46/EC)的基礎上,進一步強化了對自然人數據的保護。
首先,尊重個人的選擇權。當自動化決定將對個人產生法律上的后果或類似效果時,除非當事人明確同意,或者對于當事人間合同的達成和履行來說必不可少,否則,個人均有權不受相關決定的限制。
其次,將個人敏感數據排除在人工智能的自動化決定之外。根據《統一數據保護條例》第9(1)條,“敏感數據”即有關種族、政治傾向、宗教信仰、健康、性生活、性取向的數據,或者可唯一性識別自然人的基因數據、生物數據。
由于這些數據一旦遭到泄露、修改或不當利用,就會對個人造成不良影響,因此,歐盟一律禁止自動化處理,即使當事人同意亦是如是,只有在明確的法律規定時才存在例外。
再次,增加數據使用者在個人數據收集時的透明度。根據《統一數據保護條例》第13條(f)和第14條(g),如果個人數據將用于自動化決定,那么至少應當向個人提供相關決定的重要性、對個人預期的影響以及有關運算邏輯的“有用信息”。
比如,在銀行收集個人數據時,應當告知其可能使用人工智能對貸款人資質進行審核,而審核的最壞結果(如不批貸)也應一并披露。此外,由于我們都不是技術專家,因此,這里的“有用信息”不但應淺顯易懂,為每個人理解,而且要有助于每個人主張自己在《統一數據保護條例》或其他法律下的權利。還是以貸款審核為例,當我們覺得被不公正對待時,銀行提供的信息就應當成為法院審理的重要依據。
最后,如果個人對自動化決定不滿,則有權主張人工介入,以表達自己的觀點并提出質疑。這一規定和上述透明度要求相結合,產生了針對人工智能的所謂“解釋權”,而這正是Pedro Domingos的擔憂所在。考慮到算法黑箱,深度學習的合法化似乎是個無解的問題。但事實上,這可能是個誤解。
一方面,“有用信息”的提供是在收集數據之時,而非作出自動化決定之后,其意味著個人僅僅概括地了解系統的一般原則即可,并不需要徹底把握某項具體決定的邏輯。另一方面,法律所看重的是“可理解”(explainable),而不是“可闡釋(interpretable)。換言之,它不關注人工智能內部究竟如何運作,而只關心輸入數據和輸出結果的關聯關系。在加州大學伯克利分校發布的《人工智能的系統挑戰:一個伯克利的觀點》(A Berkeley View of Systems Challenges for AI)中,這種關聯性被稱“反事實問題”測試。
在個人被拒絕貸款的例子中,人工智能系統必須能否回答如果諸如“我不是女性,是不是就能批貸?”“如果我不是小企業主,是不是就能批貸”這樣的問題。因而數據使用者有義務建構出一套具有交互診斷分析能力的系統,通過檢視輸入數據和重現執行過程,來化解人們的質疑。這才是“人工介入”的真實含義。
將數據正義引入中國
數據是數字經濟的關鍵生產要素,人工智能是數字經濟的關鍵產業支柱。如何在發掘數據的經濟價值、發展人工智能的同時,保障個人的權利和自由,依然是數字社會的未解難題。
當前,我國尚無《個人信息保護法》,在不久前出臺的《個人信息安全規范》中,第7.10條“約束信息系統自動決策”也只是賦予了個人提出申請的程序性權利,并不涉及實質約束。
無獨有偶,中國電子技術標準化研究院發布的《人工智能標準化白皮書》雖然已關注到人工智能的倫理和隱私問題,但著墨不多,因過于原則而難以實施。就此而言,《統一數據保護條例》可成為我國可資借鑒的他山之石。它不僅僅提供了一系列具象的法律規則,更重要的是它在“數據效率”之外,傳遞出“數據正義”(data justice)的理念。
盡管作為一個發展中的理念,數據正義的含義遠未定型,但“反數據歧視”和“數據透明”必然是題中之意。在數字化生存的今天,不管是“社會人”還是“經濟人”,都首先是“數字人”。
現實空間的我們被數據所記載、所表達、所模擬、所處理、所預測,現實空間的歧視也是如此。從求職歧視到消費歧視和司法歧視,數據歧視前所未有地制度化和系統化。基于此,法律首先要做的就是規定更加小心和負責地收集、使用、共享可能導致歧視的任何敏感數據。可這顯然不夠。從大數據的相關性原理出發,只是將敏感數據簡單排除并不能保證它們不被考慮。
例如,若特定區域的人有著大量的低收入群體或少數族裔,那么區域的地理數據就可以代替收入或種族數據,用作歧視工具。所以,要識別和挑戰數據應用中的歧視和偏見,“數據透明”就不可或缺。換言之,它要求在數據生產和處理日趨復雜的形勢下,增強個人的知情權,從而修復信息的對稱性。
關于這一點,凱文·凱利所講的老婆婆故事是一個絕佳的例子。在故事里,你住在一個小城鎮,你的鄰居老婆婆知道你的一切動向和行蹤,但你可能不會覺得被冒犯,因為你不在家的時候,老婆婆會幫你看家;更重要的是,你了解關于老婆婆的一切。從信息窺視的角度,數字時代的政府和企業就像鄰居老婆婆,不過,他們只是部分地做到了第一點,就第二點而言,我們卻還有很長的路要走。