我們能打開人工智能的黑盒嗎？如何定義「公平」？

責任編輯：zsheng |來源：企業網D1Net 2018-12-27 23:25:08 本文摘自：電子發燒友網

隨著越來越多的算法不斷滲透入社會的層層面面，如醫療機構、政府部門，對算法偏見的討論越來越多。這個月，Nature 雜志評選出 2018 年最受歡迎的十大科學長篇專題報道，其中，Rachel Courtland 一篇討論算法偏見的文章成功當選。

2015 年，一位憂心忡忡的父親問了衛生經濟學家 Rhema Vaithianathan 一個至今仍在她腦海中揮之不去的問題。

那天，一小群人聚集在賓夕法尼亞州匹茲堡市的一間地下室里，聽 Rhema Vaithianathan 解釋軟件如何能夠解決虐待兒童的問題。每天，該地區的熱線電話都會接到幾十個懷疑附近有孩子處于危險之中的來電;其中一些來電會被呼叫中心的工作人員標記以便調查。但是這個系統并不能掌握所有的虐童案件。Vaithianathan 和她的同事們剛剛簽訂了一份價值 50 萬美元的合同，該合同要求他們開發出能夠幫助解決該問題的算法。

衛生經濟學家 Vaithianathan 是新西蘭奧克蘭理工大學社會數據分析中心的聯合主任，他用下面的例子告訴人們這個算法是如何工作的：例如，一個使用大量數據(包括家庭背景和犯罪記錄)訓練得到的工具，可以在接到電話時生成風險評分。這可能有助于通知審核員標記出需要調查的家庭。

當 Vaithianathan 邀請聽眾提問后，那位(前面提到的)憂心忡忡的父親站起來發言。他說，他曾經染上了毒癮，并與毒癮做過艱難的斗爭。社工曾因此將他的孩子從家中帶走。但目前，他已經戒毒成功一段時間了。在電腦評估他的記錄的時候，他為改變自己的生活所做的這些努力難道就毫無意義嗎?換句話說：算法對他的評價是否不公平?

我們能打開人工智能的黑盒嗎?

Vaithianathan 向這位父親保證，人們總是會改過自新的，他的努力不會被忽視。但是時至今日，即使這種自動化評估工具已經部署完畢，Vaithianathan 仍然在思考這位父親的問題。計算機的計算結果正越來越多地被用于控制那些可能改變人一生的決定，包括應該拘留哪些被指控犯罪的被告、調查哪些可能存在虐待兒童現象的家庭，以及近來的「預測性警務」的趨勢(社區警察應該關注哪些問題)。這些工具有望使決策更加一致、準確和嚴謹。但是對這一系統的監管是有限的：沒人知道有多少這樣的系統正在被使用。這些算法的不公平性正在引起警惕。例如，2016 年，美國記者辯稱，用于評估未來的犯罪活動風險的系統會歧視黑人被告。

紐約大學研究人工智能的社會影響的研究中心「AI Now」研究院的聯合創始人 Kate Crawford 表示：「我最擔心的是，我們提出的系統本應改善問題，但最終卻可能使問題惡化」。

在 Crawford 和其他人提出警告時，政府正試圖使軟件更具公信力。去年 12 月，紐約市議會通過了一項法案，他們成立了一個特別工作組，用于提出公開分享關于算法信息的方案的建議，并調查它們是否存在偏見。今年，法國總統 Emmanuel Macron 表示，法國將公開政府使用的所有算法。在本月發布的指導意見中，英國政府呼吁那些在公共部門從事數據工作的人要公開透明，并負起責任。于五月底生效的歐洲通用數據保護條例(GDPR)，也將促進算法問責制。

Rhema Vaithianathan 構建算法來幫助標記出潛在的兒童虐待案件

在這樣的活動中，科學家們面臨著一個復雜的問題：使算法公平究竟指的是什么? Vaithianathan 等為公共機構工作的研究人員，試圖開發出負責任的、有效的軟件。他們必須努力解決自動化工具可能引入偏見或加深現有的不平等現象的問題，尤其是如果這些工具正被嵌入到一個本已具有一定歧視性的社會體系中時。

「有一個相當活躍的研究團體，他們正試圖開發從外部審核評估這類系統的方法」。

鹽湖城猶他大學的理論計算機科學家 Suresh Venkatasubramanian 指出，自動化決策工具所引出的公平性問題并不是一個全新的問題，人們使用評估犯罪或信用風險的精算工具已經有幾十年的歷史。隨著大型數據集和更復雜模型的普及，人們越來越難以忽視它們在倫理方面的影響。「計算機科學家別無選擇，我們必須開始進行這方面的研究。我們再也不能忽視算法的公平性，看看這樣會發生什么」。

公平性的折中

2014 年，匹茲堡所在的 Allegheny 郡人類服務部門的官員打電話征求關于自動化工具的建議時，他們還沒有決定如何使用它。但是他們知道自己應該對新系統采取開放的態度。該部門數據分析、研究和評估辦公室副主任 Erin Dalton 表示：「我極其反對把政府資金用于不能向社會說明我們在做什么的黑箱解決方案上」。該部門擁有一個建于 1999 年的中央數據倉庫，其中包含大量個人信息，包括住房、精神健康狀態和犯罪記錄。Dalton 說，Vaithianathan 的團隊在關注兒童福利方面做出了巨大努力。

2016 年 8 月，Allegheny 家庭篩查工具(AFST)被推出。對于每個打進熱線的電話，呼叫中心的員工都會看到由自動風險評估系統生成的得分(1 至 20 分)，其中 20 分對應于被認定為最高風險的個案。AFST 預計這些高得分家庭的孩子最有可能在兩年內被從家中帶走，或者因為打電話者懷疑這些孩子受到了虐待而再次被送到郡里(郡縣正在放棄第二種評價指標，該指標似乎并不能準確反映出需要進一步調查的案件)。

位于加利福尼亞州的斯坦福大學的獨立研究員 Jeremy Goldhaber-Fiebert 仍然在評估這個工具。但 Dalton 說，初步的結果表明，該工具是有幫助的。她表示，采用該工具后，呼叫中心工作人員提交給調查人員的案件中似乎包含了更多有著合理的擔憂的實例。電話審核員似乎也會對類似的案件做出更加一致的決定。盡管如此，他們的決定并不一定與算法的風險評分相符;郡政府希望使兩者的結果更接近一致。

改革預測性警務

隨著 AFST 被部署，Dalton 希望得到更多幫助，以確定該系統是否可能存在偏見。2016 年，她找來匹茲堡卡內基梅隆大學的統計學家 Alexandra Chouldchova，幫助她分析該軟件是否會歧視特定群體。Chouldchova 此前已經在考慮算法中的偏見問題，而且將參與到一個已經引發了關于這個問題的廣泛辯論的案件。

同年 5 月，新聞網站 ProPublica 的記者報道了 Broward County 法官使用的商業軟件，這些軟件有助于判定一個被指控犯罪的被告是否應該在審判前被從監獄中釋放出來。記者們說這個軟件對黑人被告有偏見。這個被稱為 COMPAS 的工具可以生成一個得分，它被用來衡量一個人在兩年內再次犯罪的可能性。

Propublica 團隊調查了數千名被告的 COMPAS 得分，這些分數是該團隊通過公共記錄請求獲得的。通過比較黑人和白人被告，記者們發現，「假正例」(被判斷為有罪，實際無罪)的黑人被告與白人被告的比例是嚴重失調的：黑人被 COMPAS 列為高風險人群，但實際上他們隨后卻沒有被指控罪行。

該算法的開發者是一家總部位于密歇根州的名為 Northpointe (現在是俄亥俄州坎頓市的 Equivant)的公司，該公司認為這個工具沒有偏見。他們說，COMPAS 還能夠很好地預測被歸類為高犯罪風險人群的白人或黑人被告是否會再次犯罪(這是一個「預測性平價」的例子)。Chouldechova 很快發現，Northpointe 和 ProPublica 的公平度量是對立的。預測性平價、相等的假正例錯誤率和相等的假負例錯誤率都可以作為體現「公平」的方式，但是如果兩個群體之間存在差異——例如白人和黑人被再次逮捕的概率(參見后文「如何定義『公平』」章節) ，那么在統計學上，就不可能實現完全的公平。倫敦大學學院研究可靠性機器學習的研究員 Michael Veale 表示：「魚和熊掌不可兼得!如果你想在某一方面做到公平，那么在另一個聽起來也很合理的情況下，你可能必然做不到公平」。

如何定義「公平」?

研究算法中的偏見的研究人員說，定義公平的方法有很多，但這些方法有時候是矛盾的。

我們不妨想象一下，在刑事司法系統中使用一種算法為兩組嫌疑人(用藍色和紫色表示)打分，從而衡量他們再次被捕的風險。歷史數據表明，紫色組被捕的概率更高，因此模型會將更多的紫色組的人歸類為高危人群(見下圖頂部)。即使模型開發人員試圖不直接告訴模型一個人應該被歸為藍色還是紫色，以避免產生偏見，但這種情況也會發生。這是因為用作訓練輸入的其他數據可能與藍色或紫色相關。

盡管高風險狀態不能完美地預測該嫌疑人是否會再次被捕，但該算法的開發者試圖使預測結果公平：對于這兩組人來說，「高風險」指的是有 2/3 的幾率在兩年內再次被捕。(這種公平稱為預測性平價。)未來的逮捕率可能不會遵循過去的模式，但是在這個簡單的例子中，假設它們確實如預期的那樣：藍色組的 3/10 和紫色組的 6/10(以及每組中 2/3 被標記為高風險的人)確實被再次逮捕了(見下圖中底部的灰條)。

該算法滿足預測性平價(無論黑人和白人被告是否有相同的風險評分總體準確率)，但是仍然存在一個問題。在藍色組中，7 人中有 1 人(14%)被誤認為是高危人群，而在紫色組中，4 人中有 2 人(50%)被誤認為高危人群。因此，紫色個體更有可能成為「假正例」——被誤認為高風險。

只要藍色組和紫色組的成員再次被捕的概率不同，那么就很難實現預測性平價和相等的假正例率。從數學上來說，要做到這一點同時滿足第三項公平標準(除了預測性平價和相等的假正例率)是不可能的：相等的假負例率(被認定為低風險但隨后又再次被捕的個體;在上面的例子中，紫色和藍色組的假負例率恰好相等，同為 33%)。

一些人認為紫色組的假正例率更高體現出了算法的歧視性。但其他研究人員認為，這并不一定是算法存在偏見的確鑿證據。這種不平衡還可能有一個更深層次的原因：紫色組可能一開始就不公平地成為了逮捕的目標。根據過去的數據，該算法能夠準確地預測更多的紫色組成員將被再次逮捕。因此，我們可以認為該算法(甚至可以確定)有事先存在的社會偏見。

AI 科技評論注：更多關于統計悖論的信息，可以參見這個著名的統計學悖論，第一次聽說的人很可能懷疑人生一文。

事實上，從數學角度來說，還有更多的方式來定義公平：在今年 2 月的一次會議上，計算機科學家 Arvind Narayanan 發表了題為「21 個公平性的定義及其策略」的演講，他指出還有其它的定義方式。一些調查過 ProPublica 的案例的研究人員，包括 Chouldchova，指出「不相等的錯誤率是否表明算法存在偏見」尚不清楚。斯坦福大學的計算機科學家 Sharad Goel 說，他們反而反映了這樣一個事實：即算法對一個群體比對另一個群體更難做出預測。「事實證明，這或多或少是一種統計學的假象」。

對于某些人來說，ProPublica 的案例凸顯了這樣一個事實，即許多機構缺乏資源來尋求并正確評估算法工具。芝加哥大學的數據科學與公共政策中心的主任 Rayid Ghani 表示：「如果有的話，這樣的情況告訴我們的是：雇傭 Northpointe 的政府機構沒有給出明確的衡量算法公平性的定義。我認為，各國政府需要學習并接受培訓，學習如何尋求這些系統，如何定義算法應該被衡量的指標，以及如何確保供應商、咨詢師和研究人員提供的系統實際上是公平的」。

Allegheny 郡的經驗表明要解決這些問題是多么困難。Chouldchova 受邀在 2017 年初開始研究 Allegheny 的數據，她發現這個工具也存在類似統計上的失衡現象。她說，該模型有一些「非常不理想的特性」。在不同的種族之間的錯誤率的差異遠遠高于預期。而且，由于尚不清楚的原因，被認為受虐待風險最高的白人兒童被從家中帶走的可能性小于被認為受虐待風險最高的黑人兒童。Allegheny 和 Vaithianathan 的團隊目前正在考慮轉而使用另一種模型。「這可能有助于減少不公正的現象」，Chouldchova 說。

盡管統計失衡是一個有待解決的問題，但算法中潛藏著更深層次的不公平性(它們可能會加劇社會的不公正現象)。例如，像 COMPAS 這樣的算法可能原本是旨在預測未來犯罪活動的可能性，但它只能依賴于可測量的模式：例如被逮捕。警務實踐的差異可能意味著一些社會團體成為被逮捕幾率更高的目標，他們可能因為會在其他社會團體中被忽視的罪行而被捕。David Robinson是 Upturn 的執行董事(Upturn 是一個位于華盛頓特區的非營利性社會司法組織)，他說：「即使我們準確地預測了一些案件，但我們在準確地預測案件的同時可能也對一些人群采取了不公正的對待」。這在很大程度上將取決于法官在多大程度上依賴此類算法來做出裁決，而我們對此知之甚少。

新澤西州卡姆登市的警察使用自動化工具來幫助確定哪些地區需要巡邏。

Allegheny 的工具也受到了類似的批評。作家、政治學家 Virginia Eubanks 認為，不管這個算法是否準確，它都是基于有偏見的輸入工作的，因為黑人和混血家庭更有可能被熱線電話所提到。此外，由于該模型依賴于 Allegheny 體系中的公共服務信息，而且使用此類服務的家庭普遍貧窮，該算法會對較貧窮家庭進行更嚴格的審查，從而對這些家庭更加不公平。Dalton承認，現有的數據是一個我們不得不面對的限制，但她認為人們仍然需要這個工具。 Allegheny 郡今年早些時候在 AFST 網站上回應 Eubanks 時表示：「貧困這一不幸的社會問題并不能否認我們具有『為那些需要我們關懷的兒童提高我們的決策能力』的責任!」

透明度及其限制

盡管一些機構建立了自己的工具或商業軟件，但學者們發現自己在公共部門算法方面的工作有很大的市場需求。在芝加哥大學，Ghani 一直在與一系列機構合作，包括芝加哥公共衛生部門，他們一起研究一種預測哪些家庭可能藏有對健康有危害的鉛的工具。在英國，劍橋大學的研究人員與 Durhan 郡的警方合作，建立了一個模型，幫助他們確定可以對哪些人采取干預方案，作為起訴的替代辦法。Goel 和他的同事今年建立了斯坦福計算政策實驗室，該實驗室正在與包括舊金山地區檢察官辦公室在內的政府機構進行合作。地區檢察官辦公室的分析師 Maria McKee 認為，與外界的研究人員的合作關系至關重要。他說：「我們都知道什么是對的，什么是公平的，但我們往往沒有工具，也沒有進行研究，來準確、條理清晰地告訴我們如何實現這一目標」。

人們非常希望提高案件的透明度，這與 Allegheny 采取的方針一致。Allegheny 郡與利益相關方進行了接觸，并向記者敞開大門。AI Now 研究所的 Crawford 說，當算法是「不能接受算法審核、審查或公開辯論的封閉循環」時，這樣通常會激化問題。但是現在還不清楚如何使算法更加開放。Ghani 認為，簡單地公布一個模型的所有參數并不能提供對其工作機制的解釋。透明度也可能與隱私保護相沖突。在某些情況下，透露太多關于算法工作原理的信息可能會讓不懷好意的人攻擊這個系統。

Goel 說，問責制的一大障礙是，這些機構往往不會收集它們如何使用這些工具或這些工具的性能的數據。「很多時候并不存在所謂的透明度，因為沒有什么信息是可以分享的」。例如，加利福尼亞州的立法機構起草了一份法案，尋求能夠幫助人們減小被告必須支付保釋金的幾率的風險評估工具，然而這種做法因為會懲罰低收入被告而受到詬病。Goel 希望該法案強制要求收集法官之所以不同意使用該工具的支撐案例的數據，以及包括判決結果在內的每個案件的具體細節。他說，「我們的目標是從根本上減少監禁，同時維護公共安全，所以我們必須知道這樣做是否有效」。

Crawford 說，我們將需要一系列「正當程序」基礎設施來確保算法的可靠性。今年 4 月，AI Now 研究所為希望可靠地采用算法決策工具的公共機構制定了一個框架;除此之外，該研究所呼吁征求社區的意見，并讓人們能夠對與他們的決議提出上訴。

人工智能研究存在盲點

許多人希望法律能夠強制執行這些目標。Solon Barocas 是一名康奈爾大學的研究人工智能倫理和政策問題的研究員，他說，實際上曾經有過一些這樣的先例。在美國，一些消費者保護法規在對作出不利于公民信用評價的決定時，會給予公民解釋的權利。而 Veale 說，早在 20 世紀 70 年代，法國就立法賦予公民解釋權和對自動裁決提出異議的權利。

最大的考驗將是 5 月 25 日生效的歐洲 GDPR。某些規定(例如獲得有關自動決策案件所涉邏輯的有意義信息的權利)似乎促進了算法問責制。但英國牛津互聯網研究所的數據倫理學家 Brent Mittelstadt 表示，對于那些希望評估算法公平性的人來說，GDPR 實際上可能會制造一個「法律雷區」，從而實際上妨礙算法公平。要檢驗一個算法是否在某些方面存在偏見(例如，它是否會偏袒一個種族，而歧視另一個種族)，最好的方法就是了解系統涉及到的人的相關屬性。但是，Mittelstadt 說，GDPR 對使用這些敏感數據的限制十分嚴格，處罰也非常高，以至于那些有能力評估算法公平性的公司可能沒有什么動力去處理這些信息。他說：「這似乎會限制我們評估算法公平性的能力」。

那些讓公眾對算法有一定了解、并吸引公眾關注的 GDPR 法案的作用范圍也存在一些問題。如前所述，一些 GDPR 規則僅適用于完全自動化的系統，這可以排除「算法對決策有一定影響，但應該由人做出最后決定」的情況。Mittelstadt 說，這些細節最終應該在法庭上澄清。

審核算法

與此同時，研究人員正在推進檢測算法中的偏見的策略，這些算法尚未對公眾開放審核。Barocas 說，公司可能不愿意討論他們將如何解決公平問題，因為這將意味著首先要承認他們的公平性存在問題。他說，即使他們這樣做了，他們根據算法采取的行為中的偏見可能會有所改善，但不會從根本上消除偏見。「因此，任何有關這個問題的公開聲明，都不可避免地承認這個問題依然存在」。但最近幾個月，微軟和 Facebook 都宣布將開發工具來檢測算法偏見。

一些包括波士頓東北大學的計算機科學家 Christo Wilson 在內的研究人員，試圖從外部揭示商業算法的偏見。比如，Wilson 創造了一些虛擬的乘客，他們聲稱自己在尋找 Uber 出租車，他還在一個求職網站上上傳了虛擬履歷，以測試性別偏見。還有人正在開發一些軟件，他們希望這些軟件能夠被廣泛用于自我評估。今年 5 月，Ghani 和他的同事發布了名為 Aequitas 的開源軟件，幫助工程師、政策制定者和分析師審核機器學習模型中的偏見。數學家 Cathy O’Neil 一直在強調用算法做出決策的危險性，她成立了一家公司，私下與一些公司進行了合作，審核他們的算法公平性。

一些研究人員已經開始呼吁，在刑事司法應用和其他領域，人們應該從狹隘地專注于建立預測算法的狂熱中退一步。例如，一個工具可能擅長預測誰將不會出現在法庭上，但是最好問問為什么他們不會出現。或許，他們應該設計一些干預措施，比如短信提醒或交通援助，這可能會提高他們出現在法庭上的概率。紐約大學法學院的民權律師、種族正義倡導者 Vincent Southerland 說：「這些工具通常幫助我們做出一些小的修正，但我們需要的是全面的改變」。他表示，圍繞算法魯棒性展開的激烈辯論「迫使我們所有人詢問和回答這些真正棘手的基本問題，這些問題涉及我們正在使用的系統以及它們的運作方式」。

Vaithianathan 目前正在將她的兒童虐待預測模型擴展到科羅拉多州的 Douglas 和 Larimer 郡，她認為，建立更好的算法是十分有價值的(即使它們所嵌入的總體系統是有缺陷的)，也就是說，「算法不能被硬生生地嵌入這些復雜的系統里」。她說到，它們必須在理解更廣泛的具體應用背景的專家的幫助下被實現。但是即使是最好的工作也會面臨挑戰。她表示，在缺乏直接的答案和完美的解決方案的情況下，提高算法的透明度是最好的選擇。「我總是說: 如果你不能做到完全正確，那就讓自己變得更誠實」。

關鍵字：定義智能