從新的一天要聽什么歌、哪些人應該拿到社會福利,到學校課程設置、公司并購決定,機器開始支配這些看似瑣碎但重要的抉擇,而我們還沒有意識到,這或許是比“終結者”的到來更嚴重的威脅。
但有些決策不能,也永遠不應該委托給機器。
用算法來做決策的初衷一定是善意的:提高效率,讓決策迅速獲得數據支持,且保證流程的一目了然。
而在驚嘆于這些讓人眼花繚亂的自動化決策系統的同時,管理層常常忘記一個最重要的問題:
算法的引入是減少還是加劇了系統中的不公平因素?這種算法是否會影響決策——或作為決策的基礎,可能對人們的生活產生負面影響?
由于數據偏差、系統內置偏見,不了解統計數據以及過度信任機器的決策者,還有其他眾多的挑戰,算法永遠不會給我們“完美”的結果。
那么,在算法和你的判斷產生出入時,你將在多大程度上依賴算法?
影響分析結果的因素有很多。這篇文章將指出,在進行自動化改革之前,所有組織需要考慮的幾個因素。
印第安納州的失敗算法和100萬受害者
先來看一個算法偏差導致的可怕后果。
在印第安納州,一個算法將有關福利的不完整的文件歸類為不合規。
在三年的時間里,因為這一決定,有100萬人無法獲取食品券,醫療保健和現金福利。
Omega Young是100萬受害者之一。
在2009年3月1日,她因無法負擔醫藥費而死亡。(在她死后贏得了最終維權上訴,并重新得到她的所有福利金。)
將是否能繼續獲得醫療補助金這一決策留給AI決策,這一事件讓印第安納州在之后飽受詬病。
弗吉尼亞的Eubanks討論了印第安納州在自動不平等方面(Automating Inequality)系統的失敗,她寫了一本關于技術如何影響公民、人權以及經濟公平的書。Eubanks解釋說,算法讓機器為我們在棘手的社會問題上做出的決策而不是我們自己做出抉擇,這樣的方式有一種“情感距離” 。
“我們不能利用算法來逃避做出艱難的決策,或者推卸我們關心他人的責任。在這些情況下,算法不是答案。單靠數學無法解決根深蒂固的社會問題,試圖依靠它只會加劇系統中已經存在的不平等現象。”
在決定是否進行自動化之前,我們需要仔細審視系統可能影響的人以及判斷影響可能是什么,并確定當前系統中已經存在的不平等因素。
可用的數據是否真的能帶來好的結果?
算法依賴于輸入的數據,而且需要正確的數據來確保正常運行。在實施依賴算法的決策系統之前,組織需要深入研究他們試圖解決的問題,并且對他們是否有解決問題所需的數據進行一些誠實的思考。
Eubanks書中討論了另一個案例,賓夕法尼亞州阿勒格尼縣的兒童,青年和家庭(CYF)部門實施了一種算法,為每個報告給該機構的潛在虐童事件中的兒童打一個“威脅分數”,并幫助案件工作人員決定哪些報告應該進行調查。該算法的目標是常見的:幫助社會服務機構最有效地利用有限的資源來提供社區服務。
為了實現他們的目標,該縣試圖預測哪些兒童可能成為被虐待的受害者,即“目標變量”。但該縣沒有足夠的關于與虐童有關的死亡率或近似死亡率的數據來構建具有統計學意義的模型,因此他們使用了有足夠數據的兩個變量——社區再轉診CYF的熱線數和兩年內寄養兒童數,作為兒童虐待數的替代指標。這意味著該縣的算法可以預測兒童再轉診以及寄養的可能性,并利用這些預測結果對兒童的虐待威脅打分。
其中的問題顯而易見。
這些替代變量并不是有關虐童數據的有效替代。
首先,它們是主觀的。再次轉診這一變量包含了隱藏的偏見:“匿名以及那些被強制要求的記者報道黑人和混血兒家庭虐童和忽視兒童的頻率比他們報道的白人家庭多三倍半”。
有時甚至是那些兇惡的鄰居,房東,或者家庭成員故意虛假舉報來作為懲罰或報復,正如Eubanks在自動化不平等中所寫的那樣,“預測模型需要清晰明確的步驟,并且有大量相關數據才能正確運行。”這些標準在阿勒格尼縣尚未完全滿足。不管怎么說,CYF推進并實施了一項算法。
這一精度有限的算法導致了什么結果?
在2016年出現了15,139次虐童報道。其中,該算法錯誤預測了3633個個案。這一結果無端侵入和監視了數千個貧窮的少數人的家庭的生活。
該算法是否公平?
缺乏足夠的數據也可能使算法的應用缺乏公平。
例如,阿勒格尼縣沒有所有家庭的數據;其數據僅從使用公共資源的家庭收集——即低收入家庭。
這導致了一種只針對低收入家庭進行研究的算法,并且可能產生反饋循環,使得進入系統的家庭難以完全擺脫它所需的監管。這個結果冒犯了公平的基本概念。對受到不利影響的阿勒格尼縣家庭來說肯定不公平。
算法公平有很多評判標準。
算法是采用相同的方法對待不同組還是對它們分別研究?系統是否為追求公平,公共安全,平等或有效資源配置而優化?
是否有機會讓受到影響的社區參與并影響決策中關于算法設計,實施和使用的過程,包括關于如何衡量公平性?在算法造成任何不當損害之前,是否有機會讓那些受到不利影響的人在受到實質性傷害以前能尋求有意義并且迅速的審查?
組織應該對所采用的公平標準保持透明度,并且應該讓各種利益相關者參與公平準則的制定,包括(也是最重要的)將會直接受到影響的社區。如果算法沒有通過,它就不應該是解決措施。在實施基于算法決策的系統的情況下,應該有一個持續的審查過程來評估結果并校正任何不當的影響。
結果如何真正被人類使用?
另一個組織必須考慮的因素是結果將如何被人類使用。
在阿勒格尼縣,盡管該算法的“威脅評分”應該作為案件工作者在決定調查哪些家庭之前考慮的眾多因素之一,但Eubanks觀察到在實際操作中,算法似乎在訓練參與的工作者。
根據以往經驗,案件工作者的判斷有助于消除隱藏的偏見。當利用算法來解決問題,并且個案工作者開始用算法的結果替代他們自己的判斷時,他們完全放棄了他們的看門人角色,使得系統變得更加階級化并且帶有種族偏見。
算法決策往往因其超越人類本能的優越性而被吹捧。將機器學習視為客觀和內在的可信趨勢被稱為“自動化的偏見”。當我們嘗試做決策時,無疑會存在許多認知偏差;自動化偏見則又增加其中的復雜度。
正是因為我們是人類所以才存在這種偏見(也包括其他許多方面),如果算法的結果是做決策時考慮的唯一因素,組織機構必須構建一個能夠控制自動化偏見的系統。
這包括設計算法來提供闡述性的報告而不是僅是一個分數,并確保決策者受過有關統計學以及那些他們要運用的特定算法的潛在缺點的基礎培訓。
在某些情況下,決策者會偏向算法的提供的答案的可能性足以阻止算法的應用。例如,這包括為了確定刑罰而預測累犯率。在威斯康星州,法院支持使用COMPAS算法來預測被告的再犯概率,法官是最終做出決定的人。認為法官的“本心”并未受到算法的負面影響的想法天真不靠譜的,因為人會本能的相信機器。
一項關于算法風險評估對肯塔基州法官的影響的研究發現,算法只在很短的時間內影響法官的決策,之后他們就按著以前的習慣行事,但是這些影響可能會因不同的法官群體而有所不同,而且即使是一個罪犯受到了影響,但由于這種影響使其失去了自由,這也是很嚴重的。
由于判刑這件事情過于重大,以及預測再犯率是一個嚴肅問題(該系統“基本上將黑人罪犯妖魔化,而認為白人罪犯是懷疑有罪”),在這種情況下使用算法是不適當,不道德的。
受這些決策影響的人會對系統產生影響嗎?
最后,算法應服務于受其影響的群體,而不是不擇手段地節省時間和資源。
這要求數據科學家考慮到被影響群體的恐慌和擔憂。但是數據科學家通常遠離那些算法影響的群體。
正如《數學性破壞武器》(《Weapons of Math Destruction》)的作者Cathy O'Neil在今年早些時候告訴Wired時說道:“我們完全阻隔了構建算法的人與受到它們實際影響的人之間的聯系。”即使是最好的系統也會注定產生嚴重的意外反作用,無論何時都是如此。
在實施算法之前,必須要解決數據科學家,組織實施者和受影響群體之間聯系斷層的問題。
O'Neil建議數據科學家可以考慮那些受系統影響的所有利益相關者的關注點,來編制一個“道德矩陣”,以闡明所有這些相互矛盾的含義,動機和考慮因素,使得數據科學家考慮到他們的設計的深遠影響。
“受影響的群體也應該有機會來評估,糾正和影響這些系統。”
正如衛報指出的那樣,“不良意圖下產生的不良AI是不需要的”。任何基于算法決策的系統都是如此。即使是最好的系統也會造成嚴重的傷害,特別是當一個組織不反省,也不考慮使用算法決策是否合乎道德的的時候。這些問題僅僅是起點,并不能保證在回答這些問題后算法就能產生公平的結果,但它們是所有組織在實施依賴算法的決策系統之前應該自問的問題。