數據和機器學習算法所帶來的洞察可能是無價之寶,但是錯誤會損害你的聲譽,影響你的收入甚至生命安全。這些引人注目的分析和人工智能錯誤說明了一切可能出問題的地方。
2017年,《經濟學人》宣布數據(而非石油)已成為全球最具價值的資源。從那以后,這樣的評論屢見不鮮。各行各業的組織都已經在數據和分析方面進行大量投資并將持續投資。但是和石油一樣,數據和分析也有不利的一面。
根據IDG公布的《2020年首席信息官現狀報告》,有37%的IT領導者表示,今年,數據分析將成為組織最大的IT投資。機器學習算法驅動的分析和行動可以帶來各種洞察,而這些洞察又可以為組織帶來競爭優勢,但是錯誤在聲譽,收入甚至生命安全方面都可能造成巨大的損失。
了解你的數據及其含義很重要,但是了解你的工具,數據并牢記組織的價值觀也同樣重要。
下面來看看發生在過去十年的一些引人注目的分析和人工智能錯誤,以此來說明一切可能出問題的地方。
英國因為電子表格數據超出規定限制而丟失了數千起冠狀病毒病例
2020年10月,負責清點新的冠狀病毒感染的政府機構英國公共衛生局(PHE)透露,在9月25日至10月2日之間有近16000例冠狀病毒病例沒有列入報告,而問題的罪魁禍首就是Microsoft Excel的數據限制。
英國公共衛生局使用自動化流程將冠狀病毒陽性實驗測試結果以CSV文件的格式傳輸到報告儀表板和聯系人跟蹤所使用的Excel模板中。不幸的是,每個Excel電子表格最多支持1048576行和16384列。而且,英國公共衛生局將病例列為列而不是行。當病例超過16384列的限制時,Excel會切斷底部的15841條記錄。
雖然發生了“小小的故障”,但這并沒有阻止接受測試的人獲得測試結果,但這確實阻礙了聯系追蹤的工作,使英國國家衛生局(NHS)難以發現與感染者有密切聯系的人并向他們發送通知。英國公共衛生局的臨時首席執行官Michael Brodie在10月4日發表的聲明中說,NHS Test and Trace應用和英國公共衛生局迅速解決了該問題并將所有沒有記錄的病例立即轉移到NHS Test and Trace的聯系人跟蹤系統中。
英國公共衛生局實施了“快速緩解”措施,該措施可拆分大文件并對所有系統進行了全面的端到端評估以避免類似事件重蹈覆轍。
醫療算法無法標記黑人患者
在2019年,《科學》雜志上發表的一項研究顯示,全美的醫院和保險公司使用醫療預測算法來識別需要納入“高風險護理管理”計劃的患者,而這個算法不太可能特別選出黑人患者。
高風險護理管理計劃為長期病患者提供訓練有素的護理人員和初級護理監測以防止他們出現嚴重的并發癥。但是,該算法更有可能推薦白人患者而不是黑人患者。
該研究發現,該算法以醫療支出作為指標了確定個人醫療需求。但是《科學美國人》的報道稱,病情較為嚴重的黑人患者的醫療費用與病情較輕的白人患者的醫療費用相當,這意味著即使前者的需求更大,他們的風險評分也還是比較低。
開展該研究的研究人員認為有幾個因素導致了這個結果。首先,有色人種的收入很可能較低,即使他們有醫保也很可能無法獲得醫療服務。隱性偏見也可能導致他們無法獲得優質的護理。
盡管該研究沒有提算法或開發者的名字,但研究人員告訴《科學美國人》,他們正在與開發者合作解決這種情況。
經由數據集訓練的微軟聊天機器人發了帶有種族主義色彩的推文
2016年3月,微軟獲悉,使用推特互動作為機器學習算法的訓練數據可能會產生令人失望的結果。
微軟在社交媒體平臺上發布了人工智能聊天機器人Tay并稱其為對“對話理解”所做的實驗。“對話理解”基于這樣一種想法,即聊天機器人化身為一個青少女與人進行互動,其方法是使用結合了機器學習和自然語言處理功能的推特。微軟使用匿名的公共數據和喜劇演員事先編寫的一些笑料來使其內容更豐富,然后放任其在社交網絡的交互中學習和發展。
在短短16小時的時間內,聊天機器人發布了95000多條推文,這些推文瞬間變調了,充斥著明顯的種族主義,對女性的厭惡和反猶太主義。微軟迅速暫停了該服務以進行調整并最終停用了Tay。
微軟研究與孵化公司的副總裁Peter Lee表示(時任微軟醫療的公司副總裁):“盡管Tay無意冒犯,但還是發了令人發指的推文,對此我們深表歉意。這些推文既不代表微軟的立場,也不代表微軟設計Tay的方式。事發后,Lee在微軟官方博客上發了這樣的博文。
Lee指出,Tay的前身即微軟于2014年在中國發布的Xiaoice,Xiaoice在Tay發布前的兩年時間里已成功與超過4000萬人進行了對話。微軟沒有考慮到的情況是有一群推特用戶立即開始向Tay發推文,其中包括種族主義和厭惡女性的言論。該機器人很快從這樣的材料中學到了這樣的內容并將其納入自身的推文中。
“盡管我們已經準備好應對多種濫用系統的情況,但我們對這種特定的攻擊疏于監督。結果,Tay在推特上發了極為不當且應該受到譴責的文字和圖像”,Lee這樣寫道。
支持Amazon AI的招聘工具僅推薦男性
和許多大公司一樣,亞馬遜希望獲得有助于HR篩選工作申請以尋找最佳人選的工具。2014年,亞馬遜開始研究基于人工智能的招聘軟件。只是有這樣一個問題:該系統極力推薦男性候選人。2018年,路透社爆料稱亞馬遜已經取消了該項目。
亞馬遜的系統為候選人實施了從1分到5分的星級評分制。但是,系統核心的機器學習模型接受了訓練,對其進行訓練的是10年以來所有求職者提交給亞馬遜的簡歷,而其中大多數簡歷是男性提交的。由于使用了這些培訓數據,系統漸漸挑剔簡歷中的某些字眼,其中包括“女性”一詞,甚至將所有畢業于女子大學的候選人降級。
當時,亞馬遜表示,亞馬遜招聘人員從未使用該工具來評估候選人。
亞馬遜試圖修改該工具以使其中立化,但最終還是無法保證它不會學習其他會對候選人產生歧視的分類方式,因此該項目遭到終止。
塔吉特的分析侵犯了隱私
在2012年,零售業巨頭塔吉特(Target)的一項分析項目展示了這樣一個事實。即公司到底可以從其數據中了解多少客戶信息。據《紐約時報》報道,在2002,塔吉特的市場部年向知道公司可以通過方式確定客戶是否懷孕。這個問題催生了一個預測性分析項目,該項目導致該零售商無意間向一個十幾歲的女子的家庭透露了她懷孕的情況,這引起了軒然大波。反過來又導致各種文章和營銷博客鋪天蓋地地引用這一事件,以此作為避免“令人發紫的因素”的建議的一部分內容。
塔吉特的市場部希望識別懷孕的人,因為在生命中的某些時期人們很有可能從根本上改變購買習慣,其中最重要的是懷孕期。如果塔吉特可以在這個時期接觸到處于懷孕期的客戶,它就可以在這些客戶中培養新的購物行為,使她們到塔吉特購買雜貨,服裝或其他商品。
與所有其他大型零售商一樣,塔吉特一直通過購物碼、信用卡、調研等收集與客戶有關的數據。它將數據與所購買的人口特點統計數據和第三方數據混合在一起。只要對所有這些數據進行處理,塔吉特的分析團隊就可以確定其出售的大約25種產品可以一起進行分析以產生“懷孕預測”分數。然后,市場部可以通過優惠券和營銷信息來針對高分客戶。
進一步研究表明,研究客戶的生育狀況可能會使其中一些客戶感到十分不安。據《泰晤士報》報道,塔吉特并沒有放棄其精準營銷,但它確實開始摻入了一些其他東西的廣告,即明知道孕婦不會購買的東西(包括在尿布廣告旁邊添加除草機廣告),從而混淆視聽。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。