Facebook 宣布內部軟件工具開發,以便在2018年5月搜索訓練數據集中的偏見。從那時起,Amazon,Microsoft 、,Google以及最近IBM 宣布了開源工具,用于檢查訓練模型中的偏差和公平性。
以下是這些工具的設計目標,彼此之間的立場,以及為什么IBM的信任和透明度公告很重要。
AI公平挑戰
AI的核心挑戰是深度學習模型是“黑盒子”。 對于僅僅是人類來說,理解各個訓練數據點如何影響每個輸出分類(推理)決策是非常困難的 - 并且通常根本不可能。 術語“不透明”也用于描述這種隱藏的分類行為。 當您無法理解系統如何做出決策時,很難相信系統。
在機器學習開發者社區中,與opaque相反的是“透明”。 透明的深度學習模型將以可理解的方式揭示其分類過程,但是創建透明模型的研究仍處于早期階段。
2018年1月,一大批中國組織參與了人工智能標準化白皮書。 白皮書承認人工智能中的道德問題,尚未提供補救措施,并說:
“我們也應該警惕人工智能系統制定有道德偏見的決策。例如,如果大學使用機器學習算法來評估錄取,并且用于訓練的歷史錄取數據(有意或無意)反映了先前錄取程序(例如性別歧視)的一些偏見,那么機器學習可能會在重復計算期間加劇這些偏差。 ,造成惡性循環。如果不加以糾正,就會以這種方式在社會中存在偏見。“
白皮書的貢獻者包括:阿里云(阿里云),百度,中國電信,華為,IBM(中國),英特爾(中國),騰訊等等。我相信這些組織也在努力解決培訓AI系統中的偏見和歧視問題,但尚未公開宣布工具。
人工智能的公平狀態
Facebook的
Facebook在其2018年5月的公告中僅通過名稱確定了其中一個內部反偏見軟件工具。 “公平流程”衡量模型如何與特定人群互動。 Facebook的團隊與幾所學校和研究所合作開發其工具。 Facebook尚未公開發布其Fairness Flow工具。
亞馬遜
AWS于2018年7月發布了一篇博客,該博客在準確性,誤報率和誤報率方面構建了機器學習公平性。但AWS還沒有發布開發人員工具來評估模型培訓其他方面的公平性。
微軟
Microsoft Research于2018年7月發表了一篇論文,描述了二進制分類系統的公平算法,以及實現該算法的開源Python庫。微軟的工作包括預處理培訓數據和后處理模型輸出預測。但是,它不是作為高級開發人員工具實現的;它適用于熟悉深度學習代碼的Python開發人員。
谷歌
2018年9月,Google的People + AI Research(PAIR)計劃比僅提供開發人員庫更進一步,宣布其“假設工具”。假設分析使開發人員能夠在視覺上分析輸入數據集和訓練的TensorFlow模型并包含公平性評估。谷歌的假設分析工具現在是其開源TensorBoard Web應用程序的一部分。
IBM
在谷歌的假設公告發布一周后,IBM通過宣布可與任何機器學習模式配合使用的可視化開發人員工具,使谷歌獲得了一席之地。 IBM的品牌AI OpenScale工具使開發人員能夠使用任何集成開發環境(IDE)分析任何機器學習模型。 IBM還開放了其機器學習公平工具作為AI Fairness 360工具包。 IBM使用Kubernetes編排將其機器學習工具鏈集裝箱化,并可在任何公共云中運行(不出所料,其IBM OpenScale教程在IBM Cloud上的Watson Studio中運行)。
人工智能公平的透明度和開源
最終,在訓練有素的機器學習模型中解決偏差的最佳答案將是構建透明模型。但是因為我們還不知道如何做到這一點,今天的深度學習模型就是黑盒子。因此,偏差和公平性評估工具必須檢查每個模型的輸入數據集和輸出推斷結果。我相信更多工具將遵循這條道路。
目前,IBM的開源AI公平工具包通過在任何公共云上使用任何模型類型樹立了一個很好的例子。