這是過去一年左右的時間里,一個新興的主題“機器學(xué)習(xí)的機器學(xué)習(xí)”的一個例子。機器學(xué)習(xí)數(shù)據(jù)目錄(MLDC)、概率或模糊匹配、自動化訓(xùn)練數(shù)據(jù)注釋和合成數(shù)據(jù)創(chuàng)建都使用機器學(xué)習(xí)來為下游的后續(xù)機器學(xué)習(xí)生成或準備數(shù)據(jù),通常可以解決數(shù)據(jù)稀缺或分散的問題。這一切都很好,直到我們開始考慮到機器學(xué)習(xí)本身就依賴歸納推理,因此從本質(zhì)上來說它是基于概率的。
想象一下在現(xiàn)實中的情況:醫(yī)療保健服務(wù)提供者希望利用計算機視覺來診斷罕見疾病,由于數(shù)據(jù)缺乏,自動注釋器用于創(chuàng)建更多訓(xùn)練數(shù)據(jù)(更多標記圖像),開發(fā)人員設(shè)置了90%的傾向閾值,這意味著只有達到了90%或以上準確分類概率的記錄才會被用作訓(xùn)練數(shù)據(jù)。一旦模型被訓(xùn)練和部署,它就被用于患者,這些患者的數(shù)據(jù)通過文字數(shù)據(jù)字段的模糊匹配,從多個數(shù)據(jù)庫鏈接一起。來自不同數(shù)據(jù)集的實體只要具有90%的相同概率就可以匹配在一起。最后,該模型標記的圖像具有90%或更高可能性患有診斷所描繪的疾病。
問題在于,數(shù)據(jù)科學(xué)家和機器學(xué)習(xí)專家只關(guān)注最終傾向得分,以表示預(yù)測的整體準確性。這導(dǎo)致培訓(xùn)數(shù)據(jù)的準備在具有演繹性和確定性的世界中運作良好,但是當你在概率之上引入概率時,最終的傾向得分就不再準確了。在上面的例子中,有一種觀點認為,準確診斷的可能性從90%降低到了73%(90% x 90% x 90%),這在生死攸關(guān)的情況下并不理想。
隨著對人工智能可解釋性的需求越來越強烈,需要建立一個新的分析治理框架,要囊括機器學(xué)習(xí)過程中包含的所有概率,從數(shù)據(jù)創(chuàng)建到數(shù)據(jù)準備、培訓(xùn)再到推理。如果沒有它,過分地夸大傾向評分可能將誤診患者、錯誤地對待客戶、并在關(guān)鍵決策時誤導(dǎo)企業(yè)和政府。