自大約10年前開始崛起以來,人工智能背后的神經網絡技術從數據中學習和識別模式的能力越來越強,從電子郵件到藥物發現,這種能力已經改變了一切;但這種能力也帶來了一個神秘的警告:現代深度學習網絡之所以能夠成功地自學駕駛汽車和發現保險欺詐正正是因為其自身的復雜性,但這種復雜性也使得它們的內部工作復雜得幾乎不可能被理解(即使是人工智能專家)。如果訓練一個人工神經網絡來識別患者患上肝癌與精神分裂癥的風險(2015年在紐約西奈山醫院就有一個這樣的人工智能,“Deep Patient”),我們沒有辦法分辨這個神經網絡究竟在關注著哪些數據,這種“知識”牽涉到許多層人工神經元,每一層都有成百上千的神經連接。
隨著越來越多的行業試圖用人工智能來實現自動化或增強決策能力,這個所謂的“黑匣子”問題看起來更像是一個根本性缺陷,而不像是一個技術怪癖。DARPA的“XAI”項目(“可解釋的AI,explainable AI”縮寫)正在積極研究這個問題,人工智能的可解釋性已經從機器學習研究的邊緣轉移到了研究的中心。Kim說:“人工智能正處于非常關鍵的時刻,人類在試圖決定這項技術對我們是否有益,如果我們不解決這個可解釋性問題,我認為我們不會推進這項技術,我們可能會放棄人工智能。”
Kim和她在Google Brain的同事最近開發了一個名為“概念激活向量測試”(TCAV)的系統,她將其描述為“人類的翻譯”,它允許用戶詢問一個黑匣子AI一個特定的、高水平的概念在其推理中發揮了多大作用。例如,如果一個機器學習系統被訓練去識別圖像中的斑馬,那么一個人就可以利用TCAV系統來確定機器學習系統在做決定時,“條紋”這個概念在機器學習系統中的權重有多少。
TCAV最初是在訓練識別圖像的機器學習模型上進行測試的,但它也適用于以文本和某些數據可視化訓練(腦電圖波形)的機器學習模型。“它既通用又簡單——你可以把它插入許多不同的模型中,”Kim說。
Kim接受了采訪,探討了可解釋性的含義、用途以及重要性。以下是經過編輯的采訪內容。
問:您的職業生涯專注于機器學習的“可解釋性”,但是這個術語到底是什么意思呢?
可解釋性有兩個分支。一個分支是科學的可解釋性:如果你把神經網絡作為研究對象,那么你就可以進行科學實驗來真正理解模型血淋淋的細節,它是如何反應的,以及諸如此類的事情。
可解釋性的第二個分支,也是我一直關注的,是負責任的人工智能的可解釋性。你不需要完全理解人工智能模型,但最起碼你要理解得足夠多去安全地使用這個工具,這就是我們的目標。
問:但如果您并不完全了解一個系統的工作原理,那您怎么能對它有信心呢?
我來打個比方,假設我后院有一棵樹,我想把它砍倒,我可能會用鏈鋸來完成這項工作,但現在我不完全明白鏈鋸的工作原理,不過說明書上說:“這些是你需要小心的事項,以免割傷你的手指。”所以,有了這本說明書,我寧愿用電鋸也不愿用手鋸,因為手鋸雖然更容易理解,但用手鋸砍一棵樹會讓我花上5個小時的時間。”
問:您知道什么是“切割”,即使您并不完全知道這個機制如何實現切割。
是的??山忉屝缘诙€分支的目標是:我們對一個工具的理解是否能到達一個僅僅能讓我們安全使用這個工具的程度?我們可以通過確認有用的人類知識在工具中的反映來建立這種理解。
問:“反映人類知識”如何能讓類似黑匣子般的人工智能更容易理解?
這里再舉一個例子,如果醫生使用機器學習模型來進行癌癥診斷,醫生會想知道這個模型并沒有在數據中提取我們不想注意到的隨機相關性。確保這一點的一種方法是確認機器學習模型正在做醫生會做的事情,也就是說,醫生自身的診斷知識會反映在模型中。
因此,如果醫生正在觀察細胞標本來診斷癌癥,他們可能會在標本中尋找一種叫做“融合腺體”的東西。他們可能還會考慮患者的年齡,以及患者過去是否接受過化療,這些都是醫生在診斷癌癥時會關心的因素或概念,如果我們能證明機器學習模型也在關注這些因素,這個模型就變得更容易理解,因為它反映了醫生的人類知識。
問:這就是TCAV的功能嗎?揭示機器學習模型使用哪些高級概念來做決策?
是的。在此之前,可解釋性方法僅從“輸入特征”的角度解釋神經網絡在做什么。我這話是什么意思?如果你有一幅圖像,每一個像素都是一個輸入特征。事實上,揚·勒丘恩(早期深度學習的先鋒,目前是Facebook人工智能研究主管)曾表示,他認為這些模型的可解讀性已經非常高了,因為你可以看到神經網絡中的每個節點和這些輸入的數值特性。這對于計算機來說是很清晰,但是對人類來說就不是這么回事了。我不會跟你說,“看看像素100到200,RGB值分別是0.2和0.3。”我只會說:“這有一張狗的照片,它的毛很蓬松。”這才是人類交流的方式,我們通過概念交流。
問:TCAV如何在輸入特性和概念之間執行這種轉換?
讓我們回到一個醫生使用機器學習模型的例子,這個模型已經被訓練過用來識別潛在癌癥細胞的圖片。而作為醫生,你可能想知道“融合腺體”這個概念對模型預測癌癥陽性有多大的影響。首先你要收集一些有腺體融合例子的圖像,比如說20張,然后將這些標記好的示例插入到模型中。
然后TCAV在內部所做的流程叫做“敏感性測試”。當我們插入這些融合腺體的標記圖片時,癌癥的陽性預測概率會增加多少?你將其用0到1之間的數字來描述,這就是你的 TCAV 分數。如果概率增加,那這是模型的一個重要概念,如果沒有,那這對模型來說就不是一個重要的概念。
問:“概念”是一個模糊的術語,有沒有概念是不能利用TCAV系統的呢?
如果你不能使用你數據集的某個子集來表達你的概念,那么它就不能使用這個系統。如果您的機器學習模型是基于圖像進行訓練的,那么這個概念必須是可視的。比方說,我想要在視覺上直觀地表達“愛”的概念,那這就真的很難。
我們還仔細驗證了這個概念。我們有一個統計測試程序,如果概念向量對模型的影響與隨機向量相同,它就會拒絕這個概念向量。如果你的概念沒有通過這個測試,TCAV會說:“我不知道,這個概念看起來對模型并不重要。”
問:TCAV的本質是創造人類對AI的信任,而不是創造對AI的真正理解嗎?
它不是,我會解釋為什么,因為這是一個很好的區別。
我們從認知科學和心理學的反復研究中得知,人類非常容易上當受騙。這意味著欺騙一個人去相信某些東西其實是很容易的。而機器學習的可解釋性目標正好相反,它在告訴你一個系統是不是不安全,它是在揭示真相,所以用“信任”這個詞并不恰當。
問:所以可解釋性的關鍵在于揭示人工智能推理中的潛在缺陷嗎?
是的,沒錯。
問:它如何暴露這些缺陷?
你可以使用TCAV詢問一個訓練過的模型一些不相關的概念?;氐结t生使用人工智能預測癌癥的例子,醫生們可能會突然想,“看起來這臺機器對很多帶有藍色偽影的圖像給出了癌癥的陽性預測,我們認為那個因素不應該被考慮進去。”因此,如果他們在藍色這方面獲得了TCAV高分,他們就發現了自己的機器學習模型中的一個問題。
問:TCAV被設計成連接到現有的無法解釋的AI系統上,那為什么不從一開始就使AI系統變得可以解釋,而不是現在的這些黑匣子?
可解釋性研究有一個分支關注于構建固有可解釋性的模型,這些模型反映人類如何推理。但我認為:現在到處都已經有人工智能模型,它們已經構建好了,而且已經被賦予重任,但它們從一開始就沒有考慮過可解釋性,這就是事實,我們在谷歌就有很多這種人工智能模型。當然你也可以說“可解釋性非常有用,讓我來為你建立另一個模型來代替你已有的模型吧。”但如果你要非得這樣做的話那我只能祝你好運了。
那么你會怎么做呢?我們仍然需要度過這個決定這項技術是否對我們有益的關鍵時刻。這就是為什么我采用“培訓后”的可解釋方法。如果你有一個別人給你的模型,但是你不能改變它,那么為了能夠安全地使用它,你要怎么去解釋它的行為?這,就是TCAV所做的工作。
問:TCAV可以讓人類詢問AI某些概念對它是否重要。但如果我們不知道該問什么呢?如果我們想讓人工智能系統自己解釋自己呢?
我們現在正在著手的工作可以自動為你發現概念。我們稱它為DTCAV (Discover TCAV)。但實際上我認為讓人類參與其中、讓機器與人類進行對話才是可解釋性的關鍵。
很多時候,在高風險的應用中,這些領域的專家們已經有了他們所關心的概念。我們在Google Brain的醫學應用中可以看到這種重復,他們不希望得到某組概念,他們想告訴模型他們自己感興趣的概念。我們和一位治療糖尿病視網膜病變(糖尿病視網膜病變是一種眼科疾病)的醫生合作,當我們告訴她TCAV的時候,她很興奮,因為她已經有了很多關于這個模型可能做什么的假設,現在她可以測試那些確切的問題。這實際上是一個巨大的優勢,也是一種以用戶為中心的協作機器學習方式。
問:您認為如果沒有可解釋性,人類可能會放棄人工智能技術。但考慮到人工智能的強大,您真的認為這是一種現實的可能性嗎?
是的,我是這樣認為的,專家系統就是這樣的前車之鑒,(在上世紀80年代)我們發現,它們執行某些任務的成本低于人工操作員。但是現在還有人在用專家系統嗎?一個都沒有,在那之后我們進入了人工智能的冬天。
現在看來不太可能,那是因為人工智能領域的炒作和資本在作祟。但從長遠來看,我認為人類可能會做出自己決定,也許是出于恐懼,也許是缺乏證據,這個決定會認為這項技術不適合我們,這不是不可能的。