這一錯誤也讓發起這項測試、反對警方使用“Rekognition”的美國公民自由聯盟(ACLU)抓到把柄,他們表示,測試結果引起了民眾對警方使用該系統的嚴重擔憂。7月26日,ACLU在其網站披露:該組織對“Rekognition”進行了測試,結果系統錯誤地將28名國會議員識別為曾因犯罪而被捕的人員。
所以,人工智能應用被吹得熱熱鬧鬧,場景令人振奮,但是,真要付諸應用,人們對這些系統信任度存在疑問,可能產生嚴重后果。怎么能提供這些系統的高可信性呢?這就要深入到每一個具體系統,進行科學分析。本月IEEE Spectrum 2018/8發表一篇文章,“MAKING MEDICAL AI TRUSTWORTHY”,很有參考價值。
醫藥工業領域是人工智能系統應用的理想之地。醫學檢驗、醫生的面談和過程被成文為患者病歷,存為電子格式。AI系統可以摘要這些數據,從而決定較好和性價比較高的治療方案。現在許多研究都在建造這種系統,許多文章描述關于分析紀錄、掃描圖像、產生患者健康的診斷和預言。譬如下圖所示一個低分辨率的反映心臟跳動的心動圖,用AI程序分離,取出最相關的部分,然后用解剖學的理解去進行診斷。
這類文章很多,但是,這些系統很少能進入醫院里實際應用。
為什么會這樣?匹茲堡大學的醫學研究專家和物理學家Shinjini Kundu說:問題在于信任方面,你有可行的技術,但你怎么能得到人們的信任而使用之?
許多醫用AI系統是個黑盒子,輸入數據,得出答案。醫生們搞不懂它為什么要這么處理。所以,Kunda研究AI對醫學圖像的分析與解釋。她從對醫學圖像,譬如核磁共振圖像,機器學習開始,從而發現醫生感興趣的模式。
Kunda最近用AI分析膝蓋核磁共振圖像(MRI),分析三年內會發展為骨關節炎的可能性。她用“生長模型化”技術,用AI產生一個新圖像,一個保證會發病的圖像。Kunda解釋說,他們開發了一個黑盒子分類器,去產生一個圖像,顯示支持其診斷的模式。
人眼無法根據下圖的MRI圖像判斷患者三年內是否會得關節炎,譬如上左圖不會,但上右圖就會得關節炎。而AI程序進行統計分析可以得出幾倍方差范圍內得這種病的概率。
AI產生的圖像基于MRI掃描軟骨的微妙變化,這些變化可能是醫生們沒有注意到的。這幫助人們去理解過去治關節炎的過程為什么沒注意到。
舊金山加州大學助理教授、心臟病專家Rima Arnaout訓練一個神經網絡去分類超聲波心電圖,在分辨微小而低分辨率圖像方面比心臟病專家精確多了。下一步將用該圖像信息去識別解剖結構和診斷心臟疾病和缺陷。
但是,Arnaout說:“我不會去做自己無法信服的診斷。”她用兩個技術去搞懂她的分類器是怎么做出決定的。在封閉試驗中,他考察測試圖像的部分變化如何改變AI的回答;用顯著圖,她跟蹤神經網絡的最后回答返回到原圖,去發現什么像素權重最高。這兩技術說明圖像的那些部分對AI做出結論最重要,正和專家看重的結構相重合。
微軟一位骨干研究人員Rich Caruana十年來一直致力于一項研究,就是讓機器學習模型不但是智能的,而且是可以理解的。他用AI拿醫院的電子病歷去預計患者的結果。他發現即使是高度精確的模型也隱藏著嚴重的缺陷。他引用他對肺癌患者的數據集,訓練機器學習模型去區分該入院的高危患者和可在家恢復的低危患者。該模型發現有心臟病的人較少死于肺炎,可以安心地算作低危人群。他解釋說,診斷有肺炎的心臟病患者其所以結局較好,不是因為他們低危險,而是如果他們的呼吸困難早就進了急診,從而得到治療。模型發現的這種關聯性是正確的。但是,假如我們用這種關聯性去干預衛生保健,我們可能傷害甚至殺死某些患者。由于這些麻煩的發現,他正在研究清楚顯示變量相關的機器學習模型,讓它判斷模型不但統計意義上精確,而且醫學上可用。
所以,人工智能應用需要應用領域專家的深入分析、嚴格的測試過程、有效的容錯技術,才能保證人工智能應用系統的安全可靠,人們才能放心使用。