隨著對使用稱為卷積神經網絡(CNN)的計算機系統框架來分析醫學成像并提供計算機輔助診斷的興趣的增長,最近的研究表明,AI圖像分類可能不會推廣到新數據以及通常描繪的。
西奈山伊坎醫學院的研究人員評估了AI模型如何在三個醫療機構的158,000個胸部X光片中發現肺炎:美國國立衛生研究院; 西奈山醫院; 和印第安納大學醫院。研究人員選擇研究胸部X射線肺炎的診斷,因為它在研究界普遍存在,臨床意義和流行。
在五分之三的比較中,CNN在診斷自己網絡外醫院的X射線疾病方面的表現明顯低于原始衛生系統的X射線。然而,有線電視新聞網能夠以高度準確的方式檢測出獲得X射線的醫院系統,并根據培訓機構中肺炎的流行情況對其預測任務作弊。研究人員發現,在醫學中使用深度學習模型的難點在于它們使用大量參數,因此難以識別推動預測的特定變量,例如醫院使用的CT掃描儀類型和成像的分辨率質量。
“我們的研究結果應該暫停那些考慮快速部署人工智能平臺的人,而不是嚴格評估他們在現實臨床環境中的表現,反映出他們的部署地點,”資深作者Eric Oermann博士說,他是伊坎學院神經外科學講師在西奈山的醫學。“經過培訓以進行醫學診斷的深度學習模型可以很好地概括,但這不能被視為理所當然,因為不同機構的患者人群和成像技術存在顯著差異。”
“如果要將CNN系統用于醫療診斷,必須對其進行定制,以便仔細考慮臨床問題,針對各種現實情況進行測試,并仔細評估以確定它們如何影響準確診斷,”第一作者John Zech說,西奈山伊坎醫學院的一名醫科學生。
這項研究建立在今年早些時候發表在放射學和自然醫學期刊上的論文的基礎上,該論文奠定了應用計算機視覺和深度學習技術(包括自然語言處理算法)的框架,用于識別CT掃描放射學報告中的臨床概念。