通常大數據是指數據量和數據維度均很大,數據形式也很廣泛,如數字、文本、圖像、聲音等等。在醫學領域,隨著信息化的不斷深入,醫學數據也越來越豐富,其中醫學影像數據是一個十分重要的組成部分,而且,醫學影像信息被數字化、數據化后形成了豐富多樣的、存儲量龐大的醫學大數據。今天,我們就討論一下利用醫學影像大數據推動智能化醫療發展方面的話題。
IBM的智能醫學影像分析項目-Watson計劃
據報道,IT巨頭IBM將以10億美元收購醫學成像設備提供商Merge Healthcare,后者主要幫助醫生和醫院存儲和分析CAT斷層掃描、X射線以及其他醫學影像。IBM計劃將Merge的技術整合到自身的Watson人工智能技術中去。IBM認為,Watson的認知計算能力在醫學造影方面完全可以辨別患者應該接受X射線、CAT還是核磁共振,現在獨缺的是客戶以及醫學影像資料,而這恰好也是Merge可以提供的資源。
目前醫療數據中有超過90%來自于醫學影像,但是這些數據大多要進行人工分析。如果能夠運用人工智能技術分析醫學影像,并將影像與醫學文本記錄進行交叉對比,就能夠極大地降低醫學診斷上的失誤,幫助醫生精準診斷,挽救患者生命。
IBM的Watson計劃想法很好,但是依然存在著諸多挑戰。最大的問題在于如何證明這個計劃的效果,如何向健康保險公司證明對于Watson的投資物有所值。具體地說,Watson計劃能否真正地讓患者得到準確的診斷,傳統的放射科醫師忽略的診斷方面的問題能否讓IBM的智能技術發現。
中國人“數字肺”項目
我們再回過頭來看看國內。進入數字化時代,數字化、標準化、網絡化、海量存儲和大數據的應用,已成為醫學發展的主流方向和重要標志。大數據的發展要求醫院要改變傳統的醫療模式-把疾病的早預防、早診斷、早治療等服務放在第一位考慮。隨著人們期待更好的醫療衛生保健服務,從出生到死亡的全程醫療服務也已經成為了醫療管理新模式的發展方向。通過互聯網絡把預防、診斷和臨床作業過程納入到數字化網絡中,實現這些重要任務的核心環節就是醫學影像信息化,充分體現大數據、實時在線、多點傳輸與共享給現代醫療帶來的好處。
據報道,由北京醫院等國內知名大醫院聯合與合作,開展了中國人“數字肺”項目-“基于醫學影像大數據的呼吸系統疾病輔助診斷平臺”。項目以構建具有統計學意義的中國人“數字肺”,揭示支氣管、肺血管和肺實質結構與不同主要肺部疾病之間的關系,通過采用數據挖掘與量化分析技術,分析、處理和量化COPD、支氣管哮喘、支氣管擴張、肺間質性疾病、肺栓塞和孤立性肺結節的評價體系和診斷標準。目前,該項目已經在健康成人支氣管樹不對稱分叉特性的研究、低劑量CT掃描的對支氣管定量測量的評價研究、吸煙對肺組織損傷的縱向研究、肺血管改變與肺氣腫定量的動態評估等方面取得了進展,獲得了一系列卓有成效的研究成果。
影像大數據-早期肺癌篩查平臺
在大數據盛行的今天,大型影像診斷設備結合大數據分析提供更準確的診斷報告顯然是越來越可行和越來越可靠的事情。據報道,由上海多家大型醫療機構合作開展了“上海地區早期肺癌的影像學篩查及診斷研究”項目。該項目通過多家醫院多中心采集、共享并研究早期肺癌病例數據樣本,制定早期肺癌高危人群預警指標,進而建立一套肺癌篩查及早期診斷的最佳方案和標準流程。同時,在多中心研究基礎上,建立可拓展、可挖掘的上海市早期肺癌患者數據庫。該平臺涵蓋調查問卷、患者信息管理、影像閱覽、肺結節CAD檢測、結構化診斷報告、遠程會診、病人隨訪、統計分析等篩查全過程,為研究項目提供堅實技術基礎。目前,該早期肺癌篩查平臺已實現上海多家三甲醫院數據互聯,支持多家醫院在線實時會診、資源共享;此外,通過人工智能技術自動精準識別小肺結節,可幫助醫生減少漏診。
針對早期肺癌難以發現、容易漏診的問題,該早期肺癌篩查平臺融入了肺癌計算機輔助檢測(CAD)引擎,可自動精準識別影像中直徑更小的肺結節,計算并提供結節大小、密度等量化參數供醫生參考。同時,參考世界先進成熟的肺癌篩查平臺,采用結構化報告,實行“雙盲模式”—第一份報告不參考CAD檢測,作為初診,第二份報告參考CAD,完成終審報告,人機相互對照參考,改變以往早期肺癌篩查中醫生僅靠主觀診斷的篩查模式,以減少漏診幾率。
影像大數據挖掘
數據挖掘從數據形式和相關技術上說,大致可以劃分為結構數據挖掘和非結構數據挖掘。所謂結構數據挖掘是基于結構化的數據基礎上的知識發現,例如我們常見的關系型數據,包括數值型數據、字符型數據、日期型數據等等,應用相關的數據挖掘技術對這些關系型數據開展分析。而所謂非結構數據挖掘是基于非結構化的數據基礎上的知識發現,例如我們常見的自然語言文本數據、各種圖像數據、各種音頻數據等等,基于這些類型的數據開展數據挖掘分析。
醫學影像數據挖掘就是非結構數據挖掘的一種,它有如下幾個主要特點:
1、影像數據一般具有相對的含義,而結構化數據一般具有絕對的含義。
2、影像內容的理解具有主觀性的特點,對影像信息可以有多種不同理解,并依賴于影像表示方法和應用領域專業知識。
3、影像信息中包含影像數據對象的空間關系信息。
從目前的影像數據挖掘技術的現狀來說,原始影像一般還不能直接用于影像數據挖掘分析,必須進行預處理,以生成可用于高層次挖掘的影像特征庫。影像數據挖掘的一般流程通常包括影像的存儲、影像的預處理、影像的搜索、影像的挖掘和展示等步驟。
影像數據挖掘方案
目前,影像數據挖掘方案主要有功能驅動型模型和信息驅動型模型。
所謂功能驅動型模型是以不同的功能模塊來組織,功能驅動的影像數據挖掘是針對具體應用的特定要求來設計數據挖掘方案的,通常包括:
1、影像采集模塊-從影像數據庫中抽取影像數據;
2、預處理模塊-提取影像特征,并把特征信息存放在特征數據庫中;
3、搜索引擎-利用影像特征信息進行匹配查詢;
4、知識發現模塊-對影像數據進行算法分析,以發現數據的主題、特征、關系等規律。
所謂信息驅動型模型,是針對影像的原始信息開展基于內容的影像數據挖掘的方案。該方案基于原始特征的對象或區域信息,利用挖掘算法和專業知識將整幅影像進行有意義地分割,然后開展高層次地計算與挖掘分析,從而推導出具有高層次語義的、易用的、易于理解的模式。該方案將影像信息劃分為四個層次:
1、象素層-由原始影像信息和原始影像特征組成,如象素點、紋理、形狀和色彩等。
2、對象層-處理基于象素層原始特征的對象和區域信息。
3、語義層:結合專業知識從識別出的對象和區域中生成高層次的語義概念。
4、知識層:可結合與某一專業相關的文字和數字信息發現潛在的領域知識和模式。
在信息驅動方案中,象素層和對象層主要進行影像處理、對象識別和特征提取,而語義層和知識層主要進行影像數據挖掘和知識整合。該方案可以在每個層次上以及不同層次間開展數據挖掘分析。
影像數據挖掘算法
與結構化數據挖掘的步驟和算法相類似,影像數據挖掘的技術主要包括:影像數據預處理技術:如去噪、對比度增強、影像分割等等;特征提取和模式技術;如分類、規則提取、預測和聚類等等,既包括有監督學習也包含無監督學習。下面,我們就簡單介紹一下有監督學習的分類技術和無監督學習的聚類技術。
基于影像數據的分類技術流程主要分為三步:
1、建立影像表示模型,對已進行類標記的影像樣本數據進行特征提取,并建立每一影像的屬性描述;
2、對樣本數據集進行訓練和學習,得到具有相當分類精度的分類模型;
3、根據分類模型對未標記的影像數據集進行自動分類判別。
影像數據分類的挑戰性在于,如何建立低層可視特征和高層語義分類間的映射關系。
基于影像數據的聚類技術,是根據沒有先驗知識的影像數據分布,將無類別標記的影像數據劃分為有含義的不同簇,通常包括四個步驟:
1、影像特征提取和選擇;
2、建立影像相似性模型;
3、嘗試不同的聚類算法;
4、評估最佳的分組方案。
影像數據聚類的挑戰性在于,如何在分簇未知的情況下,如何科學地找到一個最佳的分類方案。
影像數據挖掘應用
人腦是高度復雜的時空動力系統?;谏窠浻跋翊髷祿?,群組獨立成分分析(ICA)作為一種信息驅動型算法,被廣泛應用于探索人腦系統的時空特性。據文獻報道,中國科學院心理研究所研發出一種在多被試神經影像數據中挖掘被試分組(亞組)的群組ICA方法-gRAICAR。模擬數據顯示,gRAICAR可以精確地揭示腦功能網絡的個體間差異。進一步地,基于實際靜息態功能磁共振成像數據,gRAICAR不僅能夠估計每個腦功能網絡的被試間的一致性,揭示被試間在腦功能上的相似關系,而且可以據此探測具有較高一致性的亞組。gRAICAR成為完全的信息驅動方法,為科研人員基于數據產生進一步的科學假設提供參考,將為深入挖掘多被試神經影像數據,為建立與心理精神相關腦功能疾病的神經影像標志提供有力工具,為“開放式神經科學”提供方法學支撐。
gRAICAR可以說是影像數據挖掘在神經學領域中的一個應用。當然,影像數據挖掘肯定會在更廣泛的醫學領域中發揮著重要的作用,必將成為現代醫學走向智能醫療的一個利器!