當前位置：大數據 → 業界動態 → 正文

對于生物醫學成像來說構建大數據集是非常困難的事情

責任編輯：zsheng |來源：企業網D1Net 2018-12-20 20:45:34 本文摘自：中國科學報

如果腫瘤細胞剛剛生成，就可以被精準地“揪”出來，那將給腫瘤的診斷和治療帶來巨大變革。而要想實現這一點，成像方式就必須具有極高的靈敏度。

近日，中科院自動化研究所、中科院分子影像重點實驗室在基于人工智能(AI)技術的新型成像方法研究上獲得了突破性進展——研究人員將小鼠顱內腦膠質瘤的三維定位精度，由傳統方法的百微米級誤差縮小到了十微米級，為疾病動物模型乃至臨床患者的影像學研究提供了全新的思路。相關研究論文已發表于《光》期刊。

“圖像不是憑空得到的，而是成像設備獲得的，傳統方法往往不能提供最好的成像質量。在人類認知圖像之前，在成像信號轉化為圖像的過程中，會損失很多關鍵信息，人工智能技術可以突破這一瓶頸。”論文第一作者、中科院自動化研究所副研究員王坤告訴《中國科學報》，通過建立新的AI模型，把原始的物理信號轉化為更加精確、更高分辨、更少偽影、更高信噪比的高質量圖像，無論是“人腦”還是“機器腦”，都可以更好地識別、認知和學習，這就是此項研究帶來的最本質的創新。

一項極具挑戰性的工作

腫瘤的早期發現并不容易，特別是某些惡性腫瘤，潛伏期甚至長達20年，當身體發出警報時，往往已經走到了中晚期。如何實現早期微小腫瘤的精準檢測，及時觀測到腫瘤細胞剛出現時產生的某些特異性蛋白、酶甚至RNA，一直是科學家探索和研究的方向。

“不過，在現實的物理世界中，能夠提供如此高靈敏度的成像媒介并不多。”王坤坦言，目前公認最好的是高能伽馬射線和無輻射的光子，但是基于伽馬探測的放射性核素成像成本高，難以普及;光學成像成本低廉，但大都是二維圖像，缺乏三維信息。

“我們用人工智能解決的就是光學成像難以三維定量的問題。”王坤說，“也就是既可以高靈敏度地看到有沒有腫瘤，是哪種分子類型的腫瘤，還可以高精確度地知道腫瘤在哪里，有多大規模。”

王坤提到的光學成像是指生物自發光斷層成像技術，該技術是生物醫學成像的重要手段，廣泛應用于疾病動物模型的影像學研究。然而，由于光子在生物體內具有非均勻化的高散射和高吸收的物理特性，通過探測動物體表的發光光斑來逆向重建出生物體內的光源位置(即腫瘤位置)，是一項極具挑戰性的工作。

清華大學醫學院生物醫學工程系研究員羅建文告訴《中國科學報》，此前，光學斷層重建問題大多是基于模型的方法，包括正問題和逆問題的求解。正問題的求解一般是利用輻射傳輸方程或者擴散方程等模型來模擬光子在組織體中的傳播過程，進而得到系統矩陣;逆問題的求解大多采用一些優化方法，來獲得體內光源的具體信息，如位置、形態、強度等。

“然而，這種基于模型的方法，勢必會受到模型近似的影響，導致重建精度降低。”羅建文強調。據了解，正問題和逆問題求解的兩種誤差疊加在一起，最終導致光學斷層成像對于動物體內腫瘤的三維定位具有數百微米到1毫米的誤差。

機器學習帶來突破

為減少誤差，王坤所在團隊提出基于機器學習的AI重建：完全舍棄構建前向模型去描述光子在生物體內的傳播，通過構建大量的仿真數據集，在仿真數據上確定動物體表的光斑和體內的光源，再通過該數據集訓練計算機智能化學習體表光斑和體內光源的非線性關系，從而構建出適用于生物自發光斷層成像的AI模型，最終三維重建活體動物荷瘤模型內的腫瘤三維分布。

“此項研究首次將機器學習中的多層感知機方法應用于光學斷層重建，并且提出了自己的數據集構造方法，實現了直接由數據到結果的跨模型創新框架，使得重建定位誤差縮小到傳統方法的十分之一，同時這也提示了可以用人工智能方法去解決光學斷層重建問題。”羅建文評價道。

不過，王坤強調，生物自發光斷層成像涉及到腫瘤細胞的基因編輯和改造，所以只能用在動物身上，不能用于人體，但是他們發展出的基于AI的光學三維重建方法具有推廣性，理論上可以用在其它光學分子影像的成像技術上，例如激發熒光成像、近紅外成像等等。因此，該方法本身具有很好的臨床轉化應用能力。

數據收集與分析面臨挑戰

機器學習的基礎是數據，而對于生物醫學成像來說，構建大數據集是非常困難的事情。

“比如我們的這個研究，構建了近8000個腦膠質瘤荷瘤的小鼠模型來訓練我們的機器學習模型。如果真的讓生物學家去一個個構建原位腦膠質瘤小鼠模型，需要很長時間，并投入巨大的人力和財力，是非常不切實際的。”王坤說。

“我們構建的仿真數據，達到了非常高的精度，很好地模擬了現實的腫瘤動物。”王坤表示，他們用生物學家構建的真實腦膠質瘤小鼠來驗證訓練出來的人工智能模型是否精確可靠，最終結果表明，新型人工智能方法對于腦膠質瘤的三維定位誤差均小于80微米，而傳統方法的定位誤差為350微米以上。

不過，在實際臨床應用中，數據的收集和解析并不容易。羅建文表示，機器學習特別是深度學習，最重要的就是數據，包括數據的質量和數量。目前在醫學成像領域，雖然收集到大量的數據比較容易，但是這些數據被標記后才能用于建模，受個體差異影響很大。由于不同醫生的診斷結果不同，數據的質量會受到影響，用它訓練出的網絡就會存在問題。

同時，羅建文表示，在診斷、治療、預后等一系列環節中，對于一些疾病的定性描述，不同的醫生也存在很大的自由度，很難統一說法;不同品牌甚至同一品牌但不同型號的醫療設備采集到的圖像，也存在較大差異。這些不統一的數據，都會影響深度學習的分析結果。

“還有一個重要的因素就是模型的因果性和可解釋性。”羅建文強調，“醫學與人的生命息息相關，所以做任何一件事都要有理有據，都要有因果推論的關系。但是，做機器學習模型時，很容易陷入直接對相關性進行建模的陷阱。相關性建模涉及的兩個因素未必有直接的因果關系。得出的模型，如何解釋其結果的意義，是一個很難處理的事情。”

臨床任重道遠

在羅建文看來，深度學習擅長處理的就是高維度、稀疏的信號，圖像就是這些信號中一種有代表性的形式，因此，AI在醫學影像處理上的應用必然是一個熱點方向。

“醫學影像處理的典型問題包括影像分類、目標檢測、圖像分割和影像檢索等，都能對應到日常臨床應用里的一些痛點或比較浪費人力的問題。”羅建文建議，影像醫師應該投入到AI技術的學習和應用中，AI技術也許很快就能協助影像醫生完成一部分工作，也有潛力使現有的工作得到提升。

不過，上海中醫藥大學附屬曙光醫院放射科主任詹松華站在醫生的角度表示，AI在發現病變方面肯定大有作為，但是代替醫生來處理，很難。“發現病變特點，然后區別正常和異常，到底是炎癥還是腫瘤，最終還是由醫生來做診斷。”

詹松華認為，AI用于生物醫學影像的方向是對的，但是目前需要更多的科研投入，需要將醫師和工程師很好地整合起來，AI人士需要傾聽臨床的聲音，了解醫生的切實需求。另外，AI解決假陰性率是關鍵，要提高AI機器判斷的確定性，從而為醫生省時節力。

關鍵字：數據構建生物