關(guān)于我們聯(lián)系我們

生物醫(yī)學大數(shù)據(jù)發(fā)展的新挑戰(zhàn)與趨勢

責任編輯：zsheng |來源：企業(yè)網(wǎng)D1Net 2018-09-08 12:59:47 本文摘自：中國網(wǎng)·中國發(fā)展門戶網(wǎng)

中國網(wǎng)/中國發(fā)展門戶網(wǎng)訊人類基因組計劃啟動以來，以新一代測序技術(shù)和質(zhì)譜技術(shù)為代表的各類組學技術(shù)的飛速發(fā)展，推動了基因組、轉(zhuǎn)錄組、表觀遺傳組、蛋白質(zhì)組、代謝組等海量生命科學組學數(shù)據(jù)的指數(shù)級的增長。一方面，機器學習和人工智能技術(shù)極大提升了醫(yī)學影像和分子影像技術(shù)的分析能力，正在改變以影像組、放射組為代表的醫(yī)學影像數(shù)據(jù)的應用方式。高通量實驗技術(shù)的突破，直接把生物醫(yī)學數(shù)據(jù)從以基因組為代表的?PB?量級時代推升到多組學融合的?EB?量級時代。另一方面，人群隊列研究、分子流行病學研究產(chǎn)生了大量長時間、廣空間的數(shù)據(jù)，表型組從分子、細胞、組織、器官、個體等多層面描述了高維數(shù)據(jù)，真實世界數(shù)據(jù)(real world data)回顧性地匯總分析海量的臨床信息數(shù)據(jù)，這些數(shù)據(jù)構(gòu)成了復雜的高維度生物醫(yī)學大數(shù)據(jù)。

我們已經(jīng)進入了具備相當深度和廣度的生物醫(yī)學大數(shù)據(jù)時代。生物醫(yī)學臨床數(shù)據(jù)呈現(xiàn)數(shù)量巨大、增長迅速、質(zhì)量控制困難、來源廣泛繁雜、難以標準化與結(jié)構(gòu)化等特點，生物醫(yī)學研究數(shù)據(jù)呈現(xiàn)種類繁多、內(nèi)部結(jié)構(gòu)高維復雜、內(nèi)涵豐富、數(shù)據(jù)相對分散、難以高維度多層次交匯共享等特點，生物醫(yī)學數(shù)據(jù)總體表現(xiàn)為數(shù)據(jù)零散分布、難以有效整合分析，從而導致難以挖掘生物醫(yī)學大數(shù)據(jù)的潛在高價值。對我國生物醫(yī)學而言，數(shù)據(jù)無匯交機制，導致存儲碎片化、管理分散、流失損耗嚴重;數(shù)據(jù)無安全保障，無國際交流窗口，被迫持續(xù)成為世界最大組學數(shù)據(jù)輸出國;數(shù)據(jù)無共享平臺，標準化管理混亂，質(zhì)量參差不齊，開放共享受國際、國內(nèi)的政策與技術(shù)的雙重限制。

生物醫(yī)學研究正在發(fā)生面向數(shù)據(jù)密集型的第四科學范式的深刻變革，如何實現(xiàn)從“組學”到臨床與健康人群數(shù)據(jù)的生物醫(yī)學大數(shù)據(jù)的交匯、綜合管理、利用和共享，將多層次臨床與研究數(shù)據(jù)進行深度挖掘和高維度、全方位的有機整合，將大數(shù)據(jù)迅速轉(zhuǎn)化為新知識，成為我們所面臨的挑戰(zhàn)，其中研究建設下一代生物醫(yī)學大數(shù)據(jù)存儲、共享和轉(zhuǎn)化中心的關(guān)鍵要素(圖?1)。

以遞交為基礎、以整合為導向的數(shù)據(jù)存儲

早在?20?世紀?80—90?年代，美國、歐洲和日本即已分別建立世界三大生物數(shù)據(jù)中心，即美國國家生物技術(shù)信息中心(NCBI)、歐洲生物信息研究所(EBI)和日本DNA?數(shù)據(jù)庫(DDBJ)。這三大數(shù)據(jù)中心經(jīng)過近?3?0年的建設，已經(jīng)形成了完備的數(shù)據(jù)匯交技術(shù)體系，在基因組、轉(zhuǎn)錄組、蛋白質(zhì)組等領域發(fā)揮著重要影響力。國內(nèi)機構(gòu)也已經(jīng)開始按照數(shù)據(jù)類型建設了?GSA[12]、iPROX①、WDCM[13]等基因組、蛋白質(zhì)組、微生物資源等組學數(shù)據(jù)中心。我國健康醫(yī)療大數(shù)據(jù)中心的“1+5+X”規(guī)劃已經(jīng)落地，即國家數(shù)據(jù)中心與江蘇、福建、山東、安徽、貴州的東、南、西、北、中?5?個健康醫(yī)療大數(shù)據(jù)區(qū)域中心已經(jīng)形成，將容納全體公民健康醫(yī)療大數(shù)據(jù)。

各類已建、在建的生命科學和健康醫(yī)療數(shù)據(jù)中心，極大地豐富了生命科學、臨床醫(yī)療等生物醫(yī)學大數(shù)據(jù)的采集能力。但是隨著數(shù)據(jù)規(guī)模的增加，如何更加有效地利用數(shù)據(jù)成了挑戰(zhàn)。傳統(tǒng)的數(shù)據(jù)模型和數(shù)據(jù)組織方式，已經(jīng)無法滿足海量數(shù)據(jù)的結(jié)構(gòu)、數(shù)量快速增長以及數(shù)據(jù)結(jié)構(gòu)不斷變化的管理需求，難以按照實際情況動態(tài)調(diào)整。對于已有或者將要建設的綜合性生物醫(yī)學大數(shù)據(jù)平臺而言，有必要突破傳統(tǒng)的嚴格按照一類數(shù)據(jù)建設一個數(shù)據(jù)庫的模式，采用新的倉儲式的數(shù)據(jù)倉庫模式，在底層數(shù)據(jù)結(jié)構(gòu)上以整合為導向，按照樣本、宿主、環(huán)境等信息，以及時間、空間信息，預留不同類型的數(shù)據(jù)之間的聯(lián)系，形成彈性的數(shù)據(jù)結(jié)構(gòu)，支持數(shù)據(jù)結(jié)構(gòu)動態(tài)調(diào)整，為后期數(shù)據(jù)集成與整合工作奠定堅實的基礎。

以主題為基礎、以交互為導向的數(shù)據(jù)共享

NCBI?和?EBI?等機構(gòu)通過數(shù)據(jù)遞交服務匯聚了大量的數(shù)據(jù)資源，并通過網(wǎng)絡提供數(shù)據(jù)共享。截至?2018?年?7月，NCBI?和?EBI?提供的生物序列、分子結(jié)構(gòu)、遺傳信息、表型信息等可以共享的數(shù)據(jù)接近資源都已經(jīng)超過?60?項，這些數(shù)據(jù)資源極大地促進了生命科學與生物醫(yī)學研究。除了共享第三方遞交的數(shù)據(jù)資源外，以美國國家癌癥研究院(NCI)建立的?TCGA(The Cancer Genome Atlas)數(shù)據(jù)庫、英國的國家隊列?UK?Biobank(UKB)等，采用的是另外一種模式，即依托大型科研項目產(chǎn)出的數(shù)據(jù)，提供分級共享，滿足不同類型的科研需求。介于這兩者之間，中小型研究團隊利用自身的數(shù)據(jù)采集能力和整合能力，建立了大量的種類繁多、規(guī)模懸殊、質(zhì)量參差不齊的數(shù)據(jù)庫和知識庫，提供數(shù)據(jù)查詢、瀏覽、下載服務，部分數(shù)據(jù)庫還提供在線分析服務。Nucleic Acids Research?每年第?1?期都出版數(shù)據(jù)庫專刊，到目前為止，已經(jīng)發(fā)表了?1?737?篇數(shù)據(jù)庫相關(guān)論文，其已經(jīng)成為生物醫(yī)學數(shù)據(jù)庫領域最有影響力的專刊。

這些按照數(shù)據(jù)類型(如基因組、轉(zhuǎn)錄組、蛋白質(zhì)組等)、物種(如人類、人類以外、脊椎動物、無脊椎動物、微生物等)、研究目的(如遺傳變異、轉(zhuǎn)錄因子、調(diào)控網(wǎng)絡)等方式建設的數(shù)據(jù)庫，在推進數(shù)據(jù)共享方面發(fā)揮了巨大的作用。但是隨著數(shù)據(jù)類型和規(guī)模的日益擴大，如何存儲、組織、訪問存放在不同平臺上的不同類型的生物醫(yī)學數(shù)據(jù)成為新的挑戰(zhàn)。為此，研究者提出?FAIR?原則，即可發(fā)現(xiàn)(findable)、可訪問(accessible)、互操作(interoperable)和重用(re-usable)。基于?FAIR?原則，BD2K、OmicsDI等平臺采用搜索引擎等技術(shù)突破傳統(tǒng)的以主題為基礎建設的數(shù)據(jù)庫的局限性，對?EBI、NCBI?等數(shù)據(jù)中心的數(shù)據(jù)資源提供統(tǒng)一檢索服務，實現(xiàn)以搜索引擎為核心的數(shù)據(jù)跨庫整合，更好地滿足用戶一站式的數(shù)據(jù)共享需求。

除了搜索技術(shù)外，數(shù)據(jù)可視化、在線分析也是用戶利用數(shù)據(jù)的重要手段。新的可視化技術(shù)，包括?HTML5、JavaScript?等?Web?展示技術(shù)在數(shù)據(jù)平臺中的應用越來越廣泛，用于大分子展示、分子影像、基因組瀏覽器等。此外，依托數(shù)據(jù)庫的分子序列、分子結(jié)構(gòu)、調(diào)控及相互作用網(wǎng)絡等數(shù)據(jù)，數(shù)據(jù)庫根據(jù)自身特點，集成了序列比對、多序列比對、結(jié)構(gòu)相似性比較、網(wǎng)絡結(jié)構(gòu)分析等在線分析的工具，也極大地加強了數(shù)據(jù)的可交互性。

在建設生物醫(yī)學大數(shù)據(jù)平臺時，TB?量級的數(shù)據(jù)下載需求對數(shù)據(jù)下載、單庫檢索等數(shù)據(jù)共享手段提出了嚴峻的挑戰(zhàn)。因此在延續(xù)按照主題(數(shù)據(jù)類型、物種、研究領域)組織數(shù)據(jù)的基礎上，引入跨庫搜索引擎、可視化、在線分析等在線交互技術(shù)，通過更加準確地返回用戶數(shù)據(jù)訪問結(jié)果的方式，提高數(shù)據(jù)共享效率。

以傳統(tǒng)信息技術(shù)為基礎、以前沿信息技術(shù)為導向的數(shù)據(jù)挖掘

從分析的角度來看，生物醫(yī)學大數(shù)據(jù)包括生命科學研究數(shù)據(jù)，以及臨床醫(yī)學數(shù)據(jù)。在生物信息學、計算生物學、系統(tǒng)生物學等計算學科的支持下，以基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、代謝組等組學數(shù)據(jù)為代表的生命科學研究數(shù)據(jù)的分析方法已經(jīng)日趨成熟，分析流程日益普及，正在逐步成為傳統(tǒng)的信息技術(shù)。臨床醫(yī)學數(shù)據(jù)在數(shù)據(jù)統(tǒng)計、數(shù)據(jù)建模、機器學習等技術(shù)的支持下，SAS、MATLAB、R?語言等分析工具也得到了廣泛應用。

數(shù)據(jù)挖掘能力，尤其是組學數(shù)據(jù)挖掘能力，越來越難以滿足飛速增長的數(shù)據(jù)產(chǎn)出。其面臨的主要挑戰(zhàn)在于：數(shù)據(jù)量越來越大，需要速度更快的數(shù)據(jù)壓縮、傳輸、分析方法;數(shù)據(jù)維度越來越高，需要更加準確的降維方法。基于?GPU(圖形處理器)、FPGA(現(xiàn)場可編程門陣列)等硬件技術(shù)，對傳統(tǒng)的生物信息分析方法的限速步驟進行算法優(yōu)化，在序列比對、分子對接得到越來越多的應用。而以深度神經(jīng)網(wǎng)絡為代表的人工智能技術(shù)，在醫(yī)學影像處理、高維數(shù)據(jù)降維等方面的應用呈現(xiàn)爆發(fā)式的增長，包括致盲性視網(wǎng)膜疾病與肺炎、阿爾茨海默病、皮膚癌、腦膜瘤等醫(yī)學影像輔助診斷等。此外，區(qū)塊鏈技術(shù)由于其去中心的特性，也開始在生物醫(yī)學數(shù)據(jù)共享方面得到應用。

前沿信息技術(shù)在生物醫(yī)學大數(shù)據(jù)中的應用，將涵蓋數(shù)據(jù)預處理、數(shù)據(jù)傳輸、數(shù)據(jù)分析、數(shù)據(jù)共享等范圍，提升數(shù)據(jù)挖掘能力。

數(shù)據(jù)標準與質(zhì)量控制

生物醫(yī)學大數(shù)據(jù)的數(shù)據(jù)標準包括術(shù)語集、數(shù)據(jù)標準、綜合標準等。典型的術(shù)語集包括基因本體?GO、人類表型本體?HPO等，序列最簡描述信息標準集包括?MIxS?與?MIGS以及?ICD10、SNOMED-CT等醫(yī)學數(shù)據(jù)標準。生命科學領域的數(shù)據(jù)標準大多由有國際影響力的機構(gòu)或協(xié)會率先提出，伴隨配套的數(shù)據(jù)解析或分析軟件，逐步得到學術(shù)界的認可。例如：由國際核酸序列數(shù)據(jù)庫協(xié)會(INSDC)定義的“The DDBJ/ENA/GenBank Feature Table Definition”是?NCBI、EBI?等數(shù)據(jù)中心最早的核酸序列數(shù)據(jù)標準，以及基因組拼接數(shù)據(jù)標準;EBI?和?NCBI?等定義的基因芯片實驗數(shù)據(jù)標準?MIAME、GEO，F(xiàn)GED?定義的二代測序數(shù)據(jù)標準?MINSEQE，以及拼接文件格式?BAM、變異文件格式?VCF、遺傳特征描述格式?GFF3等，醫(yī)學領域得到最為廣泛認可的數(shù)據(jù)標準是醫(yī)學影像標準?DICOM。醫(yī)學領域的標準比生命科學領域的數(shù)據(jù)標準要復雜得多，規(guī)范化程度也更高。醫(yī)學領域的標準大多需要經(jīng)過立項、草案、發(fā)布等階段，得到了更為廣泛的認可，如國際標準化組織健康信息學標準化技術(shù)委員會的?ISO/TC 215?系列標準、HL7(衛(wèi)生信息用戶層，ISO?定義的信息交換7層協(xié)議規(guī)范中的第七層)、臨床數(shù)據(jù)交換標準協(xié)會?CDISC等;標準的范圍也遠比生命科學領域的數(shù)據(jù)標準復雜，包括詞匯術(shù)語、數(shù)據(jù)描述、技術(shù)操作、應用服務和醫(yī)療管理等。

生命科學的標準主要集中在術(shù)語集和數(shù)據(jù)標準，不同的標準之間相對獨立，對數(shù)據(jù)產(chǎn)出過程、分析過程的規(guī)范性表述較少。醫(yī)學的數(shù)據(jù)標準更強調(diào)互操作、互聯(lián)互通等，不同的標準自成體系，但是對支撐科研的數(shù)據(jù)標準的描述反而較少。因此，生物醫(yī)學大數(shù)據(jù)亟待加強臨床科研的數(shù)據(jù)標準體系的建設，以及數(shù)據(jù)分析過程的操作相關(guān)的標準的建設。

數(shù)據(jù)質(zhì)量控制受到數(shù)據(jù)產(chǎn)出、數(shù)據(jù)分析的影響，不同的數(shù)據(jù)質(zhì)控有所差別。芯片、基因組數(shù)以美國食品藥品監(jiān)督管理局(FDA)主導的?MAQC、MAQC-II、MAQC-III?等，由于獨立于技術(shù)系統(tǒng)之前，得到了較為廣泛的認可。蛋白質(zhì)組的數(shù)據(jù)質(zhì)控，缺少與?MAQC?相匹配的大項目，而是主要通過?PRIDE、iPROX?等數(shù)據(jù)匯交平臺的質(zhì)控工具來體現(xiàn)。數(shù)據(jù)質(zhì)量控制需要提供參考數(shù)據(jù)集作為基準，包括實驗方法產(chǎn)出的原始數(shù)據(jù)與參考數(shù)據(jù)集的吻合情況，以及數(shù)據(jù)分析形成的分析結(jié)果與參考數(shù)據(jù)集的吻合情況。因此，針對有廣泛用途或者重要用途的數(shù)據(jù)類型，建設參考數(shù)據(jù)集、參考數(shù)據(jù)分析流程，是數(shù)據(jù)質(zhì)量控制的關(guān)鍵環(huán)節(jié)，也是生物醫(yī)學大數(shù)據(jù)平臺的重要建設內(nèi)容。

我們正在建設以組學數(shù)據(jù)百科全書——NODE為代表的開放式基礎性平臺，并達到了一定的數(shù)據(jù)規(guī)模。其中，在整合存儲方面，數(shù)據(jù)平臺與數(shù)據(jù)庫包括以微生物組大數(shù)據(jù)平臺為代表的領域示范平臺，以駱駝基因組變異數(shù)據(jù)庫、可翻譯轉(zhuǎn)錄組?RNA?數(shù)據(jù)庫等為代表的專題數(shù)據(jù)庫。在交互共享方面，正在向?NODE?系統(tǒng)集成全基因組、外顯子組、轉(zhuǎn)錄組等常規(guī)組學數(shù)據(jù)分析流程，微生物?16S?RNA、宏基因組、微生物功能注釋等領域組學數(shù)據(jù)分析流程。在前沿信息技術(shù)方面，利用?GPU?技術(shù)對轉(zhuǎn)錄組、宏基因組等組學數(shù)據(jù)拼接、映射等高資源消耗的環(huán)節(jié)進行優(yōu)化。在標準質(zhì)控方面，開展了包括描述信息和原始數(shù)據(jù)在內(nèi)的質(zhì)量控制，并建立了自動化的質(zhì)控流程，將實現(xiàn)數(shù)據(jù)匯交時就自動完成質(zhì)控評估的功能。

面對生物醫(yī)學大數(shù)據(jù)的挑戰(zhàn)，建立全面支撐生命科學研究數(shù)據(jù)與健康醫(yī)學大數(shù)據(jù)的匯交、管理、共享與挖掘的技術(shù)與資源體系，形成以遞交為基礎、以整合為導向的數(shù)據(jù)存儲中心，以主題為基礎、以交互為導向的數(shù)據(jù)共享中心，以及以傳統(tǒng)信息技術(shù)為基礎、以前沿信息技術(shù)為導向的下一代生命科學數(shù)據(jù)轉(zhuǎn)化中心，將有效地支撐生物醫(yī)學、健康醫(yī)療等領域的基礎研究、應用研究和產(chǎn)業(yè)示范。(作者：張國慶李亦學王澤峰趙國屏中國科學院計算生物學重點實驗室生物醫(yī)學大數(shù)據(jù)中心中國科學院-馬普學會計算生物學伙伴研究所中國科學院上海生命科學研究院

關(guān)鍵字：趨勢發(fā)展數(shù)據(jù)生物