我們已經(jīng)進入了具備相當深度和廣度的生物醫(yī)學大數(shù)據(jù)時代。生物醫(yī)學臨床數(shù)據(jù)呈現(xiàn)數(shù)量巨大、增長迅速、質(zhì)量控制困難、來源廣泛繁雜、難以標準化與結(jié)構(gòu)化等特點,生物醫(yī)學研究數(shù)據(jù)呈現(xiàn)種類繁多、內(nèi)部結(jié)構(gòu)高維復雜、內(nèi)涵豐富、數(shù)據(jù)相對分散、難以高維度多層次交匯共享等特點,生物醫(yī)學數(shù)據(jù)總體表現(xiàn)為數(shù)據(jù)零散分布、難以有效整合分析,從而導致難以挖掘生物醫(yī)學大數(shù)據(jù)的潛在高價值。對我國生物醫(yī)學而言,數(shù)據(jù)無匯交機制,導致存儲碎片化、管理分散、流失損耗嚴重;數(shù)據(jù)無安全保障,無國際交流窗口,被迫持續(xù)成為世界最大組學數(shù)據(jù)輸出國;數(shù)據(jù)無共享平臺,標準化管理混亂,質(zhì)量參差不齊,開放共享受國際、國內(nèi)的政策與技術(shù)的雙重限制。
生物醫(yī)學研究正在發(fā)生面向數(shù)據(jù)密集型的第四科學范式的深刻變革,如何實現(xiàn)從“組學”到臨床與健康人群數(shù)據(jù)的生物醫(yī)學大數(shù)據(jù)的交匯、綜合管理、利用和共享,將多層次臨床與研究數(shù)據(jù)進行深度挖掘和高維度、全方位的有機整合,將大數(shù)據(jù)迅速轉(zhuǎn)化為新知識,成為我們所面臨的挑戰(zhàn),其中研究建設下一代生物醫(yī)學大數(shù)據(jù)存儲、共享和轉(zhuǎn)化中心的關(guān)鍵要素(圖?1)。
以遞交為基礎、以整合為導向的數(shù)據(jù)存儲
早在?20?世紀?80—90?年代,美國、歐洲和日本即已分別建立世界三大生物數(shù)據(jù)中心,即美國國家生物技術(shù)信息中心(NCBI)、歐洲生物信息研究所(EBI)和日本DNA?數(shù)據(jù)庫(DDBJ)。這三大數(shù)據(jù)中心經(jīng)過近?3?0年的建設,已經(jīng)形成了完備的數(shù)據(jù)匯交技術(shù)體系,在基因組、轉(zhuǎn)錄組、蛋白質(zhì)組等領域發(fā)揮著重要影響力。國內(nèi)機構(gòu)也已經(jīng)開始按照數(shù)據(jù)類型建設了?GSA[12]、iPROX①、WDCM[13]等基因組、蛋白質(zhì)組、微生物資源等組學數(shù)據(jù)中心。我國健康醫(yī)療大數(shù)據(jù)中心的“1+5+X”規(guī)劃已經(jīng)落地,即國家數(shù)據(jù)中心與江蘇、福建、山東、安徽、貴州的東、南、西、北、中?5?個健康醫(yī)療大數(shù)據(jù)區(qū)域中心已經(jīng)形成,將容納全體公民健康醫(yī)療大數(shù)據(jù)。
各類已建、在建的生命科學和健康醫(yī)療數(shù)據(jù)中心,極大地豐富了生命科學、臨床醫(yī)療等生物醫(yī)學大數(shù)據(jù)的采集能力。但是隨著數(shù)據(jù)規(guī)模的增加,如何更加有效地利用數(shù)據(jù)成了挑戰(zhàn)。傳統(tǒng)的數(shù)據(jù)模型和數(shù)據(jù)組織方式,已經(jīng)無法滿足海量數(shù)據(jù)的結(jié)構(gòu)、數(shù)量快速增長以及數(shù)據(jù)結(jié)構(gòu)不斷變化的管理需求,難以按照實際情況動態(tài)調(diào)整。對于已有或者將要建設的綜合性生物醫(yī)學大數(shù)據(jù)平臺而言,有必要突破傳統(tǒng)的嚴格按照一類數(shù)據(jù)建設一個數(shù)據(jù)庫的模式,采用新的倉儲式的數(shù)據(jù)倉庫模式,在底層數(shù)據(jù)結(jié)構(gòu)上以整合為導向,按照樣本、宿主、環(huán)境等信息,以及時間、空間信息,預留不同類型的數(shù)據(jù)之間的聯(lián)系,形成彈性的數(shù)據(jù)結(jié)構(gòu),支持數(shù)據(jù)結(jié)構(gòu)動態(tài)調(diào)整,為后期數(shù)據(jù)集成與整合工作奠定堅實的基礎。
以主題為基礎、以交互為導向的數(shù)據(jù)共享
NCBI?和?EBI?等機構(gòu)通過數(shù)據(jù)遞交服務匯聚了大量的數(shù)據(jù)資源,并通過網(wǎng)絡提供數(shù)據(jù)共享。截至?2018?年?7月,NCBI?和?EBI?提供的生物序列、分子結(jié)構(gòu)、遺傳信息、表型信息等可以共享的數(shù)據(jù)接近資源都已經(jīng)超過?60?項,這些數(shù)據(jù)資源極大地促進了生命科學與生物醫(yī)學研究。除了共享第三方遞交的數(shù)據(jù)資源外,以美國國家癌癥研究院(NCI)建立的?TCGA(The Cancer Genome Atlas)數(shù)據(jù)庫、英國的國家隊列?UK?Biobank(UKB)等,采用的是另外一種模式,即依托大型科研項目產(chǎn)出的數(shù)據(jù),提供分級共享,滿足不同類型的科研需求。介于這兩者之間,中小型研究團隊利用自身的數(shù)據(jù)采集能力和整合能力,建立了大量的種類繁多、規(guī)模懸殊、質(zhì)量參差不齊的數(shù)據(jù)庫和知識庫,提供數(shù)據(jù)查詢、瀏覽、下載服務,部分數(shù)據(jù)庫還提供在線分析服務。Nucleic Acids Research?每年第?1?期都出版數(shù)據(jù)庫專刊,到目前為止,已經(jīng)發(fā)表了?1?737?篇數(shù)據(jù)庫相關(guān)論文,其已經(jīng)成為生物醫(yī)學數(shù)據(jù)庫領域最有影響力的專刊。
這些按照數(shù)據(jù)類型(如基因組、轉(zhuǎn)錄組、蛋白質(zhì)組等)、物種(如人類、人類以外、脊椎動物、無脊椎動物、微生物等)、研究目的(如遺傳變異、轉(zhuǎn)錄因子、調(diào)控網(wǎng)絡)等方式建設的數(shù)據(jù)庫,在推進數(shù)據(jù)共享方面發(fā)揮了巨大的作用。但是隨著數(shù)據(jù)類型和規(guī)模的日益擴大,如何存儲、組織、訪問存放在不同平臺上的不同類型的生物醫(yī)學數(shù)據(jù)成為新的挑戰(zhàn)。為此,研究者提出?FAIR?原則,即可發(fā)現(xiàn)(findable)、可訪問(accessible)、互操作(interoperable)和重用(re-usable)。基于?FAIR?原則,BD2K、OmicsDI等平臺采用搜索引擎等技術(shù)突破傳統(tǒng)的以主題為基礎建設的數(shù)據(jù)庫的局限性,對?EBI、NCBI?等數(shù)據(jù)中心的數(shù)據(jù)資源提供統(tǒng)一檢索服務,實現(xiàn)以搜索引擎為核心的數(shù)據(jù)跨庫整合,更好地滿足用戶一站式的數(shù)據(jù)共享需求。
除了搜索技術(shù)外,數(shù)據(jù)可視化、在線分析也是用戶利用數(shù)據(jù)的重要手段。新的可視化技術(shù),包括?HTML5、JavaScript?等?Web?展示技術(shù)在數(shù)據(jù)平臺中的應用越來越廣泛,用于大分子展示、分子影像、基因組瀏覽器等。此外,依托數(shù)據(jù)庫的分子序列、分子結(jié)構(gòu)、調(diào)控及相互作用網(wǎng)絡等數(shù)據(jù),數(shù)據(jù)庫根據(jù)自身特點,集成了序列比對、多序列比對、結(jié)構(gòu)相似性比較、網(wǎng)絡結(jié)構(gòu)分析等在線分析的工具,也極大地加強了數(shù)據(jù)的可交互性。
在建設生物醫(yī)學大數(shù)據(jù)平臺時,TB?量級的數(shù)據(jù)下載需求對數(shù)據(jù)下載、單庫檢索等數(shù)據(jù)共享手段提出了嚴峻的挑戰(zhàn)。因此在延續(xù)按照主題(數(shù)據(jù)類型、物種、研究領域)組織數(shù)據(jù)的基礎上,引入跨庫搜索引擎、可視化、在線分析等在線交互技術(shù),通過更加準確地返回用戶數(shù)據(jù)訪問結(jié)果的方式,提高數(shù)據(jù)共享效率。
以傳統(tǒng)信息技術(shù)為基礎、以前沿信息技術(shù)為導向的數(shù)據(jù)挖掘
從分析的角度來看,生物醫(yī)學大數(shù)據(jù)包括生命科學研究數(shù)據(jù),以及臨床醫(yī)學數(shù)據(jù)。在生物信息學、計算生物學、系統(tǒng)生物學等計算學科的支持下,以基因組、轉(zhuǎn)錄組、蛋白質(zhì)組、代謝組等組學數(shù)據(jù)為代表的生命科學研究數(shù)據(jù)的分析方法已經(jīng)日趨成熟,分析流程日益普及,正在逐步成為傳統(tǒng)的信息技術(shù)。臨床醫(yī)學數(shù)據(jù)在數(shù)據(jù)統(tǒng)計、數(shù)據(jù)建模、機器學習等技術(shù)的支持下,SAS、MATLAB、R?語言等分析工具也得到了廣泛應用。
數(shù)據(jù)挖掘能力,尤其是組學數(shù)據(jù)挖掘能力,越來越難以滿足飛速增長的數(shù)據(jù)產(chǎn)出。其面臨的主要挑戰(zhàn)在于:數(shù)據(jù)量越來越大,需要速度更快的數(shù)據(jù)壓縮、傳輸、分析方法;數(shù)據(jù)維度越來越高,需要更加準確的降維方法。基于?GPU(圖形處理器)、FPGA(現(xiàn)場可編程門陣列)等硬件技術(shù),對傳統(tǒng)的生物信息分析方法的限速步驟進行算法優(yōu)化,在序列比對、分子對接得到越來越多的應用。而以深度神經(jīng)網(wǎng)絡為代表的人工智能技術(shù),在醫(yī)學影像處理、高維數(shù)據(jù)降維等方面的應用呈現(xiàn)爆發(fā)式的增長,包括致盲性視網(wǎng)膜疾病與肺炎、阿爾茨海默病、皮膚癌、腦膜瘤等醫(yī)學影像輔助診斷等。此外,區(qū)塊鏈技術(shù)由于其去中心的特性,也開始在生物醫(yī)學數(shù)據(jù)共享方面得到應用。
前沿信息技術(shù)在生物醫(yī)學大數(shù)據(jù)中的應用,將涵蓋數(shù)據(jù)預處理、數(shù)據(jù)傳輸、數(shù)據(jù)分析、數(shù)據(jù)共享等范圍,提升數(shù)據(jù)挖掘能力。
數(shù)據(jù)標準與質(zhì)量控制
生物醫(yī)學大數(shù)據(jù)的數(shù)據(jù)標準包括術(shù)語集、數(shù)據(jù)標準、綜合標準等。典型的術(shù)語集包括基因本體?GO、人類表型本體?HPO等,序列最簡描述信息標準集包括?MIxS?與?MIGS以及?ICD10、SNOMED-CT等醫(yī)學數(shù)據(jù)標準。生命科學領域的數(shù)據(jù)標準大多由有國際影響力的機構(gòu)或協(xié)會率先提出,伴隨配套的數(shù)據(jù)解析或分析軟件,逐步得到學術(shù)界的認可。例如:由國際核酸序列數(shù)據(jù)庫協(xié)會(INSDC)定義的“The DDBJ/ENA/GenBank Feature Table Definition”是?NCBI、EBI?等數(shù)據(jù)中心最早的核酸序列數(shù)據(jù)標準,以及基因組拼接數(shù)據(jù)標準;EBI?和?NCBI?等定義的基因芯片實驗數(shù)據(jù)標準?MIAME、GEO,F(xiàn)GED?定義的二代測序數(shù)據(jù)標準?MINSEQE,以及拼接文件格式?BAM、變異文件格式?VCF、遺傳特征描述格式?GFF3等,醫(yī)學領域得到最為廣泛認可的數(shù)據(jù)標準是醫(yī)學影像標準?DICOM。醫(yī)學領域的標準比生命科學領域的數(shù)據(jù)標準要復雜得多,規(guī)范化程度也更高。醫(yī)學領域的標準大多需要經(jīng)過立項、草案、發(fā)布等階段,得到了更為廣泛的認可,如國際標準化組織健康信息學標準化技術(shù)委員會的?ISO/TC 215?系列標準、HL7(衛(wèi)生信息用戶層,ISO?定義的信息交換7層協(xié)議規(guī)范中的第七層)、臨床數(shù)據(jù)交換標準協(xié)會?CDISC等;標準的范圍也遠比生命科學領域的數(shù)據(jù)標準復雜,包括詞匯術(shù)語、數(shù)據(jù)描述、技術(shù)操作、應用服務和醫(yī)療管理等。
生命科學的標準主要集中在術(shù)語集和數(shù)據(jù)標準,不同的標準之間相對獨立,對數(shù)據(jù)產(chǎn)出過程、分析過程的規(guī)范性表述較少。醫(yī)學的數(shù)據(jù)標準更強調(diào)互操作、互聯(lián)互通等,不同的標準自成體系,但是對支撐科研的數(shù)據(jù)標準的描述反而較少。因此,生物醫(yī)學大數(shù)據(jù)亟待加強臨床科研的數(shù)據(jù)標準體系的建設,以及數(shù)據(jù)分析過程的操作相關(guān)的標準的建設。
數(shù)據(jù)質(zhì)量控制受到數(shù)據(jù)產(chǎn)出、數(shù)據(jù)分析的影響,不同的數(shù)據(jù)質(zhì)控有所差別。芯片、基因組數(shù)以美國食品藥品監(jiān)督管理局(FDA)主導的?MAQC、MAQC-II、MAQC-III?等,由于獨立于技術(shù)系統(tǒng)之前,得到了較為廣泛的認可。蛋白質(zhì)組的數(shù)據(jù)質(zhì)控,缺少與?MAQC?相匹配的大項目,而是主要通過?PRIDE、iPROX?等數(shù)據(jù)匯交平臺的質(zhì)控工具來體現(xiàn)。數(shù)據(jù)質(zhì)量控制需要提供參考數(shù)據(jù)集作為基準,包括實驗方法產(chǎn)出的原始數(shù)據(jù)與參考數(shù)據(jù)集的吻合情況,以及數(shù)據(jù)分析形成的分析結(jié)果與參考數(shù)據(jù)集的吻合情況。因此,針對有廣泛用途或者重要用途的數(shù)據(jù)類型,建設參考數(shù)據(jù)集、參考數(shù)據(jù)分析流程,是數(shù)據(jù)質(zhì)量控制的關(guān)鍵環(huán)節(jié),也是生物醫(yī)學大數(shù)據(jù)平臺的重要建設內(nèi)容。
我們正在建設以組學數(shù)據(jù)百科全書——NODE為代表的開放式基礎性平臺,并達到了一定的數(shù)據(jù)規(guī)模。其中,在整合存儲方面,數(shù)據(jù)平臺與數(shù)據(jù)庫包括以微生物組大數(shù)據(jù)平臺為代表的領域示范平臺,以駱駝基因組變異數(shù)據(jù)庫、可翻譯轉(zhuǎn)錄組?RNA?數(shù)據(jù)庫等為代表的專題數(shù)據(jù)庫。在交互共享方面,正在向?NODE?系統(tǒng)集成全基因組、外顯子組、轉(zhuǎn)錄組等常規(guī)組學數(shù)據(jù)分析流程,微生物?16S?RNA、宏基因組、微生物功能注釋等領域組學數(shù)據(jù)分析流程。在前沿信息技術(shù)方面,利用?GPU?技術(shù)對轉(zhuǎn)錄組、宏基因組等組學數(shù)據(jù)拼接、映射等高資源消耗的環(huán)節(jié)進行優(yōu)化。在標準質(zhì)控方面,開展了包括描述信息和原始數(shù)據(jù)在內(nèi)的質(zhì)量控制,并建立了自動化的質(zhì)控流程,將實現(xiàn)數(shù)據(jù)匯交時就自動完成質(zhì)控評估的功能。
面對生物醫(yī)學大數(shù)據(jù)的挑戰(zhàn),建立全面支撐生命科學研究數(shù)據(jù)與健康醫(yī)學大數(shù)據(jù)的匯交、管理、共享與挖掘的技術(shù)與資源體系,形成以遞交為基礎、以整合為導向的數(shù)據(jù)存儲中心,以主題為基礎、以交互為導向的數(shù)據(jù)共享中心,以及以傳統(tǒng)信息技術(shù)為基礎、以前沿信息技術(shù)為導向的下一代生命科學數(shù)據(jù)轉(zhuǎn)化中心,將有效地支撐生物醫(yī)學、健康醫(yī)療等領域的基礎研究、應用研究和產(chǎn)業(yè)示范。(作者:張國慶 李亦學 王澤峰 趙國屏 中國科學院計算生物學重點實驗室生物醫(yī)學大數(shù)據(jù)中心 中國科學院-馬普學會計算生物學伙伴研究所 中國科學院上海生命科學研究院