雖然我國數(shù)據(jù)產(chǎn)生量很大,但是生物大數(shù)據(jù)與國外相比仍比較落后。
世界杯預測、高考預測、當前哪種男性最受歡迎……這些大家所熟悉的分析都用到了大數(shù)據(jù),但是很少人知道,大數(shù)據(jù)早將“手”伸到了生物醫(yī)學領域,開始了疾病預測。
歐美國家對生物領域發(fā)展大數(shù)據(jù)十分重視。今年3月,英國宣布,英國醫(yī)學研究理事會(MRC)將投資3200萬英鎊資助首批5大項目,來提高醫(yī)學生物信息學的能力、產(chǎn)能和核心基礎設施。這項“醫(yī)學生物信息學計劃”預計總投資5000萬英鎊,將通過建立耦合復雜生物數(shù)據(jù)和健康記錄的新方法,來解決關鍵的醫(yī)學難題。
早在2012年3月,美國奧巴馬政府就宣布推出“大數(shù)據(jù)的研究和發(fā)展計劃”,將大數(shù)據(jù)提升到了國家戰(zhàn)略層面,承諾將投資兩億多美元。2014年,美國政府就如何充分利用生物醫(yī)學大數(shù)據(jù),又啟動了Big Data to Knowledge計劃。
雖然我國企業(yè)也頻頻在大數(shù)據(jù)上有所動作,但是上海生物信息技術研究中心主任、中科院上海生命科學研究院生物信息中心主任李亦學對《中國科學報》記者指出:“雖然國內大數(shù)據(jù)在其他方向的發(fā)展遠超國外,但是生物大數(shù)據(jù)與國外相比仍比較落后。”
沒有免費的午餐
生物大數(shù)據(jù)發(fā)展相較國外落后,并不是因為沒有數(shù)據(jù)量產(chǎn)生。
據(jù)我國最早從事理論生物學和生物信息學研究的科研人員之一、中國科學院院士陳潤生介紹,以華大基因為代表的基因測序機構為生物大數(shù)據(jù)的產(chǎn)生作出重要貢獻。
華大基因當前的測序量大約占據(jù)國際數(shù)據(jù)量的40%左右,而且隨著技術發(fā)展和測序手段成本的下降,幾乎所有的研究型大學和研究單位,無論是在農(nóng)業(yè)、林業(yè)還是醫(yī)學,都對基因測序有所涉及。
“基因組層面的生物大數(shù)據(jù)的發(fā)展帶動了蛋白質組、代謝組、生物網(wǎng)絡等各個層級的相關生物大數(shù)據(jù)的海量產(chǎn)生,但是我國當前還未能建立統(tǒng)一的生物數(shù)據(jù)信息中心。”陳潤生指出。
李亦學也認為,生物大數(shù)據(jù)滯后于國外的最根本原因在于我國沒有大型的綜合生物大數(shù)據(jù)庫,也沒有生物大數(shù)據(jù)中心平臺。
這意味著,我國開展研究時只能向國外的大數(shù)據(jù)庫“求助”。雖然這些大數(shù)據(jù)庫都宣稱,只要遞交申請就可免費共享數(shù)據(jù),但是,天下并沒有免費的午餐。
記者了解到,國際一些大型生物學數(shù)據(jù)庫要求數(shù)據(jù)使用申請者提交詳細的數(shù)據(jù)使用說明,即使數(shù)據(jù)庫中已存有我國科學家所提交的相當規(guī)模的數(shù)據(jù),但想再取出使用卻絕非易事。
李亦學稱:“免費共享數(shù)據(jù)僅是從理論上而言,實際核心數(shù)據(jù)不會及時交給申請者,內行會發(fā)現(xiàn)獲得的數(shù)據(jù)都是非核心的或不完整的。臨床醫(yī)學相關的大數(shù)據(jù)庫則有專門委員會來審核數(shù)據(jù)申請者,如果拒絕申請,也不會給出理由。”
因此,為了具備拿數(shù)據(jù)的資格,我國科學家們常需反復準備申請材料,卻往往再也沒有下文。“受制于人,非常惱火。”李亦學感嘆道。
建大平臺遇“難題”
國家級生物數(shù)據(jù)庫的建立,往往帶有公益色彩,需要有長期穩(wěn)定的投入和專業(yè)的技術隊伍。據(jù)專家介紹,上世紀90年代,我國有關部門已考慮建立國家層面的數(shù)據(jù)中心,但直到現(xiàn)在,仍未討論出具體的實施方案。
那么,為何數(shù)據(jù)中心遲遲未能建立?
李亦學向記者算了一筆賬,英美國家對數(shù)據(jù)庫的建立投入了很多資金,引進的人才大部分有博士學位,每年的費用都由國會撥款支持,來源比較穩(wěn)定,一年約需投入1億美元。
“我國如果建立一個類似的生物大數(shù)據(jù)中心,應該也要有數(shù)百人的編制和每年幾億元的長期穩(wěn)定投入。這筆錢如果由政府支付,障礙仍然不小。”李亦學分析。
陳潤生也指出,建立一個國家層級的數(shù)據(jù)平臺雖然在科學界是共識,但是這個中心建立的地點、呈現(xiàn)的方式(實體還是虛擬)、囊括的內容、涉及的權利范圍以及怎么管理、由誰來管理都有很多不同的方案。
在這樣的形勢下,不能集中精力、統(tǒng)一調配全國的生物數(shù)據(jù)成了一道難題。
“用基因組數(shù)據(jù)得跟華大商量,用蛋白數(shù)據(jù)得跟其他人商量,小數(shù)據(jù)中心雖然有,但都是各自的,沒有統(tǒng)一的協(xié)調管理。沒有全國的生物數(shù)據(jù)中心,則無法統(tǒng)籌。”陳潤生道出了難處。
同時,我國生物數(shù)據(jù)雖然產(chǎn)出量大,但利用率遠遠不夠。盡管產(chǎn)生的數(shù)據(jù)提供了很好的信息,但是挖掘其全部價值還牽扯到很多方面。如數(shù)據(jù)量很大,能否在短時間內分析和挖掘其價值是個問題。
而且,大數(shù)據(jù)產(chǎn)生后需要相應的理論、技術和方法來跟進,也需要新的工具和方法。業(yè)內人士指出,國內現(xiàn)有的生物大數(shù)據(jù)分析能力雖然與歐美相差不大,但是在數(shù)據(jù)分析構架、軟件系統(tǒng)與先進的IT技術接軌上有待提升。
植根中國“土壤”
李亦學指出,生物大數(shù)據(jù)雖然面臨這些障礙,但是可以靠“抓目標、強合作”追上國際的腳步。
他認為,中國發(fā)展生物大數(shù)據(jù)的優(yōu)勢在于有海量樣本。
當下應該做的,就是保護國內的生物數(shù)據(jù)資源并且尋找有價值的利用方向。
“一是要明確生物大數(shù)據(jù)發(fā)展的目標和途徑,二是敞開胸懷和國內的研究單位合作,將生物大數(shù)據(jù)這項事業(yè)做好。”李亦學強調。
例如,我國目前實行的醫(yī)聯(lián)工程在上海地區(qū)已經(jīng)取得了一些成果。
三甲醫(yī)院和社區(qū)醫(yī)院把就診居民的就診記錄和健康檔案全部聯(lián)網(wǎng),建立了數(shù)據(jù)庫體系,包含了3400萬份電子病歷和檔案。
李亦學表示,在征得病人同意后調用健康檔案和檢查結果,既提高了看病效率,又不會妨礙隱私保護,像小水珠一樣的數(shù)據(jù)最終也能匯聚成汪洋大海,有益于生物大數(shù)據(jù)這項國家戰(zhàn)略資源的保護與利用。
陳潤生也指出,生物大數(shù)據(jù)發(fā)展應該腳踏實地,植根于中國的“土壤”,挖掘自身特色。
“中國的物種自身具備多樣的特點,完全有可能形成有特色的生物大數(shù)據(jù)體系。在這樣的形勢下,瞅準問題,發(fā)展生物大數(shù)據(jù)的目的性更強一些,這才是我們要關注的。”陳潤生說。