我國的生物組學數據產量約占全球的40%,卻沒有國際認可的數據庫系統,不得不把自己寶貴的數據資源交給他人代管——這樣的情況即將改變。中國科學院北京基因組研究所近日宣布,已初步建成生命與健康數據匯交與共享平臺,我國科學家的數據能自己做主了。
記者從北京基因組研究所得悉,該所下屬的生命與健康大數據中心圍繞國家精準醫學和重要戰略生物資源的組學數據,建立了海量生物組學大數據儲存、整合與挖掘分析研究體系。
什么是組學?大數據中心研究員章張介紹,這是將基因、蛋白質及代謝物等生物分子以整體為單位進行系統性的研究,基因組學、轉錄組學、蛋白質組學和代謝物組學等相應產生。相較于此前以個體為單位的研究,組學最主要的特征就是大數據。
隨著測序技術的發展,生命科學領域進入組學時代,海量的數據產出成為常態。搭建組學數據庫,實現海量信息的存儲、整合及共享成為一項重要任務。此前,在國際上被認可的生物組學數據中心主要有美國的NCBI、歐洲的EBI及日本的DDBJ。要想在國際期刊發表論文,需要先將自己的原始數據提交到這三個數據庫中。
章張說,這種情況看似有利于國際科學數據的資源整合與共享,實際上對我國的科學研究發展帶來了很大影響,不僅數據提交時效率低,在數據下載時更有各種限制。
大數據中心高級工程師趙文明告訴記者,《美國國家科學院院刊》《細胞研究》等多個國際期刊已經認可把數據提交到北京基因組研究所生命與健康大數據中心,標志著我國建設綜合性基因組數據資源獲得國際同行認可。
據了解,目前的數據資源系統包括高通量測序的原始組學數據歸檔庫,圍繞國家重要戰略生物資源的基因組數據庫,基于測序數據的基因表達數據庫,基于中國人群以及國家重要物種群體的基因組變異數據庫,基于全基因組DNA甲基化圖譜的表觀基因組數據庫,以及基于大眾審編的生命科學維基知識庫。
該研究主要在中科院戰略先導專項和國際大科學計劃的支持下完成。