來源:數據猿 作者:方向東
本文為數據猿年關策劃活動《大數據的2016,我的2016》系列稿件,感謝本文作者 中科院博士 方向東 先生的投稿(數據猿專訪方向東)。
敬請期待春節后的2月16日,由數據猿與中歐商學院、騰訊視頻共同舉辦的高端領袖線下演講欄目中歐微論壇之《超聲波》。
人的一生,簡單的講,不外乎“生老病死”。我們能抗爭的、個體差異最大的就是“病”了。幾千年文化、知識、技術、經驗的累積,人類對自身健康狀況的了解以及疾病干預的能力都大大提高。然而,我們對自身健康的掌控能力離預期還遠遠不夠,面對各類疾病缺少深入的了解、精細的分類和有針對性的治療。
旨在正確的時間,給正確的人,使用正確的藥物的“精準醫療”應運而生。獲取和掌握組學、臨床信息等生命大數據里包含的海量信息是醫療邁向精準的重要前提。生命大數據的累積和挖掘將逐步揭示健康與疾病的全景關聯圖。
生命大數據支撐精準醫學研究
人類基因組計劃(human genome project,HGP)、基因組單體型圖計劃(hapmapproject)、全基因組關聯分析(genome-wide association study,GWAS)、DNA 元件百科全書(encyclopedia of DNA elements,ENCODE)、表觀路線圖(NIH roadmap epigenomics)等大型組學計劃的順利完成,帶動了生命科學領域的重大變革。
高通量測序、高性能質譜等組學技術得以快速發展,生命科學研究產生了大量有價值的包括基因組學、轉錄組學、蛋白質組學、代謝組學等在內的“生物大數據”。整合分析多重組學數據和臨床資料,構建健康與疾病的知識網絡,將有望對疾病發展和不同病理狀態進行更加準確的分類,為不同遺傳背景的患者提供個體化診斷及精準治療。
很顯然,科學家們都已經意識到各類生命大數據的重要作用。然而,以上重要的大型組學計劃均由歐美國家發起,獲得的數據主要基于歐美人群。中國人口眾多,遺傳背景與歐美人群有較大差異。實現中國人民的精準醫療,則需要中國人群的生命大數據來推動。
中科院在2015年啟動重點部署項目“中國人群精準醫學研究計劃”,將在4年內完成4000名志愿者的DNA樣本和多種表現型數據的采集,并對其中2000人進行深入的精準醫學研究,包括全基因組序列分析,建立基因組健康檔案,針對一些重要慢性病的遺傳信號開展疾病風險和藥物反應的預警和干預研究。這些數據將會成為非常寶貴的中國人群遺傳信息資源。
科技部于2016年3月8日公布《關于發布國家重點研發計劃精準醫學研究等重點專項2016年度項目申報指南的通知》,拉開了精準醫療重大專項科研行動的序幕。本年度的科研專項包括構建百萬人以上的自然人群國家大型健康隊列和重大疾病專病隊列,建立生物醫學大數據共享平臺等。
在國家戰略需求層面,生命大數據研究正如火如荼的開展起來,為精準醫學研究打下基礎。這一系列大數據項目的開展,將建設一套符合我國國情的生命大數據的獲取、分析、存儲、使用等規范;多個與健康相關的中國人群生命大數據知識庫;面向科研人員和醫務工作者的友好共享數據平臺等等。基于這些大數據挖掘生命動態規律,將是通向精準醫療的重要基石。
綜合組學大數據和臨床大數據挖掘生命規律
生命大數據包含的種類繁多,包括基因組、轉錄組、蛋白組、表觀組、宏基因組等各類組學數據和影像、生化指標、標型特征等各類臨床數據。我國各類組學數據主要產生于科研院所和高校,臨床數據主要來源于各類醫療機構。
整合多類數據,挖掘深層機制無疑是行之有效的方法。過去的整合分析主要是限于各類組學數據內部,例如綜合組蛋白修飾數據、轉錄組數據和染色質相互作用數據篩查全基因組范圍內的順式作用元件。當面對精準醫療,需要明確疾病的不同亞型及對應的分子機制,以及合適的治療方案,大數據在整合分析、挖掘時則必須要加上臨床大數據。
在2016年,多家科研機構和醫療機構聯合起來,共同攻關生命大數據:
中科院北京基因組研究所聯合中科院生物物理研究所、浙江大學、復旦大學、國家衛計委信息統計中心、北大人民醫院、中南大學湘雅醫院系統等構建精準醫學大數據處理和利用的標準化技術體系。
軍事醫學科學院放射與輻射醫學研究所聯合多家機構構建精準醫學大數據管理和共享技術平臺。
少量生命大數據的研究成果已經進入普通百姓的視野
在媒體的大力宣傳下,大數據和精準醫療的概念已出現在普通百姓的生活中。一些基于生命大數據的成果已經被用到普通消費者身上,最為常見的就是基因檢測了。
通過對具有特定特征(如患某種疾病)的人群和對照人群進行遺傳物質的對比和關聯研究,可挖掘出一些與該特征相關的基因位點。一些商業公司將同類疾病的不同研究結果綜合起來,評估消費者患某類疾病的風險。這被認為是一個很酷、有用、擁有巨大商業前景的行業,因此近一兩年內成立了許多面向普通消費者的基因檢測公司。
“十三五”期間的生命大數據
我國的精準醫療從今年開始落地實施,研究內容涉及到大規模人群隊列研究和精準醫學大數據研究??梢灶A見,在三到五年內,將會產生大量中國人群的各類生命大數據以及對應的知識注釋。
一方面,這些大數據將有望打破歐美國家對生命大數據的壟斷,形成世界范圍內的新布局;同時,將有力推動我國生命科學研究和健康事業;此外,階段性的成果也可能會被單獨拿出來,直接走向面對普通消費者的商業模式中(就像基因檢測一樣)。
伴隨著美好愿景的,也一定還有潛在問題:
1、我國還缺乏一個國家級的、被廣大科研人員認可的數據存儲、使用、共享平臺;
2、大數據的安全與管理也是重中之重;
3、各類公司帶著一些成果直接面向普通消費者,但缺乏統一、可用的行業標準,不當的基因解讀有可能傷害一些消費者,造成普通百姓對大數據行業的誤解。
關于作者
方向東博士為中國科學院“百人計劃”研究員;中國科學院大學生命科學學院、醫學院、中丹學院教授、博士生導師;曾任美國華盛頓大學醫學院(UW, WA)醫學遺傳系助理教授。主要從事醫學遺傳學、生物大數據與精準醫學研究。