目前獲取海量數據變得越來越方便,但一家機構與另一家產生的資料有很多差別,把這些信息集中分析時就需要一個共同的標準。
標準化雖然艱難,但與會的業內人士普遍認為,當務之急是解決生物醫學和信息科學兼通的復合型人才缺乏困境。
大數據時代正在深刻影響生物醫學研究:海量數據需要在不同系統和機構間共享和分析,但因缺乏統一的標準而使研究者無從下手;信息技術和生物醫學的結合更加緊密,兩者兼通的復合型人才也明顯缺乏。
面對如潮水般涌來的海量數據,如何更好地利用,成為了信息技術和生物醫學領域共同面對的挑戰。
大數據時代來臨
2012年,美國政府發布了《大數據研究和發展倡議》,旨在利用大量復雜數據集合獲取知識和提升洞見能力,投入金額高達2億美元。
所謂大數據,或稱巨量資料,指的是所涉及的資料量規模巨大到無法透過目前主流軟件工具,在合理時間內達到擷取、管理、處理并整理成為幫助決策更積極目的的資訊。
2月18日至20日,由李嘉誠基金會出資舉辦的以“信息技術與未來醫學”為主題的第二屆“與大師同行”學術交流活動上,來自耶魯大學、麻省理工學院與哈佛大學博勞德研究所、美國勞倫斯伯克利國家實驗室、中國工程院等研究機構的國際知名學者,對大數據對生物醫學的影響、大數據時代生物醫學研究標準化困境和復合型人才缺乏難題進行了探討。
中國工程院院士韋鈺對《中國科學報》記者表示:“生物醫學正進入大數據時代,很多研究都是大數據研究、大數據存儲,從大數據里面挖掘新信息。”
她舉例說,比如現在診斷某種疾病,醫生可能需要調用患者的基因數據、從小到大的病歷等大量數據。
深圳華大基因研究院院長汪建近日曾表示,大數據與大科學是未來生物經濟發展的核心點。“要解決當前生命科學的問題,需要從時空狀態對生老病死進行解讀,這就需要大數據。這種大數據揭示的就是大科學,從而衍生出大產業。”
僅以深圳國家基因庫為例,其中的樣本量已達130萬份,其中人類樣本115萬份,動植物、微生物等其他樣本15萬份。至2013年底,預計實現1000萬份可溯源生物樣本的存儲,2015年底實現3000萬份生物樣本的存儲。
而這僅僅是不斷膨脹的大數據的冰山一角。
標準化困境
不同系統和科研機構之間難以實現標準化的數據共享和分析,這令很多科學家無所適從。
美國特拉華大學生物信息學和計算機生物學中心主任吳慧華對《中國科學報》記者表示,上述問題是生物醫學與信息科學結合過程中遇到的關鍵難題。目前獲取海量數據變得越來越方便,但一家機構與另一家產生的資料有很多差別,把這些信息集中分析時就需要一個共同的標準。
以對大數據需求最為迫切的醫院為例。美國勞倫斯伯克利國家實驗室基因組科學部主任魯賓(Rubin)表示,理想狀態下的目標是建立統一的電子病歷系統,這些信息應該有統一的標準,但現實并非如此,各個醫院存儲的數據標準不同,而且不同系統存儲的信息也不一樣。
據吳慧華觀察,目前在美國等國家,不同機構和資料庫產生和存儲的數據都是遵從不同的標準,標準化問題在業內尚未達成共識。
對于標準化之難,魯賓對《中國科學報》記者解釋道,數據量大并非關鍵,而是數據類型的多樣性導致了難以統一標準。
他說,比如基因測序,雖然數據量很大,但屬于同一類型,就比較容易在同一標準下進行分析,而生物醫學方面的數據就困難得多,涉及血壓、心跳等多種不同類型的臨床和數字化信息,有些數據之間難以關聯,這便造成了標準化的挑戰。目前各個國家已經開始重視這個問題,信息科學和生物醫學的學者需要更加緊密的合作。
在吳慧華看來,中國科學家應該積極加入國際標準的討論、設計和制定中,更多參與國際上的生物醫學信息共享。
復合型人才缺乏
標準化雖然艱難,但與會的業內人士普遍認為,當務之急是解決生物醫學和信息科學兼通的復合型人才缺乏困境。因為兩者結合過程中的標準化及一系列問題的化解,需要研究者對兩個領域都有很深的造詣。
據與會專家介紹,目前鮮有高校主動設置生物醫學和信息科學的交叉學科和院系,橫跨這兩個領域的復合型人才大多源自學者自發或在導師引導下的選修。
耶魯大學醫學院干細胞研究中心主任林海帆對自己的一位學生印象深刻。這位學生曾經主動提出關注生物信息方面的研究,當年很多老師以為他不務正業。最后他選擇了兼修信息科學,現在已經是生物醫學和信息科學兼備的稀缺人才。
“我發現有的學生雖然選擇生物專業,但其實很有數學天分,我們研究所信息部的主任就是這樣培養出來的。”林海帆對《中國科學報》記者表示。
吳慧華也是這種復合型人才的典型。她同時具備生物學和計算機科學教育背景,曾獲臺灣大學理科學士學位、美國普渡大學植物病理學碩士和博士學位,得克薩斯大學泰勒分校第二碩士學位(計算機學)。
為促進多學科研究和教育,她2009年在特拉華大學創立生物信息學與計算生物學中心(CBCB),由來自5個學院的60多名教師組成,并創立或負責多個生物信息學教育項目。
麻省理工學院和哈佛大學博勞德研究所副主任、首席信息官梅西羅夫(Mesirov)向《中國科學報》記者介紹,美國政府正在推動計算機科學和生物學等交叉學科的教育,從國家級科學中心的層面促進高中階段的學生就開始學習交叉學科的知識。
這也許對中國會有所借鑒。