2014年,百度以大數據分析的方式預測高考試題,成功押中了全國18套作文考題中的12套,成為大數據在現實生活中應用的一個經典案例。近幾年,大數據的研究和實踐向各個領域滲透,當人們把雜亂無章的信息通過一定的規范進行數據整理和數據挖掘變成了有效的知識,并升華出改變社會能力的智慧因子的時候,大數據作為一種工具和平臺應運而生,生物則是大數據應用最為關鍵的領域。從微生物數據分析研究到醫院大數據的存儲分析和管理,再到全國流行病數據分析在地圖上的疊加和展示,呈現出國內不同慢性疾病及健康狀況的全面動態實時分布,生物大數據正在給我們的未來提供更多創新機會。
歐美、日本等國家早已開始制定國家戰略,建立國家級別的生物數據庫,以此把控科技發展和創新的制高點以及市場先機,我國亟待在這一新興的技術和戰略領域出現曙光之時謀得一席之地。
為此,9月26日,由科技部中國生物技術發展中心和復旦大學聯合主辦、復旦大學附屬中山醫院承辦的生物大數據戰略研討會在上海舉行。與會專家均為國內大數據研究領域的領軍學者,大家一致認為,生物大數據將是今后一個階段科技創新的基礎,應從國家層面給予重視,并制定相應的國家策略,在大數據分析標準、人才培養、資源共享機制上提供具體的指導性意見,為中國生物大數據的發展培植一個良好的沃土和環境,為未來參與到全球大數據技術研發與競爭以及市場應用提供可行的目標和方案。
生物大數據創新價值無限
隨著以新一代基因組測序技術為代表的高通量生物實驗技術的出現,人類獲得了以前所未有的深度和廣度觀測生物體運行機制的能力,生物實驗數據的全面性、精確性和數據量達到了空前的程度,從而產生了生物大數據。更重要的是,這些數據仍然不斷的以幾何級數在增長。
“基因組數據給我們帶來了許多的創新機會”,中國科學院院士陳潤生在研討會上說,“大數據時代并不意味著為了大數據而大數據,其目的是為我們發現新的生物學規律,為工業生產、醫療實踐提供更好的依據”。
陳潤生以基因組中的暗物質——非編碼核酸為例指出,生物領域仍有許多重大的科學問題沒有解決。2012年12月17日的《科學》在評價人類進入21世紀科學進展的時候,提出了自然科學領域的十大突破,第一個提出來的就是所謂的基因組中的暗物質,并指出這是在人類自然科學領域最值得激動和關心的,即遺傳密碼信息中迄今為止還有很多不為人知的秘密。
首先,當科學家破譯了人類基因組后發現,編碼蛋白質的傳統基因的部分只占人類基因組的3%。“那97%才是我們大數據中未知的廣大領土,這里面蘊含著重大的科學規律。而圍繞現有的3%的研究,整個世界科學領域已經造就出了無數著名的科學家”,陳潤生感嘆道,大數據本身包括基因組大數據,更多的是給我們提供了創新及實際應用的機會。
其次,像華大基因這樣的企業,測序量大約是世界基因組測序量的40%,處于全球第一的水平,但這些數據里有多少人們已經從中獲得了認知。“我們產生的數據遠遠比從中獲得的認知大得多,如果不建立大數據的分析方法,發展大數據分析和應用,就是很大的浪費。”陳潤生強調,要從理論基礎和方法上進行重大變革,這樣方有機會在大數據的時代做出全新的創新,為我國的醫療實踐,為工農業生產創造更多的價值和機會。
給醫療大數據應用更多投入
復旦大學附屬中山醫院是從上個世紀90年代開始進行信息化建設的。2003年,醫院獨立自主建立了信息化系統,確立了以醫務為先導,以數據為核心,服務臨床一線患者健康的宗旨。經過多年的建設,基本形成了覆蓋全院各個部門、各項流程、相對完備的信息系統。數據顯示,目前系統內已經積累了669萬條病史記錄,4958萬條醫囑信息,3.86億個檢驗,278萬份影像數據。
“我們醫院正在建設的病例系統更是數據驚人,每張ct片掃描后,數據量超過了1gb”,中山醫院院長樊嘉教授介紹說,檢查數量累計一年的數據要超過400tb,大數據開啟了一次重大的時代轉型,如何分析和利用這些數據是當前急需研究的課題。中山醫院已做了一些嘗試,在全院信息系統的基礎上單獨建立了臨床數據庫,并逐步形成了一些單病種的數據庫,為臨床科研提供數據支持,建立了生物樣本庫管理系統,為系統管理科研樣本提供了技術支撐。
生物大數據戰略要挖掘大數據的潛在價值,探討生物大數據的整合利用,構建大數據的運行和管理體系,完善大數據利用的法律法規,對此,樊嘉教授呼吁,國家應加大在大數據方面的投入。
大數據需法規保護和人才支持
生物大數據的研究包括數據存儲、大數據管理、大數據分析、大數據科學和大數據應用,是一個多學科共同參與的領域。統計顯示,2014年對大數據分析師的職位空缺達100多萬。那么,從事大數據的科學家都需要什么技能呢?
來自emc中國研究院的技術總監孫宇熙研究員認為,一般做大數據的人比普通的軟件工程師有更多的統計學知識,但毫無疑問又會比統計學的從業人員有更多的編程能力。他強調,數據科學的目的是為了挖掘隱藏在數據中的信息,獲取一個全面的洞察力。從業人員要從數據、信息、知識、理解、智慧五個方面入手。
目前,從事生物大數據的有三類人才,第一類被認為是手里有數據的人,即那些從事生命科學領域研究的科學家以及掌握著很多有效數據的人;第二類是it領域做大數據技術開發和應用的人;第三類是結合生產實踐進行大數據二次開發的人。第一類人不斷挖掘出有效數據,第二類人探索數據增長帶來的技術挑戰,第三類人要用好數據,但三者又是互通有無的。
中國標準化研究院副院長邱月明研究員指出,除了人才之外,國家在現階段應該對大數據和生物大數據的標準化給予更多關注。“要解決誰可以利用大數據,從什么途徑來保護這些大數據的知情權、使用權以保證隱私。目前,我國還沒有建立專門的法律法規,要先有法律法規,然后才有標準,并通過系統構建生物大數據平臺達成知識共享體系”,邱月明說。
國家層面進行戰略設計及數據儲備
伴隨著生物大數據的信息技術維護是我國生物數字主權的必要手段。有科學家指出,世界上三大數據中心都在歐美和日本,我國產生了這么多數據,可目前數據還要提交到上述幾大中心,這對我國的數字主權是極大的挑戰。
哈爾濱工業大學計算機學院和軟件學院院長王亞東教授告訴科技日報記者,我國生物信息獲取的平臺技術受制于國外產品,缺乏引領國際組學基礎研究計劃的能力,同時,生物數據分析與利用能力嚴重不足,缺少自主知識產權的高價值生物數據資源,我國的醫療數據幾乎不能共享,轉化利用率低,我國生物大數據產業尚未形成。
與會代表認為,我國已經成為生物信息技術的產出大國,怎樣把有效的資源集中投入到研究中去,應該形成業界共識,形成戰略發展目標。當務之急是建設國家生物大數據中心,將之看做“兩彈一星”同等的重要,此外,要持續加強對新一代/新原理測序設備的研發。以大數據為代表的生物信息技術發展已經是箭在弦上,沒有退路,只有積極迎頭趕上全球技術的創新和應用發展。
以應用需求帶動大數據技術發展
復旦大學金力院士指出,通過本次大會不同領域的專家,尤其是與生物醫藥領域之外的大數據專家的交流,達成了關于生物大數據的兩項基本共識:一是所謂生物大數據是由數據、技術、應用三部分組成,三者缺一不可;二是應該以生物醫藥領域的應用需求來帶動生物大數據技術的發展,并建議“十三五”國家在做大數據整體規劃設計方向的時候,最重要的是要明確生物大數據的發展目標。
據悉,未來生物大數據的研究成果及數據將有望匯集到國家的層面上。國家的戰略目標是使我國的組學大數據中心在世界上具有一定的發言權、話語權和主導權,能夠讓世界看到中國,看到中國的生物醫藥產業,更看到中國的強大。