醫療行業的變革正成為新的風口,今天鈦媒體作者想講講大數據與基因技術結合,正在產生什么新的想象力。其中尤以基因檢測技術走到了前面,讓我們談談“帕金森綜合癥”:
在未來,基因檢測術將會成為醫療不可或缺的一部分。越來越多的人會進行基因測序來了解自己的生命體征和健康狀況。國內最大的基因檢測機構——華大基因,也正在抓住機會,用信息技術提升基因檢測技術,致力于提供更好的基因服務。
華大基因成立于1999年,目前已經完成國際人類基因組計劃“中國部分”(1%,承擔其中絕大部分工作)、國際人類單體型圖計劃(10%)、第一個亞洲人基因組圖譜(“炎黃一號”)等多項具有國際先進水平的基因組研究工作。世界領先的測序能力和生物信息分析能力,奠定了中國在基因組學研究領域中的國際領先地位。
基因,這個被我們熟悉卻又十分陌生的詞匯開始頻繁出現。然而基因檢測海量、復雜、多變的數據計算需求一直是華大基因前進道路上的鴻溝。解決數據分析和計算成了必須要克服的問題。
目前,華大基因已在深圳、香港、北京和武漢等地建立多個大型生物信息超級計算中心,總峰值計算能力達到200T flops,總內存容量達到35TB,總存儲能力達到16PB。這為海量生物信息學數據的存儲、處理和分析提供了穩定而高效的保障。其中位于深圳和香港的兩個中心,是目前中國最大的兩個生物信息超級計算中心。
大數據打入帕金森
2014年8月13日,邁克爾路J路福克斯帕金森氏癥研究基金會(MJFF)和英特爾公司對外宣布了一項合作,促進帕金森氏癥的研究和治療——帕金森氏癥是一種全球范圍的、患病率僅次于阿茲海默氏癥的神經退行性腦部疾病。這項合作將利用全新的大數據分析平臺進行多階段研究——利用可穿戴技術監測患者癥狀,并用收集得來的數據探索相關模型。
可穿戴設備能夠24×7全天候地在后臺實時收集和傳輸相關客觀數據。通過這種方法,研究人員能以每秒數百讀數的速度分析來自成千上萬患者的數據,同時獲得海量數據以用于探索模型和獲取新發現,再也不必受限于零星收集得來的少量數據信息和繁雜的書面患者日志。
所有這些,都可進一步幫助實現針對帕金森氏癥本質的洞察,從而幫助科學家們衡量新藥品的功效,以及協助醫生制定預后方案。
英特爾公司高級副總裁兼數據中心事業部總經理柏安娜表示,“帕金森氏癥癥狀的多樣性給疾病檢測的進展帶來了巨大挑戰。新興的技術不僅可以創建一個測量帕金森氏癥的全新范例,還能為醫學界提供更多數據,以便找出目前尚未明確的疾病特征,從而開拓全新的研究領域。”
大數據和云計算給醫療界帶來了新的光明,利用它們來解決基因測序帶來的問題是大勢所趨。
解決信息技術瓶頸
“只有以科學發展,以大技術、大平臺、大數據支撐下的基因產業,才是無窮無盡的,永遠沒有冬天。”華大基因總裁、深圳華大基因研究院院長汪建先生如是說。這也最終促成了華大基因與英特爾的合作。
華大基因在基因測序計算中應用的BWA(Burrows-Wheeler Aligner),是基因研究中一款十分優秀并且被廣泛使用的序列比對軟件。由于BWA軟件代碼分支多,并且有很多隨機訪問,起初大家都不看好BWA的移植效果。但實際測試性能卻已經完全出乎專家預期。
BWA包括6種優化方法:
第一,使用OpenMP代替Pthreads, 使用schedule實現負載均衡、使用KMP_AFFINITY=balanced, granularity=thread實現線程綁定。
第二,使用雙緩存,同時進行數據讀取和計算。
第三,使用TBB的內存分配代理取代glibc的內存分配。
第四,使用多緩存進一步減少IO瓶頸。
第五,簡化耗時函數中的循環。
第六,在至強融核上增加任務級并行按照輸入文件進行任務劃分,每個任務處理一部分輸入數據,避免OpenMP的Map-Reduce并行模式帶來的負載不均衡的開銷。
在嘗試了6種優化方法之后,BWA獲得的最好加速比已經達到2.19。
而不得不說的是至強和至強融核的組合在代碼遷移和優化上為基因測序帶來了非常大的優勢。華大基因的王丙強博士說:“代碼的修改工作量不大,只需要對源代碼進行很小幅度的修改,是添加一些輔助編譯指示,就能在這個組合上運行的相當好。”
實際應用中,借助英特爾的產品技術,計算效率能大大提高。以測序為例,以前傳統的方式需要幾個星期時間,而現在8個小時就可以完成。這是非常大的突破。
這一重大突破的背后,則是英特爾至強融核協處理器(Xeon Phi)。這是英特爾面向高度并行的高性能計算(HPC)應用所推出的協處理器,能夠提供多達61個內核、244個線程和1.2萬億次浮點運算性能。此外,英特爾至強處理器架構使用同樣的編程語言、并行模式、技術和開發人員工具,因此以往在至強處理器上運行的應用,在向至強融核上遷移時,具有更便捷、更易于移植等優勢。
其編碼的簡單可移植性,正是基因測序相關程序中的重要需求。而其強大的計算能力為提高基因測序速度提供源動力,標準的編程模型也為基因測序向至強融核上的移植提供了便利。
在測試基于英特爾至強和至強融核的高性能計算平臺的同時,華大基因也正在執行3M百萬基因組計劃,即百萬動植物基因組計劃、百萬人基因組計劃、百萬微生態基因組計劃。該項目將聯合全球科學家,通過上百萬樣本的測序構建遺傳信息的數據庫,進一步推動基因組測序和生物信息分析技術在糧食安全、醫學應用、生態保護等重大發展問題的應用。
而面對如此大規模的數據項目,華大基因的計算能力稍顯不足。在不斷擴充自身計算能力的同時,華大基因還在考慮借助天河二號這樣的超級計算機的計算能力來進行數據的計算和分析。
現代生命科學和醫療健康正轉變為由大數據和大計算推動。在這個技術為王的時代,任何獨立的高端技術都將面臨寒潮。只有相互協作,共同探索開發,才能真正的造福于人類。