挑戰
隨著測序技術和基因組學的發展,基于基因測序的臨床診斷和個體化醫療等實際應用離我們越來越近。然而,基因組數據呈現指數級增長,相應的數據處理與分析正面臨著大規模數據和密集計算所帶來的時間和成本上的巨大挑戰,并影響著基因組學研究進程。面對日益增長的基因分析需求,如何解決大數據存取能力以及計算能力不足等瓶頸問題,成為當下基因組學研究和應用面臨的一大難題。
解決方案
云計算被認為是解決海量數據處理的最佳方案之一,然而通用的云計算平臺必須能夠支持各類軟件,只能選擇兼容性最好的x86硬件平臺,大規模的計算平臺其成本和能耗較高。而基因組學分析涉及的計算類型較少,依靠NVIDIA®(英偉達™)Tesla™的全新硬件,可望用更少的硬件和成本達到同樣計算處理能力,實現綠色計算。目前,我們在NVIDIA®(英偉達™)Tesla™平臺上,設計開發了針對基因信息數據的高效壓縮工具,同時針對造成分析瓶頸的計算任務,如序列比對、變異檢測等基本工具,利用GPU技術進行加速,從而提高分析效率,并降低數據存儲和計算分析的成本。
結果
基因組學數據的數據量需要在壓縮技術方面進行更多的研究。按照這類數據的特點,采用以列為主的分塊壓縮方式,我們針對Tesla™ GPU設計了一組壓縮算法,在保證壓縮率的前提下極大地提升了壓縮速度。以常用的FASTQ和SAM格式為例,相比使用gzip或bzip2壓縮,壓縮速度可達到10倍的性能提升。高效的壓縮工具可以直接減少處理時間,間接提高數據傳輸效率,降低存儲成本。
在基因研究和臨床醫療應用中,序列比對和尋找基因變異是兩個重要分析步驟。兩者也是主要的計算瓶頸,特別在臨床應用上具有更高的時效性要求。為此,我們借助NVIDIA®(英偉達™)Tesla™平臺,開發了應用于序列比對的SOAP3/SOAP3-DP,以及分別用于個體和群體基因變異分析的 GSNP和GAMA。
SOAP3/SOAP3-DP設計了新的索引數據結構,針對Tesla GPU架構做了充分優化,性能是其它主流軟件的數十倍,并且具有更高的準確率和比對率。解決了基因研究中最基本的分析瓶頸,同時提高了后續基因變異分析的準確度。
GSNP與其前身相比,采用稀疏表達格式優化數據結構,同時運用Tesla™ GPU實現高通量數據并行,原來處理一個人的數據需要三天以上的時間,GSNP僅需2小時左右,從而使得個體變異檢測初步達到快速臨床應用的要求。
GAMA引入GPU的并行計算技術對多個位點進行處理,加速計算過程。五百人規模計算分析,用普通計算機需要超過4年時間才可能完成,如果將計算在多塊GPU上并行進行,可以使計算時間縮短到數小時。這一效率的提升使得生物學家可以加快解析基因變異與疾病關系的步伐。
借助NVIDIA®(英偉達™)Tesla™平臺,綜合利用以上技術和軟件,使我們當前的數據分析效率得到極大提升,同時,降低了計算和存儲成本,特別是臨床診斷治療的時間成本。在NVIDIA® Tesla™平臺支持下,我們正努力推動基因組學研究實際應用轉化,為大眾健康幸福保駕護航。