基因測(cè)序,一直就是科學(xué)家不斷地孜孜追求破譯生命遺傳信息的關(guān)鍵方法,而其海量、復(fù)雜、多變的數(shù)據(jù)計(jì)算需求一直是橫越在前行道路上的一道鴻溝。隨著多年來超級(jí)計(jì)算機(jī)的不斷發(fā)展,高性能計(jì)算在基因測(cè)序發(fā)展上發(fā)揮了重大的助推作用。而作為中國(guó)首屈一指且世界知名的基因研究機(jī)構(gòu)——華大基因,其借助高性能計(jì)算優(yōu)勢(shì)在基因測(cè)序相關(guān)研究及應(yīng)用上作出了令人矚目的成績(jī),而其在全新基于英特爾微異構(gòu)架構(gòu)的高性能計(jì)算平臺(tái)上的測(cè)試,取得了重大進(jìn)展進(jìn)一步加速了基因測(cè)序。
高性能計(jì)算助力基因測(cè)序
“每個(gè)人約有1萬億個(gè)細(xì)胞,每個(gè)細(xì)胞里面都有23對(duì)染色體,這些染色體中包含的DNA由ATCG不同堿基序列構(gòu)成,數(shù)量共計(jì)達(dá)30億,這些基因序列就是破解人類遺傳信息奧秘的鑰匙”,華大基因高性能計(jì)算研發(fā)主管王丙強(qiáng)博士介紹到,基因測(cè)序工作就是要通過大規(guī)模的計(jì)算分析從海量的數(shù)據(jù)信息中辨識(shí)載有的基因及其序列,最終獲取遺傳信息。
人類基因組計(jì)劃 (human genome project, HGP)旨在繪制人類基因組圖譜最終達(dá)到破譯人類遺傳信息目的,該計(jì)劃于1990年正式啟動(dòng),而這也正是催生華大基因成立的重要原因。龐大而復(fù)雜的海量數(shù)據(jù)早已超出人類計(jì)算的能力,要想及時(shí)且準(zhǔn)確地大規(guī)模處理這些數(shù)據(jù)就不得不依靠計(jì)算機(jī)的高性能計(jì)算。“華大基因一直非常重視高性能計(jì)算平臺(tái)的建設(shè)”,王博士介紹到,華大基因建立了基于高性能計(jì)算的大規(guī)模測(cè)序、生物信息、克隆、健康、農(nóng)業(yè)基因組等技術(shù)平臺(tái),其測(cè)序能力及生物信息分析能力世界領(lǐng)先。自1999年成立以來,華大基因成功完成了國(guó)際人類基因組計(jì)劃“中國(guó)部分”在其中承擔(dān)了絕大部分工作,并在Nature和Science等國(guó)際一流的學(xué)術(shù)雜志上發(fā)表百余篇學(xué)術(shù)論文,奠定了中國(guó)基因組科學(xué)在國(guó)際上的領(lǐng)先地位。
華大基因目前已在深圳、香港、北京和武漢等地建立多個(gè)大型生物信息超級(jí)計(jì)算中心,總峰值計(jì)算能力達(dá)到200T flops,總內(nèi)存容量達(dá)到35TB,總存儲(chǔ)能力達(dá)到16PB。這為海量生物信息學(xué)數(shù)據(jù)的存儲(chǔ)、處理和分析提供了穩(wěn)定而高效的保障。其中位于深圳和香港的兩個(gè)中心,是目前中國(guó)最大的兩個(gè)生物信息超級(jí)計(jì)算中心。
華大基因展示的雜交石斑魚,其生長(zhǎng)速度和體重是普通石斑魚的2-3倍,而且口感更好
至強(qiáng)融核進(jìn)一步加速基因測(cè)序
在尋求更快更高效的高性能計(jì)算基因測(cè)序方案的過程中,華大基因一直在嘗試新的技術(shù)和方法來進(jìn)一步加速基因測(cè)序。面對(duì)復(fù)雜的基因測(cè)序數(shù)據(jù)處理,既要擁有高性能的計(jì)算能力,又要考慮其經(jīng)濟(jì)效益,并結(jié)合未來在相關(guān)研究的發(fā)展,經(jīng)過多番考量和研究,華大基因最終選擇了與英特爾聯(lián)手啟動(dòng)關(guān)于至強(qiáng)融核協(xié)處理器在生命科學(xué)領(lǐng)域的應(yīng)用項(xiàng)目。
至強(qiáng)融核協(xié)處理器(Xeon Phi)是英特爾面向高度并行的高性能計(jì)算(HPC)應(yīng)用所推出的協(xié)處理器,能夠提供多達(dá) 61個(gè)內(nèi)核、244個(gè)線程和 1.2萬億次浮點(diǎn)運(yùn)算性能,此外其余英特爾至強(qiáng)處理器架構(gòu)使用同樣的編程語(yǔ)言、并行模式、技術(shù)和開發(fā)人員工具,具有遷移便捷編程可移植等優(yōu)勢(shì)。
“我們?cè)敢鈬L試英特爾至強(qiáng)融核,首先是看中了其編碼的簡(jiǎn)單可移植性,這是來自基因測(cè)序相關(guān)程序的重要需求;其次,我們?cè)谖磥硐虢柚?013年在全球高性能計(jì)算機(jī)500強(qiáng)排名第一的廣州天河二號(hào)超級(jí)計(jì)算機(jī)的計(jì)算能力,而它就正是就基于英特爾微異構(gòu)的。”華大基因高性能計(jì)算研發(fā)主管王丙強(qiáng)博士介紹到。
英特爾微異構(gòu)效果超出預(yù)期
華大基因在基因測(cè)序計(jì)算中應(yīng)用的是BWA(Burrows-Wheeler Aligner),是基因研究中一款十分優(yōu)秀并且被廣泛使用的序列比對(duì)軟件。“由于BWA軟件代碼分支多,并且有很多隨機(jī)訪問,起初我們認(rèn)為BWA移植效果可能不會(huì)太好”,王丙強(qiáng)博士介紹到,“然而,實(shí)際測(cè)試的性能表現(xiàn)非常不錯(cuò),大大超出了我們的預(yù)期,我們共嘗試了6種優(yōu)化方法,獲得的最好加速比能達(dá)到2.19。”
值得一提的是,微異構(gòu)代碼遷移和優(yōu)化上也帶來了很多優(yōu)勢(shì),王丙強(qiáng)表示,代碼的修改工作量的確不大。“只需要對(duì)源代碼進(jìn)行很小幅度的修改,是添加一些輔助編譯指示,就能在微異構(gòu)上運(yùn)行的相當(dāng)好。”他說。
更強(qiáng)計(jì)算力加速生命解謎
在測(cè)試基于英特爾微異構(gòu)的高性能計(jì)算平臺(tái)的同時(shí),華大基因也正在執(zhí)行3M百萬基因組計(jì)劃,即百萬動(dòng)植物基因組計(jì)劃、百萬人基因組計(jì)劃、百萬微生態(tài)基因組計(jì)劃,該項(xiàng)目將聯(lián)合全球科學(xué)家,通過上百萬樣本的測(cè)序構(gòu)建遺傳信息的數(shù)據(jù)庫(kù),進(jìn)一步推動(dòng)基因組測(cè)序和生物信息分析技術(shù)在糧食安全、醫(yī)學(xué)應(yīng)用、生態(tài)保護(hù)等重大發(fā)展問題的應(yīng)用。
“當(dāng)面對(duì)如此規(guī)模的數(shù)據(jù)的項(xiàng)目時(shí),華大基因的計(jì)算能力仍顯得有些不足,因此一方面我們不斷擴(kuò)充自身的數(shù)據(jù)中心,另外也在考慮借助天河二號(hào)這樣的超級(jí)計(jì)算機(jī)的計(jì)算能力”,王丙強(qiáng)博士介紹到,“這些項(xiàng)目對(duì)計(jì)算能力的需求非常大,未來就看微異構(gòu)如何來加速這些基因測(cè)序的計(jì)算和分析了。”