近日,國(guó)際權(quán)威期刊《自然》雜志以《基因組學(xué)巨頭提供數(shù)據(jù)服務(wù)》為題,報(bào)道了全球最大的基因組測(cè)序機(jī)構(gòu)之一華大基因正展望于云計(jì)算,在全球引起廣泛關(guān)注。
記者獲悉,華大基因宣布將在今年計(jì)劃推出生物云計(jì)算服務(wù),希望通過(guò)產(chǎn)品創(chuàng)新,更好地滿足各大科研機(jī)構(gòu)及生命科技行業(yè)對(duì)信息能力的需求。屆時(shí)用戶可以通過(guò)互聯(lián)網(wǎng)遠(yuǎn)程操作進(jìn)行測(cè)序數(shù)據(jù)的處理,隨時(shí)隨地獲取生物信息分析資源。
“高性能計(jì)算”支撐華大整體發(fā)展
《基因組學(xué)巨頭提供數(shù)據(jù)服務(wù)》報(bào)道指出,由于DNA測(cè)序技術(shù)成本的下降幅度遠(yuǎn)遠(yuǎn)高于測(cè)序數(shù)據(jù)存儲(chǔ)成本,云計(jì)算已成為基因組學(xué)研究領(lǐng)域中的一個(gè)日趨重要的工具或服務(wù)。目前一般的研究實(shí)驗(yàn)室均缺乏存儲(chǔ)、計(jì)算資源和處理當(dāng)前龐大基因組數(shù)據(jù)的技術(shù),華大基因提供的云計(jì)算服務(wù)將為此難題提供一個(gè)解決方案。就目前而言,華大基因的云計(jì)算服務(wù)主要應(yīng)用于全基因組組裝。在未來(lái),可提供其他生物信息分析軟件,如搜尋基因組中的單核苷酸多態(tài)性位點(diǎn),尋找基因組中重復(fù)或缺失的大片段等。華大基因雖然并非唯一一個(gè)開(kāi)展云計(jì)算服務(wù)的測(cè)序中心,但他們將測(cè)序服務(wù)與內(nèi)部云計(jì)算相結(jié)合,突出了其“一站式”服務(wù)的優(yōu)勢(shì)。前不久,華大基因信息生產(chǎn)中心榮獲由國(guó)際數(shù)據(jù)公司在2011國(guó)際超級(jí)計(jì)算機(jī)大會(huì)公布的首屆“高性能計(jì)算創(chuàng)新優(yōu)秀獎(jiǎng)”,寓意著華大基因高性能計(jì)算和應(yīng)用能力已經(jīng)處于國(guó)際先進(jìn)水平,引領(lǐng)國(guó)內(nèi)生物領(lǐng)域高性能計(jì)算的行業(yè)發(fā)展。
“高性能計(jì)算”具有高效能
華大基因研究院通過(guò)自身的努力不斷提升其高性能計(jì)算能力,為基因組學(xué)研究帶來(lái)創(chuàng)新解決方案,在加快基因組學(xué)相關(guān)科學(xué)研究進(jìn)展和商業(yè)化發(fā)展的同時(shí)大大提高經(jīng)濟(jì)效益。
他們通過(guò)軟件優(yōu)化和使用通用服務(wù)器代替性價(jià)比較低的小型計(jì)算機(jī),在硬件成本、數(shù)據(jù)存儲(chǔ)和分析能力方面取得突破性的成果,硬件成本可節(jié)約10倍以上。例如高性能計(jì)算在并行拼接的應(yīng)用,由于拼接對(duì)內(nèi)存和機(jī)器本身的要求非常高,而同類型機(jī)器的價(jià)格較為昂貴,華大基因通過(guò)優(yōu)化軟件將機(jī)器成本節(jié)約近一半。他們還通過(guò)軟件優(yōu)化提升機(jī)器性能,普遍提高6至10倍性能并減少約十分之一的運(yùn)營(yíng)成本,使龐大數(shù)據(jù)的分析時(shí)間可縮短至數(shù)天或數(shù)小時(shí)。
華大基因的高性能計(jì)算應(yīng)用研發(fā)涵蓋了應(yīng)用軟件、系統(tǒng)軟件和云計(jì)算3個(gè)領(lǐng)域。在計(jì)算軟件方面,華大基因不斷開(kāi)發(fā)新的算法,緊密跟蹤圖形處理器計(jì)算等先進(jìn)技術(shù),在提高計(jì)算能力的同時(shí)降低功耗,力圖做到綠色高效能計(jì)算。他們與世界上最大的GPU生產(chǎn)商英偉達(dá)成立了聯(lián)合創(chuàng)新實(shí)驗(yàn)室,積極推進(jìn)創(chuàng)新軟件開(kāi)發(fā),目前正在研發(fā)的一系列計(jì)算軟件,其性能都有數(shù)量級(jí)的提高。系統(tǒng)軟件方面,正在研究一系列的面向大規(guī)模數(shù)據(jù)和計(jì)算的中間件和管理系統(tǒng)。通過(guò)云計(jì)算技術(shù),將生物信息學(xué)特有的海量數(shù)據(jù)和計(jì)算結(jié)合起來(lái),形成了具有特色的生物信息云計(jì)算平臺(tái)。
生物技術(shù)研究發(fā)展史上的里程碑
隨著在基因組學(xué)研究中分析處理的數(shù)據(jù)量的迅猛飆升華大基因與眾多生物企業(yè)和科研機(jī)構(gòu)存在著強(qiáng)大的存儲(chǔ)和分析需求。他們?cè)诟咝阅苡?jì)算軟硬件系統(tǒng)上加大了各種資源的投入,建立了具有自己特色的云計(jì)算系統(tǒng)以及相應(yīng)的運(yùn)行、管理和研發(fā)隊(duì)伍。
華大基因目前擁有的測(cè)序能力相當(dāng)于一天可以獲得130人的基因組數(shù)據(jù),每天新增原始數(shù)據(jù)就有近10T之多。華大基因每天測(cè)序數(shù)據(jù)產(chǎn)出量從早期的500G到現(xiàn)今的10T,海量數(shù)據(jù)對(duì)存儲(chǔ)、計(jì)算機(jī)性能等方面以每12至18個(gè)月10倍的增長(zhǎng)速度,帶來(lái)巨大的挑戰(zhàn)。
為支撐華大基因各重大科研項(xiàng)目和各個(gè)產(chǎn)業(yè)體系的發(fā)展,華大基因信息生產(chǎn)中心不斷地在高性能計(jì)算領(lǐng)域內(nèi)開(kāi)發(fā)可以解決生物信息產(chǎn)生的海量數(shù)據(jù)方面的硬件和分析軟件。華大基因目前在深圳、香港、北京、杭州和武漢擁有數(shù)個(gè)大型生物信息學(xué)超級(jí)計(jì)算機(jī),其中,位于深圳和香港的集群的峰值計(jì)算能力分列國(guó)內(nèi)生物信息領(lǐng)域第一和第二位,該集群已成為國(guó)內(nèi)乃至國(guó)際生物信息學(xué)界新的性能標(biāo)桿和生物技術(shù)研究發(fā)展史上的一個(gè)新的里程碑。
上周出版(7月28日)的Nature雜志以“Genome giant offers data service”為題,報(bào)道了深圳華大基因在基因組測(cè)序服務(wù)技術(shù)上的新進(jìn)展:華大基因宣布將在今年計(jì)劃推出生物云計(jì)算服務(wù),希望通過(guò)產(chǎn)品創(chuàng)新,更好地滿足各大科研機(jī)構(gòu)及生命科技行業(yè)對(duì)信息能力的需求。屆時(shí)用戶可以通過(guò)互聯(lián)網(wǎng)遠(yuǎn)程操作進(jìn)行測(cè)序數(shù)據(jù)的處理,隨時(shí)隨地獲取生物信息分析資源。
據(jù)報(bào)道,由于DNA測(cè)序技術(shù)成本的下降幅度遠(yuǎn)遠(yuǎn)高于測(cè)序數(shù)據(jù)存儲(chǔ)成本,云計(jì)算已成為基因組學(xué)研究領(lǐng)域中的一個(gè)日趨重要的工具或服務(wù)。目前一般的研究實(shí)驗(yàn)室均缺乏存儲(chǔ)、計(jì)算資源和處理當(dāng)前龐大基因組數(shù)據(jù)的技術(shù),華大基因提供的云計(jì)算服務(wù)將為此難題提供一個(gè)解決方案。就目前而言,華大基因的云計(jì)算服務(wù)主要應(yīng)用于全基因組組裝。
在未來(lái),可提供其他生物信息分析軟件,如搜尋基因組中的單核苷酸多態(tài)性位點(diǎn),尋找基因組中重復(fù)或缺失的大片段等。在國(guó)際上,華大基因并不是唯一一個(gè)開(kāi)展云計(jì)算服務(wù)的測(cè)序中心,但華大基因?qū)y(cè)序服務(wù)與內(nèi)部云計(jì)算相結(jié)合,突出了其“一站式”服務(wù)的優(yōu)勢(shì)。
除此之外,近期華大基因還接連在多份重要期刊上發(fā)表了新成果,比如研究人員采用新一代測(cè)序技術(shù)獲得的全基因組組裝的短片段構(gòu)建了一個(gè)亞洲人和一個(gè)非洲人詳盡的結(jié)構(gòu)變異圖譜,為人類基因組結(jié)構(gòu)變異檢測(cè)提供了一種新方法——基于全基因組組裝的結(jié)構(gòu)變異檢測(cè),該方法與其他檢測(cè)方法相比具有性價(jià)比高、速度快等優(yōu)點(diǎn)。據(jù)稱,該方法可檢測(cè)到1-50kbp范圍內(nèi)不同長(zhǎng)度的結(jié)構(gòu)變異,包括插入、缺失、倒置、基因重排等。
在這個(gè)研究中,研究人員在亞洲人和非洲人的個(gè)人基因組組裝區(qū)域共檢測(cè)到27萬(wàn)多個(gè)結(jié)構(gòu)變異,并對(duì)這些變異進(jìn)行了驗(yàn)證,結(jié)果表明,該方法具有高準(zhǔn)確度的特點(diǎn)。同時(shí),研究人員還對(duì)這些結(jié)構(gòu)變異的特性和生物學(xué)作用相關(guān)方面進(jìn)行了研究。為了推斷結(jié)構(gòu)變異在人群中的頻率分布,研究人員對(duì)106個(gè)“千人基因組計(jì)劃”(1000 Genomes Project)中的個(gè)體進(jìn)行了基因組結(jié)構(gòu)變異的統(tǒng)計(jì),發(fā)現(xiàn)與SNPs相比,SVs一般呈現(xiàn)出更強(qiáng)的負(fù)向選擇,證明其比SNPs具有更強(qiáng)的個(gè)體特異性。SVs的高度特異性將有助于研究人員進(jìn)行人類表型差異研究。
華大基因的這項(xiàng)研究還發(fā)現(xiàn),基于基因組重測(cè)序構(gòu)建的相關(guān)圖譜在準(zhǔn)確度上還是會(huì)有所偏差,所以研究人員建議在以后的人類基因組研究工作中,最好能夠進(jìn)行基于從頭組裝的全基因組研究,這樣會(huì)使研究結(jié)果更加準(zhǔn)確及可靠,尤其是醫(yī)學(xué)基因組及相關(guān)領(lǐng)域的研究。
據(jù)國(guó)際權(quán)威期刊《自然》雜志上的新聞《基因組學(xué)巨頭提供數(shù)據(jù)服務(wù)》(“Genome giant offers data service”)報(bào)道,全球最大的基因組測(cè)序機(jī)構(gòu)之一——華大基因正展望于云計(jì)算。華大基因宣布將在今年計(jì)劃推出生物云計(jì)算服務(wù),希望通過(guò)產(chǎn)品創(chuàng)新,更好的滿足各大科研機(jī)構(gòu)及生命科技行業(yè)對(duì)信息能力的需求。屆時(shí)用戶可以通過(guò)互聯(lián)網(wǎng)遠(yuǎn)程操作進(jìn)行測(cè)序數(shù)據(jù)的處理,隨時(shí)隨地獲取生物信息分析資源。該報(bào)道中提及,由于DNA測(cè)序技術(shù)成本的下降幅度遠(yuǎn)遠(yuǎn)高于測(cè)序數(shù)據(jù)存儲(chǔ)成本,云計(jì)算已成為基因組學(xué)研究領(lǐng)域中的一個(gè)日趨重要的工具或服務(wù)。目前一般的研究實(shí)驗(yàn)室均缺乏存儲(chǔ)、計(jì)算資源和處理當(dāng)前龐大基因組數(shù)據(jù)的技術(shù),華大基因提供的云計(jì)算服務(wù)將為此難題提供一個(gè)解決方案。就目前而言,華大基因的云計(jì)算服務(wù)主要應(yīng)用于全基因組組裝。在未來(lái),可提供其他生物信息分析軟件,如搜尋基因組中的單核苷酸多態(tài)性位點(diǎn),尋找基因組中重復(fù)或缺失的大片段等。在國(guó)際上,華大基因并不是唯一一個(gè)開(kāi)展云計(jì)算服務(wù)的測(cè)序中心,但華大基因?qū)y(cè)序服務(wù)與內(nèi)部云計(jì)算相結(jié)合,突出了其“一站式”服務(wù)的優(yōu)勢(shì)。
與此同時(shí),華大基因信息生產(chǎn)中心在6月20日榮獲由國(guó)際數(shù)據(jù)公司(International Data Corporation,IDC)在2011國(guó)際超級(jí)計(jì)算機(jī)大會(huì)(International Supercomputing Conference,ISC11)公布的首屆“高性能計(jì)算創(chuàng)新優(yōu)秀獎(jiǎng)”(HPC Innovation Excellence Award),寓意著深圳華大基因高性能計(jì)算和應(yīng)用能力已經(jīng)處于國(guó)際先進(jìn)水平,引領(lǐng)國(guó)內(nèi)生物領(lǐng)域高性能計(jì)算的行業(yè)發(fā)展。
話說(shuō)“高性能計(jì)算”
高性能計(jì)算(High Performance Computing, HPC)可以為企業(yè)、國(guó)家等創(chuàng)造的價(jià)值是非凡的,它是計(jì)算機(jī)科學(xué)的一個(gè)分支,主要是指從體系結(jié)構(gòu)、并行算法和軟件開(kāi)發(fā)等方面研究開(kāi)發(fā)高性能計(jì)算機(jī)的技術(shù)。目前,HPC不僅可以用于科學(xué)研究、航天國(guó)防、氣象預(yù)報(bào)、石油勘探等,還可以應(yīng)用于信息化、教育、企業(yè)等更廣泛的領(lǐng)域,HPC的應(yīng)用需求在深度和廣度上都面臨蓬勃發(fā)展。
目前,高性能計(jì)算的使用對(duì)象主要包括科研機(jī)構(gòu)、研發(fā)中心、金融財(cái)務(wù)等具有大量并行運(yùn)算需求的大型機(jī)構(gòu)和企業(yè)應(yīng)用。通過(guò)使用高性能計(jì)算能夠大大提高系統(tǒng)性能,幫助企業(yè)機(jī)構(gòu)提高生產(chǎn)效率,帶來(lái)長(zhǎng)遠(yuǎn)經(jīng)濟(jì)效益。隨著分析數(shù)據(jù)量的日益巨增,更多的科研項(xiàng)目采用高性能計(jì)算。在現(xiàn)今生物領(lǐng)域,隨著測(cè)序技術(shù)的進(jìn)步和成本下降,更多的基因組學(xué)相關(guān)數(shù)據(jù)應(yīng)用到生物研究分析當(dāng)中。目前,大部分科研機(jī)構(gòu)主要依賴于外部的高性能計(jì)算實(shí)驗(yàn)室,或面對(duì)大眾的云計(jì)算服務(wù)平臺(tái)如亞馬遜、IBM、微軟等。華大基因一直致力于發(fā)展高性能計(jì)算,投入高性能設(shè)備的組建,開(kāi)發(fā)和優(yōu)化相關(guān)分析軟件,為處理海量基因組數(shù)據(jù)尋找量身定做的解決方案,并成立華大基因信息生產(chǎn)中心。
華大基因的高性能計(jì)算主要應(yīng)用于華大基因的科研項(xiàng)目并支持相關(guān)產(chǎn)業(yè)發(fā)展。HPC作為華大基因的一個(gè)重要平臺(tái),支撐著華大基因的整體發(fā)展,在《GigaScience》雜志、國(guó)家基因庫(kù)等重大發(fā)展項(xiàng)目中擔(dān)任核心支撐角色。華大基因曾參與的多項(xiàng)重大科研項(xiàng)目,如大熊貓基因組、第一個(gè)亞洲人基因組圖譜等科研項(xiàng)目,和其無(wú)創(chuàng)產(chǎn)前基因檢測(cè)、人類白細(xì)胞抗原(HLA)高分辨基因分型等健康檢測(cè)服務(wù)均是在高性能計(jì)算的支撐下,進(jìn)行大量基因組數(shù)據(jù)分析,并在相對(duì)較短的分析時(shí)間內(nèi)提供準(zhǔn)確的結(jié)果。不僅如此,華大基因還通過(guò)HPC技術(shù)為其合作伙伴提供在動(dòng)植物基因組學(xué)、轉(zhuǎn)錄組學(xué)、微生物基因組學(xué)、宏基因組學(xué)、表觀組學(xué)、復(fù)雜疾病基因組學(xué)、蛋白組學(xué)、藥物基因組等領(lǐng)域的研究支持。
華大基因高性能計(jì)算的應(yīng)用和經(jīng)濟(jì)效益
華大基因研究院通過(guò)自身的努力不斷提升其高性能計(jì)算能力,為基因組學(xué)研究帶來(lái)創(chuàng)新解決方案,在加快基因組學(xué)相關(guān)科學(xué)研究進(jìn)展和商業(yè)化發(fā)展的同時(shí)大大提高經(jīng)濟(jì)效益。通過(guò)軟件優(yōu)化和使用通用服務(wù)器代替性價(jià)比較低的小型計(jì)算機(jī),在硬件成本、數(shù)據(jù)存儲(chǔ)和分析能力取得突破性的成果。相對(duì)于過(guò)去需要花高達(dá)千萬(wàn)美元的高性能服務(wù)機(jī)器,現(xiàn)只需投入千萬(wàn)人民幣購(gòu)買一臺(tái)性能更好的通用服務(wù)器,硬件成本可節(jié)約10至20倍。例如高性能計(jì)算在并行拼接的應(yīng)用,由于拼接對(duì)內(nèi)存和機(jī)器本身的要求非常高,而同類型機(jī)器的價(jià)格較為昂貴,華大基因通過(guò)優(yōu)化軟件從而將機(jī)器成本節(jié)約近二分之一。不僅如此,華大基因通過(guò)軟件優(yōu)化提升機(jī)器性能,普遍提高六至十倍性能并減少約10分之一的運(yùn)營(yíng)成本,使龐大數(shù)據(jù)的分析時(shí)間可縮短至數(shù)天或數(shù)小時(shí),大大提高時(shí)效性和工作效率,降低人力,機(jī)器和運(yùn)營(yíng)的成本,同時(shí)也更有利于高性能計(jì)算的普及和推廣。
華大基因的HPC應(yīng)用研發(fā)涵蓋了應(yīng)用軟件、系統(tǒng)軟件和云計(jì)算三個(gè)領(lǐng)域。在計(jì)算軟件方面,華大基因不斷開(kāi)發(fā)新的算法,緊密跟蹤圖形處理器(Graphics processing unit,GPU)計(jì)算等先進(jìn)技術(shù),在提高計(jì)算能力的同時(shí)降低功耗,力圖做到綠色高效能計(jì)算。華大基因與世界上最大的GPU生產(chǎn)商英偉達(dá)(NVIDIA)成立了聯(lián)合創(chuàng)新實(shí)驗(yàn)室,積極推進(jìn)創(chuàng)新軟件開(kāi)發(fā),目前正在研發(fā)的一系列計(jì)算軟件,其性能都有數(shù)量級(jí)的提高。系統(tǒng)軟件方面,正在研究一系列的面向大規(guī)模數(shù)據(jù)和計(jì)算的中間件和管理系統(tǒng)。通過(guò)云計(jì)算技術(shù),將生物信息學(xué)特有的海量數(shù)據(jù)和計(jì)算結(jié)合起來(lái),形成了具有特色的生物信息云計(jì)算平臺(tái),在不久的將來(lái)就會(huì)開(kāi)放給全球科研人員。
目前,華大基因信息生產(chǎn)中心已開(kāi)發(fā)20多種創(chuàng)新產(chǎn)品和服務(wù),其中包括:生物信息分析平臺(tái)—BGICloud,生物信息分析虛擬機(jī)BGI vLab,生物數(shù)據(jù)庫(kù)中心CLiMB。開(kāi)發(fā)的生物信息學(xué)應(yīng)用包括:De Novo sequencing(從頭測(cè)序),動(dòng)植物基因組組裝,大規(guī)模基因組重測(cè)序,遺傳關(guān)聯(lián)研究,基因表達(dá)譜分析,全轉(zhuǎn)錄組組裝,miRNA檢測(cè),CHIP-Seq研究,DNA甲基化檢測(cè),宏基因組學(xué)分析。華大基因在高性能計(jì)算方面開(kāi)展多元化研究,包括GPU應(yīng)用研究、大規(guī)模并行計(jì)算研究等,取得了很好的成果,并且與多個(gè)科研機(jī)構(gòu)開(kāi)展研究工作,其中包括香港大學(xué)、香港科技大學(xué)、香港浸會(huì)大學(xué)、中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院和中國(guó)科學(xué)院北京計(jì)算技術(shù)研究所等合作單位。
華大基因在其7月5日舉辦的亞太生物信息技術(shù)峰會(huì)(Bio-IT APAC Conference & Expo 2011)上發(fā)布了一系列生物信息學(xué)軟件,其中包括兩個(gè)基于云計(jì)算的新軟件Hecate和Gaea。這兩款新軟件主要應(yīng)用于新一代測(cè)序數(shù)據(jù)軟件分析服務(wù),為基因組從頭測(cè)序和重測(cè)序提供彈性計(jì)算解決方案。華大基因的計(jì)算集群上均提供Hecate和Gaea的軟件服務(wù),使用內(nèi)部集群可同時(shí)減輕網(wǎng)絡(luò)的訪問(wèn)負(fù)擔(dān)。Hecate是一個(gè)主要基于Hadoop平臺(tái)map/reduce框架實(shí)現(xiàn)的分布式基因組從頭測(cè)序數(shù)據(jù)并行組裝軟件,依賴于多集群節(jié)點(diǎn)的并行計(jì)算和分布式圖算法能夠在組裝過(guò)程中對(duì)因?yàn)殡s合位點(diǎn)和其它一些干擾因素引起的tip,tiny repeat和bubble等結(jié)構(gòu)進(jìn)行有效的剪枝和去噪處理進(jìn)而實(shí)現(xiàn)對(duì)一些常見(jiàn)物種數(shù)據(jù)的分布式并行組裝。Hecate服務(wù)分析將大大提高降低成本和縮短所需時(shí)間。例如在單個(gè)高性能服務(wù)器上運(yùn)行SOAPdenovo組裝軟件,花費(fèi)70小時(shí),獲得80%的基因組覆蓋率,硬件成本約15萬(wàn)美元。Hecate在使用96核的普通服務(wù)器的集群時(shí),花費(fèi)42小時(shí),基因組覆蓋率提升到84%,硬件成本可降至約6萬(wàn)美元。Gaea是一個(gè)基于Hadoop streaming框架實(shí)現(xiàn)的分布式基因組重測(cè)序數(shù)據(jù)并行組裝比對(duì)軟件,可以將進(jìn)行比對(duì)分析的SOAP2和BWA等算法進(jìn)行并行化處理。最新版本的Gaeav1.2,相對(duì)于單核運(yùn)行時(shí)間而言,在使用100核計(jì)算集群時(shí),并行化的SOAP2和BWA速度分別提升了75倍和100倍;使用400核計(jì)算集群時(shí),提升速度分布為300倍和346倍。在性能、速度、成本等方面不斷優(yōu)化。
生物技術(shù)研究發(fā)展史上的一個(gè)新的里程碑
面對(duì)在基因組學(xué)研究中分析處理的數(shù)據(jù)量的迅猛飆升,華大基因與眾多生物企業(yè)和科研機(jī)構(gòu)面臨著強(qiáng)大的存儲(chǔ)和分析需求。華大基因在HPC軟硬件系統(tǒng)上加大了各種資源的投入,建立了具有自己特色的云計(jì)算系統(tǒng)以及相應(yīng)的運(yùn)行、管理和研發(fā)隊(duì)伍。主要目標(biāo)是以更低的成本更高效地完成大量的數(shù)據(jù)處理計(jì)算,通過(guò)云計(jì)算平臺(tái),與全世界的科研人員共享?yè)碛械幕驍?shù)據(jù)和軟件系統(tǒng),幫助他們更快更好地進(jìn)行研究工作,促進(jìn)以基因信息指導(dǎo)臨床診斷和治療的貫穿應(yīng)用。
華大基因目前擁有的測(cè)序能力相當(dāng)于一天可以獲得一百三十人的基因組數(shù)據(jù),每天新增原始數(shù)據(jù)就有近10T之多。華大基因從早期每天測(cè)序數(shù)據(jù)產(chǎn)出量500G到現(xiàn)今的10T,其產(chǎn)生的海量數(shù)據(jù)對(duì)存儲(chǔ)、計(jì)算機(jī)性能等方面以每12-18個(gè)月10倍的速度在增長(zhǎng),帶來(lái)巨大的挑戰(zhàn)。為支撐華大基因各個(gè)產(chǎn)業(yè)體系的發(fā)展和各重大科研項(xiàng)目,華大基因信息生產(chǎn)中心正不斷地在高性能計(jì)算領(lǐng)域內(nèi)開(kāi)發(fā)可以解決生物信息產(chǎn)生的海量數(shù)據(jù)方面的硬件和分析軟件。華大基因與眾多世界一流的IT供應(yīng)商合作,采用最新的高性能設(shè)備,包括大量的超高配置節(jié)點(diǎn),刀片服務(wù)器,用于完成大型生物信息分析工作。華大基因目前在在深圳、香港、北京、杭州和武漢擁有數(shù)個(gè)大型生物信息學(xué)超級(jí)計(jì)算中,存儲(chǔ)系統(tǒng)超過(guò)十個(gè)PB(petabytes),總計(jì)算能力為 156Tflops,現(xiàn)在正向1000T flops(即1Pflops)甚至更高的計(jì)算性能快速前進(jìn)(在6月20日,ISC11發(fā)布了世界超算500強(qiáng),其中名列第一的是日本超級(jí)計(jì)算機(jī)“京”,每秒計(jì)算能力超過(guò)8.774 P flops,國(guó)家超算中心的天河一號(hào)名列第二,每秒計(jì)算能力達(dá) 2.6 P flops)。其中,位于深圳和香港的集群的峰值計(jì)算能力分列國(guó)內(nèi)生物信息領(lǐng)域第一和第二位,該集群已成為國(guó)內(nèi)乃至國(guó)際生物信息學(xué)界新的性能標(biāo)桿和生物技術(shù)研究發(fā)展史上的一個(gè)新的里程碑。
目前華大基因計(jì)算平臺(tái)總內(nèi)存容量已達(dá)到33TB,總存儲(chǔ)能力已達(dá)到12PB,并將在年底達(dá)到20PB,甚至更高。在強(qiáng)大的計(jì)算平臺(tái)上運(yùn)行著一系列復(fù)雜的軟件,不斷揭開(kāi)基因編碼生命的奧秘,解答遺傳密碼的起源進(jìn)化和基因功能表達(dá)等挑戰(zhàn)性的問(wèn)題,為人類的健康和進(jìn)步提供強(qiáng)有力的保障。