支付幾百元將你的唾液郵寄,你的基因組序列就會得到分析,所得出的結(jié)果不僅可以診斷疾病,還可以用于未來疾病的風險預(yù)測。相信已經(jīng)有不少人耳聞甚至使用過這樣的基因測序“黑科技”產(chǎn)品。
近年來,隨著基因產(chǎn)業(yè)迅速崛起,測序門檻也越來越低。如果把人體比作一臺精密的機器,基因測序就好比“人體機器”的“使用說明書”。隨著未來基因技術(shù)的不斷發(fā)展,人類或許有能力解讀自己的生命圖紙,并獲得開發(fā)人體潛力極限的能力。
目前,基因測序技術(shù)在基礎(chǔ)研究、技術(shù)研發(fā)和臨床實踐上已經(jīng)得到了大量應(yīng)用。而這背后離不開云計算、AI、大數(shù)據(jù)等新一代信息技術(shù)的鼎力支持。
事實上,生命科學的研究競賽,很多時候已經(jīng)變成了一場“算力”的比拼。好的科研成果通常是基于龐大的計算數(shù)據(jù)。隨著越來越多臨床基因檢測,如:產(chǎn)前檢測、腫瘤檢測等,項目的落地,對算力的需求也會逐步增加。那么,該如何為基因測序提供更強的算力呢?
面對海量測序數(shù)據(jù),華大基因的痛點如何化解?
作為全球領(lǐng)先的生命科學前沿機構(gòu),目前華大基因已經(jīng)完成HPV檢測總數(shù)超過420萬例,完成耳聾基因檢測250余萬例,完成無創(chuàng)產(chǎn)前檢測510多萬例。這些基因測序的流程中,動輒涉及到數(shù)萬/數(shù)十萬個基因測序及模型建立,依賴大量的計算和存儲資源,隨著未來業(yè)務(wù)量的那一步擴展,將使華大基因的傳統(tǒng)IT架構(gòu)面臨一定挑戰(zhàn):
計算資源比較緊張,在使用峰值時,任務(wù)經(jīng)常需要排隊等候;
由于基因測序?qū)λ懔Φ男枨笫遣▌拥模ǔ5谒募径鹊南淖畲蠖谝患径茸钌伲@會導(dǎo)致服務(wù)器的數(shù)量無法得到很好的控制。如果選擇采購可以滿足最大峰值的集群,那么在業(yè)務(wù)量不能時刻保持高峰時,就會存在很大的成本浪費。而一旦服務(wù)器不足,則無法滿足業(yè)務(wù)高峰時的測序任務(wù);
科技服務(wù)部門有很多復(fù)雜基因組,在各個測序分析的階段需要借助不同規(guī)格的計算資源,線下計算集群往往無法適應(yīng)快速的擴縮容;
此外,線下集群架構(gòu)不支持高通量基因測序數(shù)據(jù)的多任務(wù)并行,面對海量基因數(shù)據(jù),每個基因測序都是一個極其消耗計算資源的過程,傳統(tǒng)的數(shù)據(jù)存儲和分析方式并不能支持高通量測序的需求。
華為云基因容器GCS:20分鐘快速部署,成本下降30%
經(jīng)過多方考量,華大基因選擇了華為云作為合作伙伴。據(jù)悉,華為云在2018年全球首家推出了以Kubernetes為基礎(chǔ)的基因容器服務(wù)GCS,能夠支持集群自動擴縮容,靈活應(yīng)對業(yè)務(wù)增長對資源帶來的壓力。當測序需要大量資源時,云平臺能夠快速擴容提升處理能力,解決峰值壓力;在業(yè)務(wù)低谷時,可以釋放資源,降低成本。在不同的測序分析階段,GCS都能為測序企業(yè)提供不同規(guī)格的計算資源。
值得一提的是,在本次項目中,華為云基于輕量級的容器技術(shù),對華大基因常用的測序軟件進行了針對性的優(yōu)化處理。借助容器的高并發(fā)度,每個節(jié)點上可同時執(zhí)行多個任務(wù),帶來整體計算性能的提升,一舉解決了線下集群和公有云服務(wù)都難以解決的高通量測序問題,讓基因測序數(shù)據(jù)的計算分析更省時、更輕松。
此外,華為云GCS還具備全自動化測序分析能力,為用戶提帶來便捷、安心的一站式服務(wù):
借助GCS的生物信息流設(shè)計器,再復(fù)雜的業(yè)務(wù)也可以編排到一個流程中,一鍵搞定測序任務(wù),避免多套系統(tǒng)操作帶來的不便;專為國內(nèi)“生信人”設(shè)計的流程控制語法,結(jié)構(gòu)簡練、易懂,既滿足了流程編寫的易用性,同時也保證了流程遷移的方便性;GCS的流程熱力圖,以非常直觀的方式隨時了解測序進展,精確掌握資源消耗走勢,指導(dǎo)優(yōu)化方向;還可根據(jù)判斷條件選擇執(zhí)行分支,滿足企業(yè)復(fù)雜的流程管理需求。
目前,華為云團隊已經(jīng)協(xié)助華大基因平滑上云,雙方一起完成超過300萬核時計算,平穩(wěn)運行超過100天,實現(xiàn)了基因測序環(huán)境快速部署,從過去的3-5天縮短到僅需20分鐘。與此同時,雙方還通過構(gòu)建2萬核資源池,滿足了海量數(shù)據(jù)、高并發(fā)處理的需求。如今,華大基因已可以靈活應(yīng)對業(yè)務(wù)波動,按需使用和釋放計算資源,在盡可能提升測序效率的情況下,有效降低測序工作的IT成本。
?
華為云GCS助推測序企業(yè)提升競爭力
除了華大基因外,在國內(nèi)基因行業(yè)Top15的企業(yè)中,14家選擇了與華為云合作。
其中,武漢未來組作為國內(nèi)首家長讀長測序服務(wù)公司,承接了大量動植物基因組、轉(zhuǎn)錄組、微生物基因組及宏基因組測序分析等科研服務(wù)項目,月產(chǎn)出數(shù)據(jù)量高達數(shù)十Tb。華為云為其提供Kunlun超大內(nèi)存裸金屬服務(wù)器,支持承載重樓百合150G基因組裝,使得測序原始數(shù)據(jù)處理速度得到快速提升。華為云還協(xié)助未來組打通了線下數(shù)據(jù)生產(chǎn)平臺與云端高性能計算平臺之間的網(wǎng)絡(luò)鏈路,讓線下產(chǎn)生的數(shù)據(jù)可以快速上傳到云端,從而進行后續(xù)的分析。并由華為云專業(yè)的技術(shù)團隊負責整體的運維管理,大大降低了未來組的IT運維壓力。
“云+AI+5G”引領(lǐng)基因產(chǎn)業(yè)智能化升級
在醫(yī)療健康行業(yè)智能升級的大背景下,基因測序也需要融合更多的新興技術(shù)手段來達到更高的精準度和科學性,華為云將釋放“云+AI+5G”的強大動能,讓測序企業(yè)更省、更快、更安心,實現(xiàn)行業(yè)的智能化升級。
云計算:打通線上線下形成容器混合云,容器鏡像自動同步,資源、應(yīng)用統(tǒng)一管理運維,使得線上線下功能和環(huán)境一致,用戶使用習慣一致。
大數(shù)據(jù):通過計算存儲分離、內(nèi)存及分布式緩存、智能調(diào)度,大數(shù)據(jù)性能提升40%,成本降低50%。
人工智能(AI):通過作業(yè)群組管理、拓撲感知的親和性調(diào)度,GPU線性加速比提升35%,降低人工智能50%訓(xùn)練時間。
鯤鵬算力:整型計算+多核契合測序分析,Minimap2軟件在鯤鵬920下性價比領(lǐng)先同代X8620%。
在未來生物技術(shù)發(fā)展與云計算的共同推動下,基因測序“黑科技”必然會造福更多的人類。也許有一天,現(xiàn)有的醫(yī)學疑難雜癥也會被一個個攻克。在這條生命科學的漫漫征程中,面向未來,華為云將緊跟科技的發(fā)展和用戶需求的變化,持續(xù)進行研發(fā)迭代升級,伴隨基因產(chǎn)業(yè)一路前行!