一場新型冠狀病毒肺炎疫情,牽動舉國上下。在廣大的醫務人員奮戰一線的同時,一大批“科技力量”也加入了抗擊疫情的最前線。
在未知病毒以“不明原因肺炎”進入公眾視野時,科研人員已經開始嘗試破譯病毒的基因數據。病毒基因組,是病毒的生命密碼。借助于分子生物技術,病原學專家通過對病毒標本進行測定,這樣的破譯,最早在2020年1月2日就已完成。隨后,中科院武漢病毒所、中國疾控中心病毒所、上海市公共衛生臨床中心分別于1月2日、1月3日、1月5日凌晨,獲得病毒全基因組序列。
那么,病毒基因究竟是如何被一步步解析的?這其中高性能計算(HPC)平臺又起到什么樣的作用?來看看浪潮生命科學行業方案專家的解讀。
Q:能否舉例子介紹一下新冠病毒基因是如何被測定和解析的?
目前,在獲取病毒基因組序列方面,廣泛應用高通量測序技術來完成,這種方式是將核酸序列打斷成短片段進行測序,通過分析軟件將測得的短序列進行拼接組裝。對于新發病毒,在序列組裝過程中會面臨更多難點,因為在測序深度、測序準確性、重復序列比例等方面沒有可供參考的經驗值,這就需要將海量的短序列還原出原始的基因組序列。在序列拼裝中還可能會出現測序錯誤,拼接的準確性和完整性不高,拼接難度更高。所以,解析新冠病毒序列,需要在建庫、高通量測序、序列組裝、變異進化分析等多個流程加以管理。
新冠病毒序列組裝解決方案示意
比如在建庫環節中,對核酸含量高的樣本進行rRNA去除再建庫,提高有效數據占比;對核酸含量低的樣本,直接進行RNA建庫,減少核酸損失,提升建庫成功率,并加大測序深度。在測序環節采用更高效專注的測序儀,最后,通過病原鑒定系統對新冠病毒序列進行數據分析并采用IDBA方法完成拼接。這樣可以滿足宏轉錄組測序病毒序列組裝對數據量的要求,保證序列信息的完整性。
我們來還原一下某疾控中心收到的1例新冠病毒肺炎疑似樣本,解析新型冠狀病毒感染病例呼吸道標本宏轉錄組測序及病毒序列組裝的流程:
病毒全基因組序列獲取流程
? 首先是文庫制備。針對核酸量不同的樣本,采用不同的建庫策略。經反轉錄、接頭連接、PCR擴增、純化等一系列操作后獲得文庫產物,再使用滾環擴增技術,制備DNA納米球。
? 第二步,上機測序。對病例的呼吸道標本進行高深度測序。
? 第三步,數據分析。產出32Gb數據,總序列數318M。結合病原感染快速鑒定系統,鑒定出230萬余條新型冠狀病毒序列。
? 最后,拼接組裝。分析軟件會自動將230萬條的新型冠狀病毒序列從所有序列中抽出。使用拼接效率高的IDBA方法進行組裝,成功完成新型冠狀病毒的序列組裝,獲得基因組序列。
Q:在冠狀病毒解析過程中,HPC平臺起到了那些作用?
在尋找病毒來源、獲知病毒結構、篩選抗毒小分子方面HPC算力都發揮了重要的作用。例如在病毒分析領域常用的冷凍電鏡三維重構技術,在低溫環境下利用透射電子顯微鏡對樣品進行成像,再經圖像處理和重構計算獲得樣品的三維結構。在整個流程中,數據采集、圖像處理、三維重構是非常核心的三個步驟,對計算和存儲的需求非常高。病毒顆粒結構的解析,其電鏡圖像的數據量可高達數TB,且病毒顆粒相對蛋白質顆粒要大得多,在計算上單一進程就需要128GB的內存,那么一臺計算節點就需要至少4TB的內存支持。在算法上,基于中央截面定理的重構過程依賴大量的單精度或雙精度快速傅里葉(FFT)計算,需要海量算力資源來支持。
在實際應用上,中科院生物物理所與浪潮-Intel中國并行計算聯合實驗室合作開展的基于MIC異構架構電子斷層三維重構技術(Electron Tomography,簡稱ET)應用研究。研究團隊共同開發了ET的MIC單機單卡和單機多卡異構高性能集群解決方案,大幅降低了計算時間。實際測試數據顯示,單機單卡與串行程序相比性能提升25倍,單機多卡版本與串行程序相比性能提升74倍。
Q:本次疫情將對于HPC在病毒研究領域的應用產生哪些影響
在抗疫的生死競速的賽場上,也許我們算的快一點,我們能救治的病人,能拯救的生命就會多一點。
從短期來看,科技戰疫正加速HPC在醫療領域的廣泛應用,原來使用HPC最多的是科研院所,在疫情期間醫院、公共衛生防預等機構都開始使用HPC。
從長期來看,疫情過后,會誕生各種新興的科學技術研究和檢測,這些新興的科學研究對高性能計算有很高的需求,將促使HPC技術跨學科跨領域的融合。
從更大的范圍來看,疫情危機使中國以及全球的醫療信息化進程加速,可以大膽的預測,HPC將在全球病毒研究領域將會走向全面普及。