大咖介紹:(從左往右)
宋家雨,Dostor存儲在線總編輯
謝長生,華中科技大學(xué)武漢光電國家研究中心教授
曾文君,深圳國家基因庫生物信息數(shù)據(jù)庫主任
孫 斌,浪潮存儲產(chǎn)品線副總經(jīng)理
正文:
近日,在DOIT存儲峰會上,浪潮存儲產(chǎn)品線副總經(jīng)理孫斌、華中科技大學(xué)武漢光電國家研究中心教授謝長生、深圳國家基因庫生物信息數(shù)據(jù)庫主任曾文君,共同就基因研究帶來的數(shù)據(jù)存儲挑戰(zhàn)接受了媒體采訪。
基因庫建設(shè)對于社會發(fā)展具有重要意義,而基因庫的背后承載的是海量的數(shù)據(jù)存儲。2019年是國家基因庫建成的第3周年,現(xiàn)已具備88PB數(shù)據(jù)存儲能力、691萬億次/秒計算能力。截至目前,國家基因庫支持著國內(nèi)外600多個項目,那么在技術(shù)上如何同時滿足這些業(yè)務(wù)的需要?基因庫數(shù)據(jù)有哪些不同的特征?基因數(shù)據(jù)在數(shù)據(jù)存儲、數(shù)據(jù)保護和數(shù)據(jù)遷移上面臨著哪些技術(shù)挑戰(zhàn)?讓我們聽聽大咖的解答。
宋家雨:基因是一個特別熱的話題,它使人類在消病延年的路上不斷向前推進,在生命科學(xué)基因研究領(lǐng)域,有什么樣的應(yīng)用?對存儲提出怎樣的需求和挑戰(zhàn)?
深圳國際基因庫生物信息數(shù)據(jù)庫主任 曾文君
曾文君:BT(生物技術(shù))的發(fā)展拉著IT在走,在生命科學(xué)領(lǐng)域,有個詞叫“超存”,因為對存儲的要求非常巨大,遠超對算力的要求。
一個人的基因組,它的原始大小大概是3個GB左右,包含了30億個堿基,由A、T、C、G四個堿基對組成的。在全基因測序過程中,為了保證基因數(shù)據(jù)的完整性,需要平行測序30次,當最終測序完成后,全基因組數(shù)據(jù)將達到大概100GB左右,只僅僅是一個單體,可想而知在廣泛的人口中,這是一個非常龐大的數(shù)據(jù)量。
整個基因分析研究,分為基因測序、基因數(shù)據(jù)分析和基因數(shù)據(jù)歸檔三個階段。其一,基因測序的整個過程是不允許被中斷的,這就要求支撐測序應(yīng)用的存儲系統(tǒng),具備極致的穩(wěn)定性和可靠性;另外,基因測序25微秒采集一幅高清晰圖像,對性能要求也超過了現(xiàn)有閃存固態(tài)盤的最高帶寬,必須采用更快的傲騰固態(tài)盤;其二,基因數(shù)據(jù)分析工作中,對存儲系統(tǒng)的性能、小文件處理能力提出很高要求;其三,在數(shù)據(jù)歸檔階段,需要將海量基因數(shù)據(jù)長期、完整、安全的保存起來,存儲系統(tǒng)的采購成本、能耗,是一個很大的挑戰(zhàn)。
總的來說,BT(生物技術(shù))的發(fā)展拉著IT在走,數(shù)據(jù)怎么存、怎么算、怎么長期保存,對IT來說,尤其存儲來說,是個非常巨大的挑戰(zhàn)。我們知道“超算”,它是對算力的要求,但是在生命科學(xué)領(lǐng)域,有個詞叫“超存”,因為對存儲的要求非常巨大,遠超對算力的要求。
宋家雨:生命科學(xué)基因研究背后,面臨著海量數(shù)據(jù)存儲和應(yīng)用的挑戰(zhàn),學(xué)術(shù)界有哪些新的存儲技術(shù)趨勢?
華中科技大學(xué)武漢光電國家研究中心教授 謝長生
謝長生:“數(shù)據(jù)如何存儲100年,是個具有挑戰(zhàn)性的問題,特別是基因分析研究這種需要長期存儲的應(yīng)用。全息存儲、玻璃存儲、突破光學(xué)的超衍……這些技術(shù),非常值得我們加快速度去研究。”
計算機和數(shù)據(jù)專家提出如何避免數(shù)字黑暗時代的命題,是指隨著IT硬件的失效和軟件的過時,很多數(shù)字信息在未來可能因為機器和軟件程序無法讀取而丟失。“數(shù)據(jù)如何存儲100年”,是個具有挑戰(zhàn)性的問題。正如現(xiàn)在的基因數(shù)據(jù),理論上說應(yīng)該是永遠保存下去的。
針對這一命題,有三種主流的未來技術(shù)。
首先,最接近產(chǎn)品化的是全息存儲技術(shù)。用這種技術(shù)可以保存50年。全息存儲解決了光盤介質(zhì)容量小、密度低的問題,目前全息存儲技術(shù)已經(jīng)可以做到單張光盤存儲1.5TB容量,再往后發(fā)展,目標是8TB,這樣就解決了存儲容量的問題。
其次,玻璃盤技術(shù)。5微米可以記一層,2毫米可以記幾百層,所以理論上它的容量可以做到很大,一張盤可以存300TB,而且玻璃是很穩(wěn)定的介質(zhì),可以永久保存。
再次,突破光學(xué)衍射極限的超分辨光存儲技術(shù)。該技術(shù)用雙光束的方法突破了光學(xué)衍射物理極限,將光點縮小到現(xiàn)在的1%。這個技術(shù)上已經(jīng)實現(xiàn)了,比現(xiàn)在光盤面密度提高了100倍,它還可以多層,實現(xiàn)幾個數(shù)量級的提高。
這些技術(shù),非常值得我們加快速度去研究,因為存儲的需求在那里,特別是基因分析研究這種需要長期存儲的應(yīng)用,在測序時要求存儲高性能、高可靠,長期保存時,要求存儲大容量、高性價比,所以面對這些挑戰(zhàn),我們有技術(shù)正在應(yīng)對,但是這需要時間的等待。
宋家雨:面對生命科學(xué)領(lǐng)域的海量數(shù)據(jù)存儲和應(yīng)用需求,浪潮擁有完善的存儲產(chǎn)品線,既有分布式存儲也有集中式存儲,客戶到底該如何選擇?
浪潮存儲產(chǎn)品線副總經(jīng)理 孫斌
孫斌:到底是使用分布式架構(gòu)還是集中式架構(gòu),往往是由客戶的應(yīng)用類型、應(yīng)用環(huán)境和所需要的存儲性能、容量、成本、功耗等等這些因素決定的,我們會根據(jù)種種需求給出最適合業(yè)務(wù)應(yīng)用的解決方案。
我們稱2019年是新數(shù)據(jù)時代元年,在新數(shù)據(jù)時代,需要有與之對應(yīng)的新存儲之道,浪潮會針對不同行業(yè)、不同領(lǐng)域和不同客戶應(yīng)用梳理我們的存儲解決方案。而生命科學(xué)領(lǐng)域,是浪潮非常看重的領(lǐng)域,目前我們的客戶包括生命科學(xué)研究系統(tǒng)、芯片研究企業(yè)、高校等等。
我們發(fā)現(xiàn)生命科學(xué)領(lǐng)域所使用的存儲的架構(gòu),多數(shù)是分布式存儲,但還有一部分是集中式存儲架構(gòu)。到底是使用分布式架構(gòu)還是集中式架構(gòu),往往是由客戶的應(yīng)用類型、應(yīng)用環(huán)境和所需要的存儲性能、容量、成本、功耗等等這些因素決定的,我們會根據(jù)種種需求給出最適合業(yè)務(wù)應(yīng)用的解決方案。
Dostor存儲在線總編輯 宋家雨
在新數(shù)據(jù)時代下,商業(yè)、技術(shù)、應(yīng)用、需求等等都在發(fā)展和演變,是Scale-up還是Scale-out,沒有一個標準答案存在,關(guān)鍵是在于我們要時刻地關(guān)注最新的存儲技術(shù)發(fā)展,然后結(jié)合最新應(yīng)用需要,把存儲能力運用到最好,這就是新存儲之道。