在地球漫長的進化中,我們人為地造成了很多悲劇:渡渡鳥、長毛象大海燕袋狼……
這些曾經平靜生活在地球上的動物因為人類活動而驟然滅絕。如今更是每天都有100多個物種在走向滅亡。
我們不想孤獨的生活在地球上,我們希望可以和這些生物和平共存。
現(xiàn)在,基因學給了我們新的希望,我們可以通過克隆復原這些動物了。只要從他們的化石標本上提取足夠的DNA,找到基因數(shù)據(jù)進行分析,排列出完整的DNA樣本,就有機會讓這些滅絕的動物重新復活。因此建立生物基因醫(yī)學體系十分重要。
深度學習加速生物大數(shù)據(jù)處理速度
隨著生命科學的迅猛發(fā)展,生物醫(yī)學領域的數(shù)據(jù)量呈指數(shù)形式增長,生物醫(yī)學數(shù)據(jù)表現(xiàn)為數(shù)據(jù)量大(Volume)、多樣化(Variety)、有價值(Value)、高速(Velocity)等特點。有學者指出,“生物學未來的新瓶頸在于大數(shù)據(jù)問題”。
一次人類基因測試實驗最大可產生約600G原始數(shù)據(jù),典型的醫(yī)療數(shù)據(jù)很容易達到PB級,如何更高效地處理這些數(shù)據(jù),成為生物醫(yī)學領域面臨的迫切問題。
XSharp是曙光公司專為深度學習技術而開發(fā)的一款軟件產品,分別從分布式并行系統(tǒng)優(yōu)化、分布式并行機器學習執(zhí)行模式優(yōu)化、大規(guī)模機器學習算法工具集三個層面提供深度學習優(yōu)化策略,幫助用戶實現(xiàn)應用優(yōu)化。
深度學習技術的發(fā)展,為大數(shù)據(jù)處理提供了一種全新方法。曙光公司聯(lián)合中科院計算機所,在生物醫(yī)學處理方面取得了長足進展,大大加速了生物大數(shù)據(jù)處理速度。
生物醫(yī)學大數(shù)據(jù)獨具特色
生物醫(yī)學領域數(shù)據(jù)有其自身特點。
1.數(shù)據(jù)量大:生物醫(yī)學領域數(shù)據(jù)量十分龐大。僅人類DNA信息就多達60ZB,若為每個中國公民完成基因測序,數(shù)據(jù)量將超過1000EB,如此龐大的數(shù)據(jù)量,無論是存儲還是處理,都將是一場噩夢。如今,只需幾千美元和幾個小時,即可完成一個人基因組的解析,低廉高效的研究方式得到生物科學家們的青睞,大量的物種得以測序解析,使得生物研究進入的生物數(shù)據(jù)的海洋,而積累的原始數(shù)據(jù)也必將迅速增長。
2.數(shù)據(jù)多樣化:測序儀器種類繁多,產生的數(shù)據(jù)格式也各不相同。同時,利用不同的生物信息分析軟件或分析流程處理得到的結果也是千差萬別。深度學習技術是一種全新的數(shù)據(jù)分析工具,可以在生物圖像信息處理中發(fā)揮重要作用。
3.價值高:隨著生物信息學的發(fā)展,越來越多有價值的信息從生物數(shù)據(jù)中挖掘出來,這些價值不僅體現(xiàn)在生物科研領域,而且已應用于農業(yè)、健康和醫(yī)學等領域。
4.高速:生物醫(yī)學數(shù)據(jù)量急劇增長的速度讓人驚嘆,而且數(shù)據(jù)的多樣化和價值也必將在快速處理中得以體現(xiàn)。
目前的生物醫(yī)學領域,高通量成像數(shù)據(jù)分析算法的時間復雜度為O(year),科學家希望通過交互式和高精度的并行計算平臺,將時間復雜度降低為O(minutes),為實現(xiàn)這個目標,以“大數(shù)據(jù)+HPC”為理論基礎的曙光XSharp軟件成為生命科學大數(shù)據(jù)處理和分析的利器。
XSharp:成熟的深度學習實踐平臺
曙光XSharp軟件整體分為算法接口、層級操作和虛擬后端三個邏輯層面,整體設計以加速應用為目標,為用戶提供標準算法接口;利用網絡層、分布式并行等層級操作,實現(xiàn)應用加速和優(yōu)化;底層將傳統(tǒng)的HPC硬件進行虛擬化,提供統(tǒng)一接口,完成深度學習的硬件實現(xiàn)。
小編釋義
算法接口。從Model、Rule、Activation、Metric等方面向應用提供標準算法接口。XSharp是一個開放平臺,我們將深度學習的各種算法均集合到產品中,在具體實踐中可以自由增加、刪除、修改、裁剪各種算法模塊,快速相應用戶需求。2.層級操作。從網絡和分布式并行兩個方面分別提供算法優(yōu)化策略。網絡層內容包含數(shù)據(jù)、通信、開銷、權重等;分布式并行包含數(shù)據(jù)、模型、流水線等優(yōu)化策略。3.虛擬后端。以編程和HPC硬件為基礎,包括并行編程MPI、大數(shù)據(jù)分布式處理框架Spark、GPU編程語言CUDA、RDMA、存儲技術等組成。