傳統(tǒng)意義上,高性能計算(HPC)依賴于數(shù)值分析來求解物理方程,以此模擬小到亞原子,大到銀河系的系統(tǒng)行為。而最近,科學(xué)家們開始嘗試一種完全不同的方法。事實證明,機(jī)器學(xué)習(xí)(ML)模型比現(xiàn)有的數(shù)字運算仿真更高效、更準(zhǔn)確。一旦深度神經(jīng)網(wǎng)絡(luò)(DNN)使用來自傳統(tǒng)分析和直接觀察的幾乎無限的數(shù)據(jù)集得到訓(xùn)練,它就可以預(yù)測或估計模擬的結(jié)果——而不需要實際運行。早期的結(jié)果表明,通過將ML與傳統(tǒng)的仿真相結(jié)合,這些“綜合模型”可以提高準(zhǔn)確性,加快求解速度,并顯著降低成本。如果這一辦法被廣泛采用,將進(jìn)一步推動以NVIDIA為代表的加速器供應(yīng)商的業(yè)務(wù)的發(fā)展。
機(jī)器學(xué)習(xí)和HPC的交集
機(jī)器學(xué)習(xí)模型可以用來解決極其復(fù)雜的問題。就此而言,它會使用比傳統(tǒng)方法少得多的資源?;趦蓚€原因,ML可以更有效率。首先,數(shù)值分析通常需要昂貴的64位浮點計算,而經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)通常只需要8位整數(shù)計算。訓(xùn)練一個DNN無疑具有很高的計算要求,需要許多GPU和數(shù)萬億次的計算。但是,一旦訓(xùn)練好了,DNN就可以用簡單的整數(shù)進(jìn)行運算。其次,整個方法通過找到現(xiàn)有數(shù)據(jù)中的模式規(guī)律來起作用,而不是計算數(shù)值方程。因此,早期的研究表明ML通常消耗的資源要少得多,可以解決傳統(tǒng)模擬所無法掌控的問題。
HPC機(jī)器學(xué)習(xí)的好處
雖然ML在HPC領(lǐng)域是一個相對較新的特性,但是科學(xué)家已經(jīng)在研究中應(yīng)用了綜合建模并且得到了一些引人注目的結(jié)果。早期階段的研究案例較少,以下是一些典型的研究項目,在SC17超算大會上備受關(guān)注:
1.LIGO信號處理(NCSA) - 快5000倍
2.預(yù)測分子能量學(xué)(UFL / UNC) - 快300,000倍
3.分析引力Lensing(SLAC斯坦福) - 從數(shù)周到10毫秒
4.產(chǎn)生玻色愛因斯坦凝聚(UNSW):快14倍
5.持久融合(Princeton):將中斷預(yù)測從85%提高到90%
6.跟蹤中微子(Fermilab):檢測率提高33%
7.Protein Ligand Scoring(匹茲堡大學(xué)):將姿勢預(yù)測精度從52%提高到70%
將ML應(yīng)用于HPC問題有三種方法。首先,它可以用來調(diào)制連續(xù)迭代之間的仿真或?qū)嶒?- 將收斂加速到一個穩(wěn)定可靠的模型。在勞倫斯利弗莫爾國家實驗室研究聚變能力的研究人員已經(jīng)使用ML來檢查仿真運行期間的發(fā)散,自動調(diào)整參數(shù)以保持仿真正常進(jìn)行。他們已經(jīng)報告使用這種技術(shù)的速度顯著增加。
另一種方法是增強(qiáng)現(xiàn)有的模擬,以提高準(zhǔn)確性和降低延遲。在這里,模擬提供了神經(jīng)網(wǎng)絡(luò)的出發(fā)點和訓(xùn)練數(shù)據(jù),以改進(jìn)數(shù)值模型的輸出。這種方法的一個顯著的例子是高分辨率光線追蹤。這種傳統(tǒng)的計算密集型方法創(chuàng)建了一個“真實”的圖像,然后用它來訓(xùn)練一個DNN以產(chǎn)生額外的高質(zhì)量圖像,而資源卻少得多。
▲與傳統(tǒng)的光線跟蹤相比,機(jī)器學(xué)習(xí)可以生成高質(zhì)量的圖像,計算資源要少得多。
最后,也許HPC中機(jī)器學(xué)習(xí)最有影響力的應(yīng)用是用基于ML的近似值代替數(shù)值模擬模型。這種方法有可能改變HPC。然而,這種方法需要科學(xué)家采用一種辦法,最終可能會使他們花費了數(shù)十年開發(fā)的代碼變得過時。當(dāng)然,實踐中的結(jié)果可能也是讓人驚嘆的。佛羅里達(dá)大學(xué)和北卡羅來納大學(xué)的科學(xué)家已經(jīng)看到了其在藥物研究中的好處,他們能夠?qū)⒂嬎銜r間從幾分鐘縮短到幾微秒,減少了6個數(shù)量級。這可能會對篩選新候選藥物所需的時間產(chǎn)生巨大影響,使用傳統(tǒng)的CPU,這個篩選過程可能需要5年。
結(jié)論
這種新的方法仍處于起步階段,也存在一些爭議。 不過機(jī)器學(xué)習(xí)研究人員已經(jīng)證明,它們可以減少多個數(shù)量級的計算資源和能源消耗,同時提高準(zhǔn)確性和降低延遲。考慮到各國政府和行業(yè)的資金投入,以及現(xiàn)有的極其高效的GPU硬件,預(yù)計未來幾年這一趨勢將會大幅加速。