當(dāng)前位置：人工智能 → 行業(yè)動態(tài) → 正文

戴爾易安信AI測試成為全球最受關(guān)注的AI性能基準(zhǔn)測試

責(zé)任編輯：cres |來源：企業(yè)網(wǎng)D1Net 2022-01-05 14:35:00 原創(chuàng)文章企業(yè)網(wǎng)D1Net

新年之初

向各位讀者報告一則喜訊!

剛剛過去的12月

戴爾易安信PowerEdge XE8545

在“2021中國互聯(lián)網(wǎng)經(jīng)濟(jì)論壇”上

喜提“2021年度卓越人工智能產(chǎn)品”獎

祝賀XE8545!

恭喜戴爾易安信AI服務(wù)器再創(chuàng)佳績!

2021中國互聯(lián)網(wǎng)經(jīng)濟(jì)論壇由互聯(lián)網(wǎng)周刊、中國社會科學(xué)院信息化研究中心、eNet研究院、德本咨詢聯(lián)合主辦，自2002年起已成功舉辦十九屆，是業(yè)內(nèi)極具分量的互聯(lián)網(wǎng)行業(yè)盛會。論壇核心板塊的“金i獎”極具權(quán)威性和專業(yè)度，覆蓋了AI、大數(shù)據(jù)、5G等各行業(yè)領(lǐng)域，歷來被業(yè)內(nèi)視為代表互聯(lián)網(wǎng)精神和產(chǎn)業(yè)發(fā)展創(chuàng)新的風(fēng)向標(biāo)。

辭舊迎新之際，宜總結(jié)過去展望未來，當(dāng)下AI大潮席卷全球，作為底層邏輯的AI服務(wù)器又將走向何方?或許我們能從基準(zhǔn)( Benchmark )測試?yán)镒x出一些趨勢。

基準(zhǔn)( Benchmark ) 測試是目前最主要的信息系統(tǒng)性能測試技術(shù)，它按照統(tǒng)一的測試規(guī)范(test specification)對被測對象進(jìn)行測試，測試結(jié)果具有可比性和可再現(xiàn)性。在計算機(jī)領(lǐng)域，Benchmark測試應(yīng)用最廣泛和最成功的是性能測試，主要關(guān)注響應(yīng)時間、傳輸速率和吞吐量等。

對生產(chǎn)廠商而言，Benchmark測試可以為產(chǎn)品進(jìn)行市場宣傳，發(fā)現(xiàn)系統(tǒng)瓶頸;對用戶的作用則在于指導(dǎo)產(chǎn)品選擇。一個優(yōu)秀的Benchmark測試可以為某一領(lǐng)域的技術(shù)發(fā)展起到積極導(dǎo)向作用，引導(dǎo)廠商采用新技術(shù)以改進(jìn)產(chǎn)品。

筆者記得20年前最火的Benchmark測試無疑是TPC-C ，當(dāng)年還是小型機(jī)(簡稱小機(jī))時代，PS小機(jī)是中國特色的叫法，國外稱其為UNIX服務(wù)器。隨著x86和云原生應(yīng)用的興起，TPC瞬間就不香了。

自2006年AlphaGo打敗李世石后，業(yè)界急需公認(rèn)的AI時代基準(zhǔn)測試程序，萬眾期待之下，MLPerf AI性能基準(zhǔn)測試于2018年由MLCommons發(fā)布。

MLCommons成員包括谷歌、微軟、英特爾、NVIDIA、Facebook、阿里巴巴等多家在人工智能領(lǐng)域頗有建樹的領(lǐng)導(dǎo)企業(yè)。自推出后，MLPerf AI性能基準(zhǔn)測試以其全面性、科學(xué)性、廣泛參與度，業(yè)已成為全球最受關(guān)注的AI性能基準(zhǔn)測試，并為很多用戶AI計算方案設(shè)計及選型提供重要參考依據(jù)。

(一)

AI/DL落地傳統(tǒng)企業(yè)，

4GPU服務(wù)器是最佳平衡

在去年12月初發(fā)布的MLPerf Training v1.1基準(zhǔn)測試中，戴爾易安信共提交了51項測試結(jié)果，包括全部八個項目的性能數(shù)據(jù)，取得多項世界紀(jì)錄。

戴爾易安信參評了兩款4GPU機(jī)型服務(wù)器——PowerEdge XE8545和R750xa，分別取得如下幾項的世界第一：

(1)XE8545獲得四卡GPU加速服務(wù)器的四項最佳：

●目標(biāo)檢測Mask R-CNN(83.77分鐘)

●語音識別RNN-T(79.56分鐘)

●自然語言處理BERT(38.85分鐘)

●強(qiáng)化學(xué)習(xí)Mini Go(451.29分鐘)

(2)R750xa獲得四卡GPU加速服務(wù)器的語音識別RNN-T最佳(84.02分鐘);

戴爾易安信的測試數(shù)據(jù)、配置及Log，均可以在GitHub上找到：

https://sourl.cn/3FXXed

和友商專注于8顆GPU的單機(jī)測試不同，戴爾易安信更關(guān)注4顆GPU的單機(jī)和集群測試。

根據(jù)IDC連續(xù)三年的統(tǒng)計，4個雙寬GPU的機(jī)型在2021年成為市場主流。主要在于隨著單GPU性能的提升(如A100 vs V100)，現(xiàn)如今4*GPU機(jī)器的性能已經(jīng)超越上代8*GPU的機(jī)型。

另一個主要原因是AI/DL(Deep Learning)的早期采用者，互聯(lián)網(wǎng)行業(yè)的GPU服務(wù)器占比正逐年下降，而金融/制造/政府/電信等行業(yè)占比則逐漸上升，AI/DL正逐漸落地傳統(tǒng)行業(yè)。

相比互聯(lián)網(wǎng)，傳統(tǒng)行業(yè)很少需要高密度GPU服務(wù)器，因而4GPU服務(wù)器是當(dāng)前條件下的最佳平衡。

(二)

多機(jī)多卡GPU分布式訓(xùn)練

成為必然選擇

MLPerf Training v1.1基準(zhǔn)測試中，除了GPU服務(wù)器單機(jī)測試外，戴爾易安信是唯一的服務(wù)器廠家提供基于GPU多機(jī)分布式訓(xùn)練測試結(jié)果的廠商。

萬億級參數(shù)規(guī)模的AI模型訓(xùn)練、超大規(guī)模NLP/推薦系統(tǒng)特征向量、更大規(guī)模數(shù)據(jù)集更短訓(xùn)練時間——AI時代洶涌而來的超級算力需求，僅靠單臺GPU服務(wù)器已經(jīng)無法滿足，多機(jī)多卡GPU分布式訓(xùn)練成為必然選擇。

我們可以類比一下從當(dāng)年128路SMP小機(jī)到現(xiàn)在主流兩路x86集群的進(jìn)化歷程，戴爾易安信認(rèn)為GPU服務(wù)器的進(jìn)化也是類似：單機(jī)16/20個GPU的服務(wù)器已經(jīng)讓位于4/8個GPU服務(wù)器的集群。

2021年，戴爾易安信在國內(nèi)發(fā)布了《戴爾科技AI GPU分布式訓(xùn)練技術(shù)白皮書》，將戴爾易安信在構(gòu)建AI GPU加速集群、進(jìn)行AI GPU分布式訓(xùn)練全局優(yōu)化的參考架構(gòu)和最佳實踐分享給更多的用戶和朋友。

特別值得一提的是參與MLPerf Training v1.1基準(zhǔn)測試的PowerEdge XE8545，它在4U機(jī)架式空間內(nèi)可以支持風(fēng)冷散熱的4張NVIDIA A100 80GB/500W GPU加速卡，通過最新的NVLink技術(shù)實現(xiàn)全互聯(lián)(full mesh)。

XE8545服務(wù)器設(shè)計簡單直接，CPU(AMD第三代EPYC米蘭)與GPU、GPU與GPU、CPU與網(wǎng)卡及NVME SSD存儲，采用PCI-E 4.0或者NVLink實現(xiàn)直連，可最大程度降低通信及IO延遲，同時大大簡化程序員工作。