AI基準測試MLPerf™公布了最新一期榜單MLPerf™ Training v1.1,至此2021年度MLPerf™ 4次測試正式收官。
戴爾科技奪得11項固定任務賽道冠軍,在MLPerf™2021年度冠軍榜中名列第三。戴爾易安信PowerEdge XE8545及PowerEdge R750xa,亦在最新一期測試中取得優秀成績。
MLPerf™ AI性能基準測試
MLPerf由圖靈獎得主大衛•帕特森(David Patterson)于2018年聯合頂尖學術機構發起成立,歷屆參賽成員包括谷歌、英偉達、英特爾、微軟、戴爾、騰訊等國際頂尖企業及研究機構,是權威性最大、影響力最廣的國際AI性能基準測試,相當于全球AI領域的“奧運會”。
MLPerf™ AI性能基準測試包含Training(訓練)和Inference(推理)兩大領域,分為封閉任務賽道和開放任務賽道。
它基本涵蓋了主流的機器學習服務器系統,并且從不同維度對系統性能給出了評價指標,在AI應用日益復雜多樣的今天,為廣大用戶提供了AI計算方案設計及選型的權威參考。
上周發布的MLPerf™ Training v1.1,涵蓋圖像分類(ResNet-50)、醫療圖像(3D U-Net)、目標檢測(SSD)、目標監測(Mask R-CNN)、語音識別(RNN-T)、自然語言處理(BERT-Large)、推薦系統(DLRM)、強化學習(Mini Go),共計8個子目。
01
單機系統測試
在MLPerf™ Training v1.1基準測試中,戴爾易安信共提交了51項測試結果,包括全部8個項目的性能數據。
GPU服務器硬件平臺涵蓋PowerEdge XE8545、R750xa和DSS8440三款GPU服務器,GPU選型包括A100 80GB/40GB、NVLink與PCI-E接口以及NVBridge互聯的GPU加速卡等不同硬件組合。
通過不同服務器加GPU組合的結果數據對比,用戶可以方便地進行比較,并獲得不同的AI加速服務器選型基準性能數據參考。
其中,PowerEdge XE8545 + 4卡A100 80GB SXM4的產品組合,參加了8個項目的性能測試,表現相當亮眼:
●在所有參與MLPerf™ Training v1.1的四卡GPU加速服務器中,PowerEdge XE8545取得了目標檢測(SSD)、目標檢測(Mask R-CNN)、語音識別(RNN-T)、自然語言處理(BERT)、強化學習(Mini Go)五個項目的最佳成績。
●在自然語言處理BERT-Large測試中,PowerEdge XE8545計算性能相較上一次MLPerf™ Training v1.0,訓練時間縮短了18%。
戴爾易安信的測試數據、配置及Log,均可以在GitHub上找到:
https://sourl.cn/3FXXed
02
集群系統測試
除了GPU服務器單機測試外,戴爾易安信也是少有的提供基于GPU多機分布式訓練測試結果的三家廠商之一。
集群系統測試出戰的是PowerEdge R750xa,單臺配置4塊NVIDIA A100 80GB GPU,分別遵循以下模式進行MLPerf™ ResNet-50基準測試。
?單機(4卡)
?2臺服務器(8卡)
?4臺服務器(16卡)
?8臺服務器(32卡)
測試結果如下:
▍兩臺R750xa訓練性能可以達到單臺R750xa的1.96倍,幾乎是線性加速;
▍四臺R750xa 16卡A100分布式訓練,計算性能相當于單臺的3.63倍,仍然保持良好的GPU加速效果;
▍使用16張A100 80GB的R750xa加速集群,17.336分鐘即可完成ResNet-50模型訓練;
▍使用32張A100 80GB的R750xa加速集群,10.586分鐘就可以完成ResNet-50訓練。
針對超大型模型,多機分布式訓練勢在必行。
今年早先時候,戴爾易安信在國內發布了《戴爾科技AI GPU分布式訓練技術白皮書》,將戴爾易安信在構建AI GPU加速集群,進行AI GPU分布式訓練全局優化的參考架構和最佳實踐分享給更多的用戶和朋友。
戴爾易安信AI加速服務器
臺上一分鐘,臺下十年功,戴爾易安信GPU服務器在MLPerf™ Training v1.1基準測試中的不俗表現來源于其先進的技術配置。
l PowerEdge XE8545
4U機架式空間內可以支持4張NVIDIA A100 80GB/40GB GPU加速卡,通過最新的NVLink加速技術實現Pear to Pear全互聯。
PowerEdge XE8545服務器設計簡單直接,CPU與GPU、GPU與GPU、CPU與網卡及NVME SSD存儲,采用PCI-E 4.0或者NVLink實現直連,可最大程度降低通信及IO延遲。
使用XE8545單機4卡訓練ResNet-50圖像分類模型,計算性能為上一代4卡V100 NVLink GPU服務器的2.3倍。
l PowerEdge R750xa
PowerEdge R750xa是首次參加MLPerf™ Training基準測試,同樣取得了在四GPU加速服務器單機及集群測試領先的優異成績。PowerEdge R750xa在2U空間支持4張雙寬GPU的加速服務器,可耐受高達35度環境溫度使用空氣進行冷卻。
它支持更豐富的GPU選型,包括A100/A40/A30/A10/A16/T4/A2等。PowerEdge R750xa還支持NVLink Bridge加速通信技術,針對A100、A40、A30 GPU,通過NVLink通道可以實現兩個GPU之間的高速互聯通訊。
R750xa可安裝多達8個SAS/SATA固態硬盤或NVME SSD硬盤,提供NVME硬件RAID卡保護機制;與系統軟RAID機制相比,硬件RAID卡在性能和可靠性上更有保證,可確保GPU服務器本地NVME SSD存儲以最高性能穩定工作。
l PowerEdge DSS8440
高密度GPU服務器,在4U機架式空間內最高可以支持10塊如NVIDIA A100雙寬GPU加速卡,或者16塊單寬GPU。
同8卡GPU加速服務器相比,單機GPU計算密度提高25%,DSS8440同時提供對Graphcore IPU AI專用加速芯片的支持。
AI時代,應對指數級增長的數據,僅由CPU提供算力的傳統服務器顯得捉襟見肘,而擅長處理圖形渲染、計算視覺、機器等密集型運算應用的GPU服務器,經驗證足以扛起AI發展大旗。戴爾易安信AI加速服務器,支持苛刻的AI工作負載,助您輕松高效應對AI大潮。
END