算法固然重要,但想做好 AI,還需要強(qiáng)大的底層支撐。谷歌在訓(xùn)練 AlphaGo Zero 時(shí),用到 2000 塊 TPU,僅僅花費(fèi)三天就完成訓(xùn)練。目前,企業(yè) AI 化的需求不斷加深,需要有非常強(qiáng)大的計(jì)算平臺(tái)來有力支撐線上推理和線下訓(xùn)練。
AI 計(jì)算平臺(tái)涉及到 GPU、CPU、TPU、FPGA 等硬件,每類硬件背后都有代表企業(yè)。英偉達(dá) GPU 以卓越的性能,在 AI 計(jì)算中占據(jù)了相當(dāng)大的市場(chǎng);英特爾在 CPU 上有得天獨(dú)厚的優(yōu)勢(shì),并擅長(zhǎng)布局生態(tài),譬如將 CPU 與 FPGA 相結(jié)合;谷歌瞄準(zhǔn)深度學(xué)習(xí)場(chǎng)景,發(fā)布專用 TPU 加速器。
在 4 月的浪潮云數(shù)據(jù)中心合作伙伴大會(huì)(IPF2018)上,浪潮首發(fā)面向 AI 云設(shè)計(jì)的彈性 GPU 服務(wù)器 NF5468M5,可靈活支持 AI 模型的線下訓(xùn)練和線上推理。(目前,浪潮在雷鋒網(wǎng)學(xué)術(shù)頻道 AI 科技評(píng)論旗下數(shù)據(jù)庫(kù)項(xiàng)目「AI 影響因子」中得分為 8 。)
這一服務(wù)器具備以下功能:
面向線下訓(xùn)練對(duì)性能的需求,可支持 8 顆最高性能的 Tesla Volta GPU 以 PCI-E 或 NVLink 的高速互聯(lián)。
面向在線推理對(duì)高能效比的需求,可支持 16 顆高能效比的 Tesla P4 GPU,適用于語音、圖片、視頻場(chǎng)景。
在智能視頻分析場(chǎng)景下,可同時(shí)處理 300 路以上 1080p 高清視頻結(jié)構(gòu)化。
在數(shù)據(jù)存儲(chǔ)和通信性能方面,支持 288TB 大容量存儲(chǔ)或 32TB 固態(tài)存儲(chǔ),能實(shí)現(xiàn)高達(dá) 400Gbps 的通信帶寬和 1us 的超低延遲。
據(jù)浪潮介紹,AI 云對(duì)基礎(chǔ)架構(gòu)的設(shè)計(jì)帶來了新的挑戰(zhàn),要求 AI 服務(wù)器具備適合于不同 AI 訓(xùn)練場(chǎng)景的 GPU 靈活拓?fù)?、AI 線上推理的高并發(fā)低延遲與高能效比、大規(guī)模 AI 數(shù)據(jù)的存儲(chǔ)與通信能力?;诖?,結(jié)合英偉達(dá) GPU 芯片的良好性能以及穩(wěn)健生態(tài),浪潮做出一系列創(chuàng)新,推出 NF5468M5。
除了最新發(fā)布的 GPU 服務(wù)器 NF5468M5,浪潮的服務(wù)器還涉及 CPU、FPGA。浪潮通過實(shí)測(cè)數(shù)據(jù),分析不同場(chǎng)景下人工智能計(jì)算對(duì)服務(wù)器的性能要求,合理搭配以 CPU、GPU 和 FPGA 為核心的 AI 計(jì)算服務(wù)器。以下是兩個(gè)典型案例。
適用于多個(gè)應(yīng)用場(chǎng)景的 FPGA 加速設(shè)備 F10A
F10A 是一款 FPGA 加速設(shè)備?;?FPGA 具有可編程專用性,高性能及低功耗的特點(diǎn),浪潮 F10A AI 線上推理加速方案針對(duì) CNN 卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)算法進(jìn)行優(yōu)化和固化,可加速 ResNet 等神經(jīng)網(wǎng)絡(luò),能夠應(yīng)用于圖片分類、對(duì)象檢測(cè)和人臉識(shí)別等應(yīng)用場(chǎng)景。
這一服務(wù)器的單芯片峰值運(yùn)算能力為 1.5 TFlops,每瓦特性能達(dá)到 42 GFlops。同時(shí),F(xiàn)10A 具有靈活的板卡內(nèi)存配置,最大支持 32G 雙通道內(nèi)存,能夠寄存更多的并行任務(wù)數(shù)據(jù)。
最大支持 64 塊 GPU 的 SR-AI
SR-AI 單機(jī)可實(shí)現(xiàn)支持 16 個(gè) GPU 的超大擴(kuò)展性節(jié)點(diǎn),該方案最大支持 64 塊 GPU,峰值處理能力為 512 TFlop,可支持千億樣本、萬億參數(shù)級(jí)別的模型訓(xùn)練。該服務(wù)器打破了傳統(tǒng)服務(wù)器的 GPU/CPU 緊耦合架構(gòu),通過 PCI-e Switch 節(jié)點(diǎn)連接上行的 CPU 計(jì)算/調(diào)度節(jié)點(diǎn)和下行的 GPU Box,實(shí)現(xiàn) CPU/GPU 的獨(dú)立擴(kuò)容,避免傳統(tǒng)架構(gòu)升級(jí)帶來的部件過度冗余,使得 GPU 擴(kuò)展無需同步配置高成本的 IT 資源,可將成本優(yōu)化 5% 以上,隨著規(guī)模上升,成本優(yōu)勢(shì)更加明顯。
浪潮表示,在計(jì)算平臺(tái)的選擇上,企業(yè)可以在適合線下訓(xùn)練的計(jì)算加速節(jié)點(diǎn)采用浪潮領(lǐng)先業(yè)界設(shè)計(jì)的浮點(diǎn)運(yùn)算能力強(qiáng)、高擴(kuò)展的 GPU 服務(wù)器,或 KNM 計(jì)算加速器,而用于線上識(shí)別的計(jì)算加速節(jié)點(diǎn)采用浪潮低功耗、高能效比的 GPU 服務(wù)器,或者低功耗定制優(yōu)化推理程序的 FPGA 加速器。
2017 年,浪潮 AI 服務(wù)器在中國(guó) AI 市場(chǎng)占有率超過 57%,阿里巴巴、騰訊和百度三家運(yùn)營(yíng)商 90% 以上的 AI 服務(wù)器都來自浪潮。
對(duì)于浪潮在 AI 服務(wù)器上的成功,浪潮 AI&HPC 總經(jīng)理劉軍將其歸功于三個(gè)方面,一是對(duì) GPU 的布局早,二是對(duì)行業(yè)客戶的把握——把互聯(lián)網(wǎng)作為主航道,三是產(chǎn)品創(chuàng)新的能力和效果有保證。
日前,浪潮也公開了企業(yè) AI 策略。
2018 年 4 月 26 日,在浪潮云數(shù)據(jù)中心合作伙伴大會(huì) IPF2018 上,浪潮發(fā)布全新 AI 品牌 TensorServer,明確傳遞浪潮對(duì) AI 業(yè)務(wù)的決心與愿景。浪潮集團(tuán)副總裁彭震對(duì) TensorServer 品牌予以了詮釋:「Tensor 是算法的基礎(chǔ)元素,Server 是計(jì)算力的基礎(chǔ)架構(gòu)。AI 基礎(chǔ)架構(gòu)對(duì)于 AI 產(chǎn)業(yè)持續(xù)快速健康發(fā)展至關(guān)重要。TensorServer 意在成為 AI 的承載者與賦能者,整合創(chuàng)新 AI 基礎(chǔ)架構(gòu)系統(tǒng),以計(jì)算開啟可進(jìn)化的智慧世界?!?/p>
這里的 AI 基礎(chǔ)架構(gòu)系統(tǒng)涵蓋平臺(tái)、管理、框架、應(yīng)用多個(gè)方面。
在 AI 管理上,浪潮部署 AIStation 人工智能深度學(xué)習(xí)集群管理軟件。AIStation 主要面向深度學(xué)習(xí)計(jì)算集群,提供數(shù)據(jù)處理、模型開發(fā)、模型訓(xùn)練、推理服務(wù)全流程服務(wù),支持多種深度學(xué)習(xí)框架,能夠快速部署深度學(xué)習(xí)訓(xùn)練環(huán)境,全面管理深度學(xué)習(xí)訓(xùn)練任務(wù),為深度學(xué)習(xí)用戶提供高效易用的平臺(tái)。此外,這一軟件可以對(duì)計(jì)算集群的 CPU 及 GPU 資源進(jìn)行統(tǒng)一的管理、調(diào)度及監(jiān)控,有效的提高計(jì)算資源的利用率和生產(chǎn)率。
作為補(bǔ)充,浪潮還自研 Teye 應(yīng)用特征分析系統(tǒng)。Teye 主要用于分析 AI 應(yīng)用程序在 GPU 集群上運(yùn)行時(shí)對(duì)硬件及系統(tǒng)資源占用的情況,反映出應(yīng)用程序的運(yùn)行特征、熱點(diǎn)及瓶頸,從而幫助用戶最大限度的在現(xiàn)有平臺(tái)挖掘應(yīng)用的計(jì)算潛力,進(jìn)而為應(yīng)用程序的優(yōu)化以及應(yīng)用算法的調(diào)整改進(jìn)提供科學(xué)的指引方向。
而在框架上,浪潮早在 2015 年就發(fā)布 Caffe-MPI 深度學(xué)習(xí)計(jì)算框架,他們?cè)?Caffe 架構(gòu)的基礎(chǔ)上,針對(duì)并行擴(kuò)展性做出一系列創(chuàng)新。
據(jù)雷鋒網(wǎng)了解,最新版本 Caffe-MPI 在 4 節(jié)點(diǎn) 16 塊 GPU 卡集群系統(tǒng)上訓(xùn)練性能較單卡提升 13 倍,其每秒處理圖片數(shù)量是同配置集群運(yùn)行的 TensorFlow 1.0 的近 2 倍。
Caffe-MPI 設(shè)計(jì)了兩層通信模式:節(jié)點(diǎn)內(nèi)的 GPU 卡間通信及節(jié)點(diǎn)間的 RDMA 全局通信,這極大降低了網(wǎng)絡(luò)通信的壓力,并克服了傳統(tǒng)通信模式中 PCIE 與網(wǎng)絡(luò)之間帶寬不均衡的影響,同時(shí) Caffe-MPI 還設(shè)計(jì)實(shí)現(xiàn)了計(jì)算和通信的重疊。此外,新版本 Caffe-MPI 提供了更好的 cuDNN 兼容性,用戶可以無縫調(diào)用最新的 cuDNN 版本實(shí)現(xiàn)更大的性能提升。
除了自研深度學(xué)習(xí)框架,浪潮將深度學(xué)習(xí)框架及其依賴的庫(kù)統(tǒng)一進(jìn)行資源封裝成一個(gè)鏡像,之后便可以在任何支持資源封裝的浪潮平臺(tái)上隨時(shí)加載鏡像,用戶可以立刻開始工作,其工作環(huán)境與原始環(huán)境完全一致,這可以有效提升生產(chǎn)力。目前,浪潮可封裝的框架資源基本涵蓋了主流的深度學(xué)習(xí)框架,包括 Caffe/Cafee-MPI、TensorFlow、CNTK、MXNet 以及 PaddlePaddle 等。
在應(yīng)用加速上,雷鋒網(wǎng)了解到浪潮的解決方案如下:
應(yīng)用場(chǎng)景咨詢與系統(tǒng)方案設(shè)計(jì)
浪潮 AI 解決方案專家與客戶商討深度學(xué)習(xí)應(yīng)用場(chǎng)景,共同分析計(jì)算熱點(diǎn)和瓶頸,幫助設(shè)計(jì)適合客戶應(yīng)用場(chǎng)景的系統(tǒng)方案。
應(yīng)用代碼移植優(yōu)化
浪潮異構(gòu)應(yīng)用專家可以幫助客戶分析 CPU 代碼特征,辨別是否適合遷移至異構(gòu)加速部件,并共同將代碼熱點(diǎn)進(jìn)行移植優(yōu)化,提升應(yīng)用的計(jì)算效率,時(shí)間更短。
計(jì)算加速部件性能橫向評(píng)測(cè)
浪潮針對(duì) GPU/FPGA/KNM 等主流異構(gòu)加速部件擁有成熟的橫向評(píng)測(cè)方法,可以幫助客戶選擇適合的部件。
目前,浪潮的解決方案為行業(yè) AI 轉(zhuǎn)型提供賦能支撐。
浪潮與百度合作推出 ABC 一體機(jī),這一設(shè)備集合了百度自研的集群管理軟件、優(yōu)化引擎和浪潮 AI 計(jì)算硬件平臺(tái),支持 PaddlePaddle、TensorFlow、Caffe 等主流深度學(xué)習(xí)框架,內(nèi)嵌成熟的算法模型和云管理技術(shù)。
據(jù)浪潮介紹,ABC 人臉識(shí)別一體機(jī)支持百度人臉檢測(cè)、1:1 人臉對(duì)比和 1:N 人臉查找三大人臉識(shí)別核心能力,可以根據(jù)人臉面部的 72 個(gè)特征點(diǎn)識(shí)別多種人臉屬性,如性別、年齡、表情等信息,并計(jì)算人臉相似度,可用于用戶身份。
此外,浪潮很早就開始與科大訊飛合作訓(xùn)練語音神經(jīng)網(wǎng)絡(luò)模型,從將模型訓(xùn)練從 CPU 單機(jī)上擴(kuò)展到多機(jī),而后又開展如何在 FPGA 上運(yùn)行語音神經(jīng)網(wǎng)絡(luò)模型的研究,實(shí)現(xiàn)更高的性能。
目前,浪潮在計(jì)算平臺(tái)、管理套件、框架優(yōu)化和應(yīng)用加速上已經(jīng)形成有機(jī)的 AI 生態(tài)。劉軍表示,對(duì)于渴望 AI 轉(zhuǎn)型的企業(yè),從客觀看,極其需要這四層能力,而浪潮作為賦能者,能將這四層能力賦予這些企業(yè),讓其更快速地實(shí)現(xiàn) AI 落地。