右二:中國信息與通信研究院產業與規劃研究所副總工程師王青;右一:京東云裸金屬產品研發負責人徐梓耀
日前,在中國IDC圈與京東云聯合主辦的“京東云直播活動——智算專場”迎來第二場直播:【大模型時代,我們需要什么樣的智算中心?】,中國信息與通信研究院產業與規劃研究所副總工程師王青與京東云裸金屬產品研發負責人徐梓耀兩位嘉賓,帶來大模型時代的算力新需求、智算中心特點、軟硬件及運維新需求等分享。
大模型時代 算力新需求
圖文生成、無人駕駛……ChatGPT橫空出世至今不到兩年的時間,大模型已經從實驗室走到產業化,背后離不開算力支持。
業界戲言“無算力不模型”。在直播中,中國信息與通信研究院產業與規劃研究所副總工程師王青分析,大模型帶來的算力需求變化主要體現在規模、性能和異構性等方面。
首先,大模型的參數規模與對算力的消耗成正比,參數規模越大,對算力的需求越大,隨著大模型參數量從千億邁向萬億,未來萬卡集群成為新一輪大模型基建賽道競爭的配置。
其次,大模型對算力性能的提升需求迫切,包括:①加速芯片和微架構創新等使得芯片能支撐更高精度的計算和更復雜的算法,提升大模型訓練效率。②智算中心部署層級分為芯片級、單服務器節點級、多服務器集群級,大模型發展對智能算力擴展性提出高要求,多以服務器單點或集群模式部署以提供并行計算能力。③軟件優化,通過強化大模型加速庫能力建設,向用戶提供高效編程接口、優化編譯器等工具,提升算力效率和性能。
最后,隨著大模型應用不斷拓展,對異構算力的需求也日益增加,并且涵蓋GPU、CPU、NPU等多種芯片類型、多種算力類型,以及國內外芯片結合等多樣化算力需求。
京東云裸金屬產品研發負責人徐梓耀通過對芯片、服務器、多服務器集群三個層級的分析,指出:智算服務的本質是利用IDC中的“分布式智能計算”環境,通過“互聯網”為客戶提供“本地化體驗”的“智能計算服務”能力。
從傳統數據中心到智算中心大不同
大模型帶來算力需求變化的背景下,以通用算力為主的算力格局迎來改變,智能算力成為增長主力,作為算力的物理承載,傳統數據中心也向智算中心演變。
與傳統數據中心相比,智算中心有何不同?
王青與徐梓耀兩位嘉賓一致認為,主要集中在計算、網絡和存儲三方面。
王青認為,大模型參數量和訓練數據復雜性快速增長,對AI算力平臺的建設提出了新的要求,即需要從數據中心規模化算力部署的角度,統籌考慮大模型分布式訓練對于計算、網絡和存儲的需求特點,并集成平臺軟件、結合應用實踐,充分關注數據傳輸、任務調度、并行優化、資源利用率等,設計和構建高性能、高速互聯、存算平衡可擴展集群系統,以滿足AI大模型的訓練需求。整體來看,智算基礎設施的部署涉及計算、網絡、存儲三大維度的橫向協同,也需要兼顧軟件平臺與硬件資源的縱向協同。
徐梓耀表示,對于智算在計算、網絡、存儲三方面的變化,京東云都有相應產品與解決方案滿足。
第一,在計算方面,智算服務對IDC機柜的配電要求更高,需要進行定制改造滿足不同AI服務器的需求。
“阿爾法”T系列(風液型)智能算力模塊
為此,京東云推出 “阿爾法”T系列(風液型)與L系列(液冷型)兩種智能算力模塊,分別可滿足算力密度20-50kW/柜與20-100kW/柜以上數據中心部署需求。智能算力模塊均采用預制化模式,最快45天交付,支持47U-60U。其中L系列采用全預制化+冷板液冷系統,液冷機柜、CDU及室外冷卻設備等配置完善,可支持最高100KW/機柜功率密度。
第二,在網絡方面,智算服務要支持百億、千億甚至萬億參數的深度學習大模型,對數據中心網絡提出更高定制要求,除以太網外,支持RDMA能力的高速無損IB網絡或RoCE網絡是強需。
他介紹,京東提供算力網絡定制服務能力,H100/H800卡建議使用400G IB網絡,機器8張400G IB網絡滿配;A100/A800 卡建議使用200G網絡,IB或者RoCe都可以。
第三,在存儲方面,智算服務需要海量的訓練數據,對數據中心的存儲系統也提出定制需求,高性能的共享存儲也成為標配。
京東自研的存算分離的分布式存儲系統——云海,屏蔽底層存儲的異構(支持國產),實現數據的同意存儲與管理,EB級存儲容量、萬億級可管理的文件數量,適配國產服務器。云海有兩種產品形態,公有云上為云海統一平臺,也提供私有化部署云海存儲一體機。
此外,徐梓耀還介紹了京東云融合智算服務,以及滿足智算中心綠色節能低碳運維需求的智能精維平臺。平臺分硬件節能與運維節能兩個層面,其中運維節能的相關產品——節能寶,能將傳統數據中心能耗降低15%左右,節能效果十分客觀。
當天直播中,王青與徐梓耀兩位嘉賓還圍繞智算中心主要用戶與應用場景、智算格局與未來發展、通用數據中心的改造等話題,帶來了深入分析與內容分享。