NeurIPS作為機器學習和神經計算領域的頂級會議,吸引了機器學習、人工智能、統計等領域的眾多國際專家參與。近年來,在計算機視覺、語音識別、自然語言處理等領域也出現了大量的創新應用,NIPS在AI深度學習領域的學術影響力變得舉足輕重。
算法、數據和計算是推動AI深度學習技術快速發展的三大要素。為支持更強的泛化能力,更高的預測精度,算法模型日趨復雜,越來越多的數據需要被及時標注和處理,計算性能成為關鍵。百度X-MAN超級AI計算平臺提供極致的計算性能,支持超大復雜算法模型,能夠快速及時處理海量數據。自2016年誕生以來,百度X-MAN超級AI計算平臺歷經3代發展,3次架構升級,創造6項業界第一,同時期關鍵技術&性能保持領先,引領行業發展趨勢。目前,X-MAN系列產品已在百度大規模應用,正在助力百度AI戰略快速落地。
X-MAN解決的3大關鍵技術挑戰
為提供更強的計算性能和最佳的計算效率,X-MAN在系統設計中面臨了三大關鍵技術的挑戰:如何有效提升單機計算性能、如何實現多機加速的高可擴展性以及如何均衡CPU與AI加速芯片的配比關系,以避免系統瓶頸。
在有限的單機空間內,集成更多數量、性能更強、互聯帶寬更高的AI加速卡,是提升單機計算性能的直接手段,但帶來了高速互聯、結構、散熱、供電等硬件技術難題;單機訓練方式難以滿足超大規模數據集和復雜的模型場景下的計算力需求,大規模分布式訓練成為必然,解決多機加速的可擴展性就成了關鍵技術難題;深度學習模型的負載差異較大,CPU密集型,計算密集型,通信密集型,存在著多種需求場景,為了避免系統性能瓶頸、充分發揮計算效率,如何快速靈活的調整CPU和AI計算芯片的配比并支持獨立迭代升級成了關鍵的技術難題。
X-MAN的3次架構升級和9大技術特征
自2016年首次發布以來,X-MAN的三代產品各自都有著鮮明的設計理念:超高的計算密度、高效散熱、兼容多元化AI加速芯片。X-MAN通過3次架構升級,有效攻克了3大技術挑戰。
X-MAN1.0發布于2016年Q2,單機可以支持16個AI加速卡,最高擴展到64,實現了超高的計算密度。X-MAN1.0具備4大技術特征:硬件解耦、資源池化、PCIe Fabric技術、100G RDMA高速互聯。通過硬件解耦實現了單機計算性能的擴展,支持獨立快速升級CPU和AI加速卡;通過硬件解耦和資源池化技術支持快速靈活調整CPU和AI加速卡的配比,從而避免系統瓶頸,保證計算效率;通過PCIe Fabric技術提升單機內部通信帶寬降低了通信延遲,且可以在虛擬機環境下支持多卡高速通信實現native performance,從而解決了強大的單機計算性能的挑戰;通過100G RDMA高速互聯技術提升多機的通信帶寬降低通信延遲,從而解決多機加速的可擴展性的技術難題。
X-MAN2.0發布于2017年Q3,通過冷板式液冷散熱技術實現了超高的散熱效率。和業界主流方案一樣,X-MAN2.0可以支持8卡NVLink高速互聯,差異化方面,X-MAN2.0具備2大技術特征:液冷散熱和靈活的IO支持。隨著AI加速卡的功耗增長,散熱問題已成為制約AI加速卡計算力提升的關鍵瓶頸,X-MAN2.0通過冷板式液冷散熱技術解決了散熱難題,同時又避免了浸沒式液冷技術帶來的運維、部署、成本等問題。隨著AI加速卡的性能進一步提升,通信瓶頸也會進一步暴露,X-MAN2.0通過靈活的IO接口特性,支持按業務場景適配不同數量的100G RDMA網卡,在解決多機加速的可擴展性技術挑戰的同時,也有效降低了網絡系統設計的復雜度和成本。
隨著AI人工智能技術的快速發展,眾多AI芯片公司應運而生,AI芯片格局正呈現多元化發展趨勢。此次NIPS大會上發布的X-MAN3.0,采用了硬件系統模塊化、互聯接口標準化、互聯拓撲高靈活性的設計思路,既提升了多元化AI加速芯片的兼容性,也促進了AI加速芯片生態健康、快速、可持續的發展。X-MAN3.0具備3大關鍵技術特征,包括48V供電技術、標準化的AI加速卡接口定義和靈活的互聯拓撲。相比傳統12V供電技術,48V供電技術可以更好解決AI加速卡在負載急劇變化面臨的電流沖擊問題;通過靈活的互聯拓撲,可以支持單機擴展更多的AI加速卡,從而有效提升單機計算性能,更可以支持專用多機互聯通信通道,相比傳統的100G RDMA網絡,專用通信通道可以進一步提高通信帶寬,降低通信延時,有效解決大規模多機計算的高擴展性技術挑戰;通過標準化的AI加速卡接口定義和靈活的互聯拓撲,可以有效兼容多元化AI加速芯片,促進AI芯片多元化生態格局健康發展。
此次百度快速研發落地X-MAN3.0,得到了浪潮、英業達等服務器系統廠商的積極參與支持; 我們期待有更多的服務器系統合作伙伴、AI加速芯片廠商和同行加入共建開放的生態,促進整個生態圈的良性發展。
X-MAN創造了6項業界第一,引領行業技術發展趨勢
憑借著對AI業務模型的深刻理解、扎實的硬件基礎架構技術和對行業趨勢的準確預判,百度設計了X-MAN AI計算平臺系列產品,創造了6項業界第一。其中, 2016年Q2發布的X-MAN1.0創造了5個業界第一:首次實現單機擴展16片AI加速卡;首次實現4/8/16/32/64卡系統級彈性擴展;首次實現AI計算硬件解耦架構(注:Facebook 2017年Q1發布的Big Basin、微軟2017年Q1發布的HGX-1等都采用了相似設計理念);首次實現PCIe Fabric技術架構,支持按需求業務動態分配AI計算資源;首次實現虛擬機多卡高速無損通信技術(native performance)。2017年Q3發布的X-MAN2.0業界首創將冷板式液冷散熱技術應用到AI計算產品里,有效解決了高性能AI加速卡的散熱挑戰(注:Google 2018年Q2發布的TPU3.0也采用了相似技術)。
X-MAN大規模部署,助力百度AI戰略快速落地
憑借著強大的單機計算性能、業界領先的多機擴展性、靈活的AI計算資源動態分配調整能力,X-MAN系列產品已在百度實現規模化部署,廣泛應用于語音識別、計算機視覺、自然語音處理、無人車等基礎AI技術的深度學習模型訓練,將訓練時間從周級別縮短到天級別;服務于百度DuerOS、Apollo、ABC Cloud等核心業務,助力百度AI戰略的快速落地。