6月12日,NVIDIA和慧與新華三在北京泰富酒店舉辦題為“引領AI發展,極速計算引擎”的人工智能平臺研討會。當今,人工智能(AI)進入到一個以大數據為基礎的新階段,在機器人和無人駕駛、計算機視覺、自然語言、虛擬助手、機器學習等領域得到廣泛應用,正在掀起新一波的數字革命浪潮。另一方面,由于人工智能需要對海量數據進行大規模、高速處理,對計算能力、網絡效率、大數據存儲能力都提出了新的要求。
NVIDIA全球OEM業務總監 Joyce Tai
深度學習與全新GPU架構解決方案
近幾年來的實踐顯示,深度學習是許多人工智能技術取得突破的關鍵,而GPU作為深度學習所需的主要計算資源,正在迅速獲得越來越多的關注。此次研討會上,NVIDIA展示了其為深度學習推出的全新的Volta架構GPU —— NVIDIA TeslaV100。NVIDIA Tesla V100提供了最高性能模式和高能耗模式,前者將持續運行在300W的最大TDP功耗下,性能也是最出色的;后者則運行在50%~60% TDP模式下能夠提供75%~85%的性能。
計算、網絡、存儲的高度配合與協同,才能讓機器學習以最短的時間內獲取最佳結果。新華三針對目前日益升溫的人工智能應用場景,推出了一系列與GPU相配合的服務器、網絡以及高性能計算的相關解決方案。
新華三集團工業標準服務器 GPU產品經理 姚宏
此次研討會上,新華三集團工業標準服務器GPU產品經理姚宏介紹,在深度學習與并行計算方面,可采用新華三的H3C UniServer R5200 G3,它是業界最高的擴展性服務器,支持NVIDIA Tesla GPU系列,可支持10塊雙寬或20塊單寬的GPU;HPE Apollo 6500 System 支持多達8個300WGPU或協處理器,并且CPU為8:1的拓撲結構中,網絡可直接連接至GPU的PCIe Gen3互聯,從而減少GPU節點之間的延遲。
在數據樣本的并行存儲方面,有H3C R4300。在機器學習的推理上,可選用H3C R4900 G3,它是第一款由新華三集團完全自主研發的服務器產品,是最主流的2路2U 24DIMM設計,基于Intel最新的Boradwell E5-2600v4系列處理器DDR4-2400的內存組合,是目前市面上最先進的雙路服務器計算平臺。R4900 G3遵循本地規劃、本地設計、本地生產、本地服務原則,在設計上考慮了中國市場的競爭狀況和中國用戶的需求;不僅如此,作為傳統X86服務器標配提供的軟件功能部分,嵌入式管理的HDM和批量管理維護工具FIST,也完全由新華三集團自主研發,擁有完整的知識產權。
新華三集團互聯網系統部網絡架構師 吳銀懷
高性能網絡環境
在人工智能場景中,計算節點、存儲節點之間存在大量的數據互通,因此端到端的網絡吞吐性能及網絡延時對計算的影響很大。伴隨著這些業務的開展,RDMA技術在人工智能領域的應用越來越廣泛。RoCE(RDMA over ConvergeEthernet)架構提供了在以太網中承載RDMA應用的解決方案,這個以太網必須是一個無損的(LOSSLESS)以太網。H3C參與各大互聯網客戶,尤其是BAT的人工智能業務測試,積累了豐富的經驗。H3C在交換設備出廠時會對交換設備Buffer閾值等參數進行預先設定,覆蓋大多數人工智能業務場景的需求。如果有更為個性化的參數設定要求(比如隊列headroom、Reset值等),H3C交換機設備提供用于個性化參數設定所需的命令行,并且命令行在不斷豐富和完善,H3C也會提供原廠的研發級支撐,配合客戶進行現場測試,對人工智能的網絡環境進行優化。新華三還提供了高速網絡的可視化管理解決方案,可實現轉發路徑可視、Buffer可視、通過對PFC Pause幀發送數量及發送速率、ECN相關報文統計,實現流控可視化,了解傳輸網絡節點的擁塞情況,從而更好的避免網絡擁塞達到無損。
新華三集團技術戰略部資深專家 徐心平
新華三AISO人工智能管理平臺
隨著人工智能在各個領域應用的逐漸滲透,高性能的科學計算也逐漸融合人工智能技術,因此科研單位需要在一套高性能基礎設施上支持多種類型的科研任務,這包括機器學習、深度學習,HPC應用等。此次研討會上,新華三集團技術戰略部資深專家徐心平表示, “一個成熟的專業的人工智能平臺,在保證計算性能的基礎上,可以充分利用容器技術,實現資源隔離和共享。客戶的訴求是多種科學計算任務需要統一審批、統一調度,由一套基礎設施承載多種科學計算任務,實現模型訓練任務提交、打包上線自動化,并有統一完善的任務監控和資源調度,以最大程度來發揮硬件平臺效率。為此,這個統一平臺需要解決各種高性能業務場景下,IT計算環境配置復雜,難以調優和共享的問題。”新華三的公共科學計算AI解決方案AIOS平臺產品,就是充分考慮到以上挑戰,以功能內聚、設計全面為原則, 針對專業開發者提供全自動化交互式開發環境, 通過對機器學習、深度學習知識的不斷探索,實現模型優化和性能優化的擴展功能, 提供了一個功能全面的深度學習系統,從而為客戶提供支持多租戶共享、靈活GPU資源調度的人工智能解決方案。
用戶實踐分享
此次研討會上,還有幸聽到來自互聯網用戶的實踐分享。搜狗語音交互技術中心資深研究員劉忠亮,分享了搜狗基于GPU平臺的實時語音識別技術。山東大學信息學院教授、北航人工智能特聘教授周斌,則介紹了通過NVIDIA Tesla V100與Tensor Core如何加速計算的寶貴經驗。