2017年全球新成立人工智能創業公司1100家,人工智能領域共獲得投資152億美元,同比增長141%。中國經濟和社會轉型升級中,智能化需求正逐步顯現,人工智能將對傳統行業和細分市場產生深遠影響,如汽車行業,中國是全球最大的汽車市場,2016年國內售出了2803萬輛汽車,同時中國也是全球最大的家電生產國和無人機生產國,人工智能將成為智能科技和經濟發展的內生動力。
互聯網模式取得的巨大成功,積累的大量數據成為人工智能數據分析的主要基石。同時在算法上,如神經網絡、深度學習在學習成效上得到了巨大突破,中小規模的問題已經能應用于實際。然而在大規模的實際應用中,由于數據體量的龐大,數據增長快速、結構的多樣、價值密度低等因素,對數據獲取的實時性、存儲、傳輸、處理、計算方面提出了全新挑戰。以往的單個計算單元的串行運算已不能滿足大數據背景下的需求,并行運算及云的計算方式成為解決單個運算單元在短時間內無法得到運算結果,以及提高運算單元利用率、提升學習效率問題的一劑良方。
算力,實現人工智能的核心能力
GPU成為人工智能領域解決算力的主要手段。GPU的特點是擁有多達幾千個核和大量的高速內存,特別適合于大規模并行運算,GPU在“深度學習”領域發揮著巨大的作用。因為GPU可并行處理大量瑣碎信息,深度學習所依賴的神經網絡算法正是模擬人類神經元細胞的工作模式,利用大量處理單元構成的計算網絡分析海量的數據。
NVIDIA全球OEM業務總監Joyce Tai
在圖像識別、視頻分析、語音識別以及自然語言處理GPU比單純利用CPU更具有優勢。正如NVIDIA全球OEM業務總監Joyce Tai所言,“用傳統的CPU需要160個CPU,而且耗電量非常大。但今天用GPU這樣的并行運算,用8塊GPU卡就可以達到同樣的效能,而且速度更快,所耗的電量也會少很多。”
同時“摩爾定律”放緩的跡象讓算力的接力棒轉交給了GPU。Joyce Tai表示,過去的二十年按摩爾定律的發展,每18個月晶體管的數量可以實現翻番增長,性能也是倍數增長。但過去的五年,開始出現發展停滯的現象。CPU一直想辦法增加集成的電晶管數量,但性能并沒有辦法等比例增長。同時以線性的運算方式,也讓它的耗電量變得很高。NVIDIA十年前開始研發并行運算,從2013年看,如果用摩爾定律的眼光來評價,GPU有非常大的進步,已不止是每18個月實現性能翻倍,而是以每年好幾倍的速度在性能提升。
同時,NVIDIA也十分重視和生態伙伴的合作。在底層硬件與新華三、慧與有非常多的合作。比如HPE Apollo6500平臺成為市場上主流的AI解決方案,HPE Proliant DL380成為目前全球最暢銷的人工智能計算服務器。
優化GPU集群打造最優化AI基礎設施
并行計算的高效使GPU被廣泛用于機器學習的模型訓練,在功率能耗上更低、占用基礎設施更少的情況下能夠支持遠比從前更大的數據量和吞吐量。GPU的集群成為AI的基礎設施最核心的要素。
新華三集團工業標準服務器 GPU產品經理姚宏
是否是高效、性能優化的人工智能系統,新華三有明確的評判標準。新華三集團工業標準服務器 GPU產品經理姚宏一語道破:“評價一套GPU集群系統的效率是優化水平關鍵看GPU的利用率是否能達到很高的值。”
"有時用戶配備了很高端的GPU服務器和計算卡,但把全部的負荷加載進去GPU利用率只有30%,這就說明整個集群的優化出現了問題。只有滿負載的GPU利用率才是高效的GPU集群系統。這個方面,我們新華三集團可以幫助用戶建立高效的GPU系統。"
一套GPU集群一般會包括GPU服務器、集中存儲、集群網絡、系統軟件四個部分組成。GPU服務器又分為學習和訓練的GPU服務器和線上的推理服務器。新華三公司針對AI應用的需求特點,提供了完整的產品方案系列,幫助用戶快速構建高效易用的人工智能系統。其中學習和訓練服務器,新華三提供了,H3C UniServer R5200 G3、HPEApollo6500兩款產品;用于線上的推理服務器是H3C UniServer R4900 G3。
R5200G3 服務器為了充分發揮CPU/GPU協同計算能力,專門設計了優化的CPU和GPU通訊鏈路,讓CPU和GPU具有高帶寬、低延遲卓越的通訊效率;擴展性上,最大可以擴展10個雙寬的GPU,或擴展20個單寬的GPU,為用戶帶來強勁的單機計算能力。R5200G3支持10塊熱插拔硬盤,以及高冗余的風扇和電源,確保產品高可用的持續運行。Apollo6500服務器支持Nvlink2.0高速互聯,對海量數據具有超強的處理能力。
在存儲方面,新華三憑借高性能計算領域豐富經驗為人工智能用戶推薦了并行存儲方案,基于并行文件系統將多套存儲陣列聚合為一個資源池,為用戶帶來海量存儲空間和隨容量線性增長的優異的讀寫性能。
為了適應多機并行訓練的技術發展趨勢,新華三公司率先采用業界領先的100Gb網絡作為人工智能的核心網絡,結合新華三集群管理軟件工具以及性能出色的GPU服務器和并行存儲,新華三為給用戶提供一套非常高效率運行的基礎架構的AI平臺。
性能突破構建無損的以太網
機器學習中,大量的數據要在服務器集群里流動,網絡開銷成為計算效率損耗的重要源頭。節點間需要一個高速的網絡,因此RDMA技術在人工智能領域的應用越來越廣泛。RoCE(RDMA over ConvergeEthernet)架構提供了在以太網中承載RDMA應用的解決方案,這個以太網必須是一個無損的(LOSSLESS)以太網。新華三參與各大互聯網客戶尤其是BAT的人工智能的業務測試過程中積累了豐富的經驗。
新華三集團互聯網系統部網路架構師吳銀懷
新華三集團互聯網系統部網路架構師吳銀懷表示,“新華三在交換設備出廠時會對交換設備Buffer閾值等參數進行預先設定,覆蓋大多數人工智能業務場景的需求。如果有更為個性化的參數設定要求(比如隊列headroom、Reset值等)。新華三交換機設備提供用于個性化參數設定所需的命令行,并且命令行在不斷豐富和完善,也提供原廠的研發級支撐,配合客戶進行現場測試,對人工智能的網絡環境進行優化。“
此外,新華三還提供了高速網絡的可視化管理解決方案,可實現轉發路徑可視、Buffer可視、通過對PFCPause幀發送數量及發送速率、ECN相關報文統計,實現流控可視化,了解傳輸網絡節點的擁塞情況,從而更好的避免網絡擁塞達到無損。
資源池化加速AI開發進程
讓專業的人干專業的事,在人工智能這種科技密集型產業更是如此。讓算法工程師專注于建模、數據分析而把環境部署、參數配置交給平臺去做。
新華三集團技術戰略部資深專家徐心平
新華三提出公共科學計算平臺的解決方案。新華三集團技術戰略部資深專家徐心平介紹,公共科學計算平臺將服務器存儲網絡,高性能的計算節點、GPU服務器建成一個資源池,為算法工程師提供非常自動化的專業平臺。
“首先他是個資源池,最底層是基礎設施、服務器、CPU、包括各種類型,刀片,高密的,兩路,四路的、高性能的存儲、網絡;其次,可以做到資源共享和隔離,,支持多種計算框架,提供從數據到最后推理的數字化流程。成為AI模型的生產線,從數據采集,格式化,通過算法庫建模、優化、搜索,做模型評估發布,整個過程要通過平臺實現自動化。最后,能針對專業的AI和開發者做定制化開發。針對業界比較流行的專業計算框架、依賴,包括流行的模型以可視化的方式運行,訓練做模型優化。”