12月15日,阿里云基于公共云平臺的高性能計算產品HPC正式對外商用,用戶可通過阿里云官網購買GPU服務器實例。這也是中國首個云上高性能計算平臺。
阿里云HPC每個計算集群配備2個GPU+2個CPU+128G內存+13T存儲數據,單機單精度浮點計算能力達到11T flops。同時配備128G內存,13T本地盤存儲數據,雙萬兆上聯網絡等。
測試用戶用手投票
近幾年,基于互聯網和人工智能技術的創業風起云涌,格靈深瞳、Face++、神馬語音等公司在圖像、語音、安全等領域進行著人工智能的創新,以圖形圖象和音視頻為代表的深度學習是典型的計算密集型應用,由此催生了互聯網行業對高性能計算的需求。
早在今年9月阿里云HPC對外公測期間,上百家用戶找到阿里云申請使用并排起長隊,每周新增排隊用戶比測完用戶還多,客戶類型涵蓋深度學習、科研、金融甚至國家超算用戶。
“我們會給用戶專屬100%物理機,CPU、GPU不會發生爭搶,保證無性能波動,沒有虛擬化開銷,也會有任何硬件功能的閹割。” 阿里云HPC產品負責人長仁強調。
據測算,假如有200萬張圖片需要學習,用一臺雙路E5-2650 v2的服務器訓練需要16天時間,而如果用阿里云雙GPU物理機僅需要1天。
NVIDIA全球副總裁、PSG兼云計算業務總經理Ashok Pandey表示:“在NVIDIA GPU 的支持下,阿里云提供的GPU計算云服務為深度學習領域的新興企業的創新提供了絕佳的平臺支持。”
Ashok Pandey強調,深度學習是NVIDIA重要的戰略方向,未來英偉達將發揮自身在深度學習技術平臺的優勢和在全球深度學習領域積累的應用經驗,與阿里云一起為深度學習的新興企業提供更加強大的支持。
開放全世界唯一kepler架構GPU原生匯編器
高性能計算不僅需要硬件設施,更需要匹配“軟實力”,才能最大限度發揮硬件性能。
長仁介紹,阿里云不僅提供硬件和基本系統,更為HPC準備了Docker實例、調度系統、監控平臺,以及針對深度學習的訓練、預測中間件和工具。
尤其值得一提的是,阿里云HPC主頁(hpc.aliyun.com)開放了全世界唯一的kepler架構GPU原生匯編器及cuda占用計算器,這是阿里內部性能調優的“獨門秘技”。阿里用這款匯編器優化出了目前在kepler架構GPU上最快的卷積、矩陣乘法實現。
專注于計算機視覺識別的明星創業公司格靈深瞳HPC負責人張洋表示:“阿里云HPC產品性能強勁,配置簡單,作為線上預測服務平臺是很棒的選擇。期待阿里云自己的深度學習軟件框架上線。”
據介紹,在HPC正式對外商用之前,阿里內部早已經部署了大規模的GPU異構計算集群,在高性能計算領域實踐多年,從設備選型、準入測試、運維監控,到系統架構、性能優化等,整個鏈條都有深入積累。
比如同樣是利用GPU,但不同的公司會在具體技術選擇上產生差異,小到如何插卡保證硬件性能的發揮都大有學問。
長仁認為,脫胎于阿里“母體”的HPC不僅是一款產品,更是一種服務能力,這是阿里云的核心競爭力。