5月18日,金山云正式推出基于NVIDIA Tesla P40平臺的GPU云服務器,目前已在金山云官網上線。據悉,金山云還即將推出基于P40平臺的系列產品——GPU物理服務器,兩款服務器將分別針對深度學習的兩個步驟——線下訓練和線上推理,提供細分支持。
GPU云服務器和物理服務器定位高端,擁有強大的運算能力,在實際應用中,相比于目前市面上友商普遍采用的前一代M40平臺,Tesla P40可實現1.4倍到1.7倍的加速比,在推理應用中,相比于CPU,可降低30倍以上的延遲,相比于M40推理吞吐提升4倍以上。同時,P40系列GPU服務器也伴隨金山云IAAS服務,在計算、網絡、存儲、專屬云四個方面實現全面提升,具有強勁的競爭力,可幫助客戶打造頂級深度學習平臺,笑傲新興的人工智能(AI)江湖。
定位高端,專治客戶痛點
如今,人工智能被看作是繼蒸汽機、電力、計算機之后的第四次工業革命。有預測認為,到2018年,廣義的中國人工智能市場規模將達上千億元人民幣。目前包括谷歌、微軟、亞馬遜、Facebook、BAT、小米在內的國內外知名科技企業,均已將人工智能作為核心戰略。人工智能創業公司如雨后春筍一般出現。對于人工智能領域的公司來說,其對于GPU資源的需求是巨大的,但面臨著種種應用上的困境。
具體來說,不光是人工智能領域的創業公司,很多互聯網公司和傳統軟件公司也遇到了這樣的難題:互聯網公司的人工智能業務需要輕資產和大規模計算能力;傳統軟件公司希望借助人工智能提升軟件競爭能力,但對GPU服務器這種IAAS資源了解不多,更不會維護;創業公司搶占人工智能風口,需要最新的技術和硬件支持,但不想使用過多的資金購買GPU硬件,又缺乏系統運維資源。
針對這些需求和痛點,金山云提供了解決之道:即GPU服務器加上頂級人工智能 IAAS平臺。此次推出的P40系列GPU服務器,分為物理服務器和云服務器兩種,分別對應的是人工智能的核心驅動力,即深度學習的兩個步驟——線下訓練和線上推理,為其提供細分支持。
金山云GPU物理服務器專門針對線下訓練而生,其配備8顆NVIDIA Tesla P40,192GB顯存和256GB內存,總計提供30720個并行計算核心和最高96TFlops的單精度浮點計算能力。Tesla P40在訓練AlexnetOWT、GoogLenet、VGG-D、Incep v3、RetNet-50等流行網絡時,相比于目前市面上友商普遍采用的前一代的M40,可實現1.4倍到1.7倍的加速比。
GPU云服務器則針對線上推理而生,其可提供1/2/4顆NVIDIA Tesla P40,滿足客戶在深度學習上的推理、基于GPU的大數據分析、圖形渲染等服務器端GPU計算工作負載。尤其是在推理應用中,相比于CPU,可降低30倍以上的延遲,相比于M40推理吞吐提升4倍以上。
四重特性為客戶打造頂級AI IAAS平臺
P40系列GPU服務器在計算、網絡、存儲、專屬云四個方面,具有強勁的競爭力,為客戶打造頂級的AI IAAS平臺。
在計算方面,P40系列有著P3E PRO GPU加速實例,單機8顆NVIDIA Tesla P40 GPU能夠達到96Tera FLOPS的單精度浮點計算能力,再加上兩顆2690V4至強處理器,總計可以達到97.16TeralFLOPS的單精度浮點計算能力;P3E PRO GPU加速實例,單機提供192GB的顯存和346GB/s的顯存帶寬,可充分發揮P40在訓練場景下的計算能力。
在網絡配置方面,首先,P40系列GPU服務器有著靈活的VPC網絡,P3E PRO GPU加速實例,可以和其他金山云云主機實例一樣靈活使用金山云VPC網絡,客戶可以通過VPC提供的VPN、DC或者Peering通道,與自己的其他IAAS資源對接,無論這些資源是在金山云的其它地區,還是客戶自己的IDC機房或辦公室。
第二,面對多機多卡的需求,P40系列GPU服務器支持100Gb RDMA網絡,網絡基于RoCE協議,支持P3E/P3E PRO GPU服務器點到點的100Gb連接。
第三,對于大規模計算加速任務,最大支持256個GPU服務器組成的100Gb無損無收斂集群,總計可以支持2048片GPU卡協同工作,為客戶打造頂級超算平臺。
在存儲方面,首先,P40系列GPU服務器配備本地SSD固態硬盤,單機8片SSD總計提供1400MB/s寫入帶寬,同時提供1-3ms的低延遲IO,適合大量文件的隨機讀寫。
第二,P40系列GPU服務器可以使用金山云集群文件系統,可以和其它金山云云服務器實例一樣,通過業務網絡接入KS3存儲資源,同時還提供KS3的文件系統接口和容器倉庫接口,可以提供2000MB/s的讀寫帶寬。
在專屬云方面,金山云提供專屬云服務,在專屬云中自定義創建任意配置的GPU云服務器和普通云服務器來應對業務挑戰。專屬云為客戶提供如下特性:
第一,專屬的IAAS資源。這些資源在使用期間,歸客戶專屬,不會調度其他客戶的云服務器上來。
第二,自定義虛擬化比例。不再受到線上套餐及虛擬比例限制,客戶可以根據業務情況,自定義虛擬比例以高效利用資源。
第三,動態增減集群節點。客戶可以根據業務情況增加或者減少專屬集群的節點數量。
第四,時間維度的靈活性。可以在任意時間創建/銷毀VM實例。
人工智能大潮已經來臨,在國內,各行各業都在爭相布局,以占得先機。在云計算和深度學習方面有龐大需求的客戶,努力抓住人工智能時代的新機遇,獲得更加快速、高效建設人工智能業務的能力,以實現業務和產品上的創新,基于此,Tesla P40系列GPU服務器將成為客戶的理想選擇。