PCIe接入形式的英偉達P100
英偉達公司已經推出了其Tesla P100加速芯片,采用PCIe卡形式且可接入標準服務器節點以支持人工智能與超級計算機級別的工作負載處理工作。
P100公布于今年4月在加利福尼亞州召開的英偉達GPU技術大會上:這款16納米FinFET圖形處理器在一塊600平方毫米晶片上容納有150億個晶體管。其設計目標在于每秒實現萬億級別計算,適用軟件包括神經網絡訓練以及天氣與粒子模擬。這款GPU采用英偉達的Pascal架構,能夠實現CPU與GPU之間的頁面遷移。
每塊P100包含4個每秒40 GB英偉達NVLink端口,分部接入GPU集群。NVLink為英偉達公司設計的高速互連機制。IBM公司的Power8+與Power9處理器皆支持NVLink,允許主機的Power CPU核心直接與各GPU相對接。
這些來自藍色巨人的芯片主要服務于美國政府所擁有的各超級計算機及其它高負載設備。不過在民用領域,我們普遍使用x86處理器支撐后端工作負載。
時至今日,數據中心內的絕大部分計算處理器由英特爾公司提供;然而英特爾方面并不支持英偉達的NVLink,而且似乎也沒有在這方面做出努力的計劃。因此,英偉達方面拿出了自己的解決辦法,即PCIe版本的Tesla P100卡,幫助服務器構建人員將加速處理器同其x86設備相結合。這意味著GPU能夠通過NVLink實現彼此間的高速通信,同時經由PCIe總線接入主機CPU。
目前PCIe P100分為兩種型號:其一HBM2堆棧內存為16 GB且內存傳輸帶寬為每秒720 GB;其二成本更為低廉,HBM2內存為12 GB且內存傳輸帶寬為每秒540 GB。二者皆采用PCIe gen-3 x 16通道以實現每秒32 GB傳輸能力。
二者在處理64位雙精度運算與32位單精度運算時的持續性能水平分別為4.7萬億次與9.3萬億次;16位半精度運算則為18.7萬億次。這一水平略低于原始P100在雙、單與半精度運算中的5.3萬億次、10.6萬億次與21萬億次。原因在于,PCIe卡的性能由于發熱量的考慮而必須有所犧牲——畢竟我們不希望塞滿了GPU加速節點的機架由于全力運轉而被融化。
另外,NVLink P100的額定功率為300瓦,而其16 GB PCIe表親的功率水平為250瓦,12 GB版本的功耗則更低。
順帶一提,如果大家希望在非NVLink服務器上使用全速、全功率Tesla P100,其實也是能夠實現的:系統制造商能夠在主機上添加PCIe gen-3接口,從而實現額外的性能提升。不過如果大家只希望使用PCIe,那么目前的低功耗、低性能PCIe選項已經非常理想。
“PCIe P100將成為主力系統——即大規模計算設備,”英偉達公司高級產品經理Roy Kim在接受采訪時表示。他同時建議稱,每個服務器節點可以接入4到8塊該PCIe卡。
這些PCIe設備預計將在2016年第四季度正式推出,且面向克雷、戴爾、惠普、IBM以及其它英偉達合作伙伴發布。其最終定價將取決于經銷商,但根據我們得到的消息,其價格會與目前的英偉達K80基本持平——后者的售價約為4000美元。
而在價值層面,英偉達方面告訴我們,P100 PCIe卡將在今年晚些時候作為歐洲各頂級超級計算機的構建組件,其中包括位于瑞士盧加諾國家超級計算中心的Piz Daint。