在一年一度的GPU Technologies大會上,Nvidia發(fā)布了據(jù)它稱是目前最大的16納米FinFET芯片,以及封裝了8個這種芯片的一款高端系統(tǒng)。Tesla P100芯片以及DGX-1服務器是最新的圖形處理引擎,瞄準深度學習算法。
在關于計算機游戲的主題演講中,Nvidia首席執(zhí)行官黃仁勛展示了未來一切都將采用新興的人工智能技術,從下一代云服務到汽車。
“深度學習不再只是研究,而是發(fā)生在各行各業(yè),”黃仁勛表示。他將新興的神經(jīng)網(wǎng)絡算法稱為“一種新的計算模式”,“計算領域?qū)⒁l(fā)生的最重要的事情之一”,“未來10年將會在每個行業(yè)和應用領域創(chuàng)造5000億美元的機會”。
例如,P100(也就是此前的Pascal)將用于一款汽車主板上,將有助于開發(fā)自動駕駛使用。在對該技術的一項測試中,Nvidia將把這種芯片接入20臺處于自動駕駛競賽模式的無人駕駛電動賽車中。
首席執(zhí)行官黃仁勛正在將Nvidia打造成為深度學習領域的一個新的“殺手級應用”。
“這場競賽從耗費大量預算的機制測試轉向?qū)ι窠?jīng)網(wǎng)絡的軟件競爭,”Nvidia汽車部門高級總監(jiān)Danny Shapiro表示。
Nvidia正在提供自動駕駛系統(tǒng)的原型,80家汽車制造商和學者正在使用PDX2板卡,該板卡連接多達12個高清攝像頭和其他傳感器,Shapiro表示。
在云計算方面,百度高級研究員Bryan Catanzaro表示,他的實驗室希望神經(jīng)運行的速度提高30倍,將數(shù)據(jù)分散到8個P100芯片組成的集群上,該集群則是借助P100新的互連技術實現(xiàn)的。
黃仁勛表示,Google正在開源自己的TensorFlow人工智能框架。“我們確實認為深度學習將成為一切的組成部分,不僅是是針對數(shù)據(jù)中心,還有嵌入式系統(tǒng)和手機等各種各樣的事物,”Google TensorFlow技術主管Rajat Monga這樣表示。
另外,黃仁勛表示,虛擬現(xiàn)實正在作為一種新的計算平臺崛起,Nvidia承諾將會給給領域的初創(chuàng)公司提供15億美元資金。他邀請?zhí)O果聯(lián)合創(chuàng)始人Steve Wozniak體驗Mars 2030——一個將在今年秋季發(fā)布的虛擬現(xiàn)實環(huán)境。
此外,Nvidia還公布了兩個VR版本的渲染系統(tǒng),針對光線追蹤。黃仁勛展示了其中專業(yè)VR系統(tǒng),顯示Nvidia正在建設中的新總部,另外一個是針對消費者的,采用安卓查看器。
Nvidia的Pascal將成為機器人競賽中無人駕駛電動汽車的司機。
Pascal圍繞著一個16納米的FinFET GPU,帶有HBM2內(nèi)存,采用TSMC的CoWoS制程。
Tesla P100(也就是Pascal)將16GBytes HBM2 DRAM置于一個720GByte/s CoWoS (Chip-On-Wafer-On-Substrate)上。該GPU封裝了3584個Nvidia Cuda核心,600mm2模片上有150億個晶體管。
“這是目前最大的16納米FinFET芯片,”Nvidia GPU工程高級副總裁Jonah Alben這樣表示。
Alben指出,該中介層要求光罩縫合,因為它要比光罩大。該芯片的未來版本可能會在TByte/s總線上支持32GByte,他暗示說。
Pascal瞄準像深度學習系統(tǒng)這樣的高性能計算任務。它會趕超來競爭對手AMD去年發(fā)布的Fiji芯片,更多地瞄準高端游戲領域。
每個芯片上的60個GPU塊,旨在最大利用每個塊中的56個核心。因此,核心周圍配置了更多資源,包括寄存器數(shù)量翻番,共享內(nèi)存比上一代多出了1/3。
這款芯片是Nvidia首次支持半精度,據(jù)稱這對于深度學習、傳感器數(shù)據(jù)和圖像處理等應用是很有用處的。
該處理器正在進行量產(chǎn),但是還沒有出貨,Nvidia表示它將出現(xiàn)在從今年6月開始出貨的DGX-1服務器中。
Nvidia Pascal顯微照片和關鍵指標
上面的Pascal橫斷面顯示了四高HBM堆棧,以及硅光罩,采用4000條線連接內(nèi)存和GPU。HBM2芯片支持ECC,這是設計者在早期GDDR內(nèi)存中必須采用的。
對于開發(fā)者來說,這就像是全局內(nèi)存一個更大、更快的塊。49字位的虛擬內(nèi)存空間可以支持數(shù)千個默認頁和2 Mbyte頁面大小。得到的統(tǒng)一內(nèi)存系統(tǒng)可以將整個物理內(nèi)存空間分配在一個系統(tǒng)中,可以跨CPU和GPU訪問塊,并且支持原子操作。
覆蓋一系列深度學習任務(如下)的結果顯示,兩個Pascal芯片的性能要超過4個上一代Kepler處理器。藍線的意思是結果低于英特爾Hashwell CPU。當4個和8個Pascal芯片做成集群的時候,系統(tǒng)很好地進行伸縮,很大程度上是因為采用了Pascal新的NVLink技術。
Nvidia混合采用NVLink(綠色)和PCIe(黑色)連接GPU和CPU
Pascal是首款采用Nvidia NVLink的芯片,這是一種芯片到芯片的互連技術,最多可包括4個40 Gbit/s的連接。它旨在將8個Nvidia GPU做成集群,或者GPU和CPU的混合,例如將支持NVLink的IBM Power8處理器。
NVLink是一種連貫的互連,所以程序員看到的有點類似于跨芯片的本地內(nèi)存。在物理層上,板卡設計者會看到承載NVLink、PCIe和電源信號的Pascal模塊連接(如下)。
Pascal芯片堆棧下的模塊連接器。
DGX-1是一款封裝了最多8個GPU的3U服務器。
借助DGX-1,Nvidia將自己的足跡擴大到GPU計算系統(tǒng)領域。它在一臺3U服務器內(nèi)封裝了8個Pascal芯片,交付170 TFlops性能,功耗是令人驚訝的3200瓦。該系統(tǒng)還包括一個7TB的固態(tài)盤,以及一個支持10Gb和100Gb Infiniband的網(wǎng)絡控制器。
Nvidia宣稱DGX-1可以將培訓Alexnet的時間縮短到2個小時,而以前這在一臺雙路英特爾至強服務器上需要花費150小時。
Nvidia將在6月開始出貨這款芯片和系統(tǒng)。OEM廠商包括Crap、戴爾、HPE和IBM,這些廠商將從明年年初開始出貨各自的系統(tǒng)。