被英特爾收購兩年后,Nervana的深度學習芯片,代號“Lake Crest” 漸漸從概念階段轉化為實際產(chǎn)品。
在深度學習市場潛力如此巨大的情況下,英特爾很樂意通過堅實的技術和合理的價格將Nervana推向市場,積極為其規(guī)劃路線圖——并將其與其他產(chǎn)品相結合,這將是一項巨大的工程。
如今,我們對這個體系架構與GPU的區(qū)別有了一些了解——以及它可能會在哪些方面獲得性能優(yōu)勢,更確切地說,能效優(yōu)勢。
英特爾Nervana芯片與第一代Nervana芯片非常類似,但由于英特爾提供了更多的專業(yè)知識和技術,使該深度學習芯片的產(chǎn)品計劃每年都能按時進行,正如Nervana四年前第一批員工,現(xiàn)在的英特爾AI硬件主管Carey Kloss所說:
“我們加入英特爾時沒有做多少改變,但是我們確實獲得了大量的一般初創(chuàng)企業(yè)沒有的技術資源,如封裝、電路板設計、功率輸出和實驗室技術等——很多還是一樣的,但它的技術更先進。” Kloss還表示,與他供職過的其他半導體公司相比,英特爾實驗室的培養(yǎng)速度遠遠快于他所見過的任何機構,這使人們更加確信,英特爾公司新產(chǎn)品的年度銷售業(yè)績能夠保持在穩(wěn)健的業(yè)績曲線上。
現(xiàn)在,英特爾越來越接近于實現(xiàn)“Lake Crest”或稱其為英特爾神經(jīng)網(wǎng)絡處理器(NNP)的商業(yè)化供應,更多關于該硬件架構的細節(jié)也正逐漸被分享出來。以下是關于NNP的一些細節(jié),以便我們對如何改變內(nèi)存帶寬瓶頸以實現(xiàn)高效的性能有更豐富的認識。
NNP目前還沒有進行基準測試,不過Kloss表示,他們預計未來幾個月將有重大的性能進展。
為了回顧和強調(diào)架構是如何基本保持不變的,讓我們回到2016年它未被英特爾收購之前。當時Nervana的CEO Naveen Rao表示NNP將成為NVIDIA新發(fā)布的NVlink的有力競爭者。Nervana 芯片的亮眼之處是互連,Rao 將這項互連技術描述為一種模塊化架構,其芯片結構可以在編程上擴展成與其它芯片的高速串行鏈接,這讓芯片之間的通信和單個芯片上各單元之間的通信看起來一樣。Rao說,在每秒凈運算次數(shù)上,第一個Nervana芯片將會超過Pascal的5-6倍。
這些都沒有變化,除了FP16的增長和低精度的訓練——這已成為一個更熱門的話題。今年晚些時候,Nervana會有一個引人注目的產(chǎn)品,以供更多的用戶使用——但它在性能、效率和可用性方面的優(yōu)勢還有待觀察。
最新的是人們期待已久的關于神經(jīng)芯片如何處理低精度訓練的細節(jié),以及這種內(nèi)存和互連策略是什么樣子的。從本質上講,使用16位整數(shù)的乘數(shù)和adder樹,與更標準的FP16方法相比,NNP可以同時節(jié)省功率和面積。這是一個有趣的參數(shù)折衷,因為FP16擁有更小的乘數(shù),但使用adder樹和所有轉移所需的,就消除了FP16的假定優(yōu)勢。
在單個芯片上的神經(jīng)網(wǎng)絡計算在很大程度上受到功率和內(nèi)存帶寬的限制。為了提高神經(jīng)網(wǎng)絡工作負載的吞吐量,除了以上的內(nèi)存創(chuàng)新之外,我們還發(fā)明了一種新的數(shù)字格式Flexpoint。Flexpoint允許將標量計算作為定點乘法和添加來實現(xiàn),同時允許使用共享指數(shù)實現(xiàn)大動態(tài)范圍。由于每一個電路都是小的,這導致了一個管芯內(nèi)并行性的大幅增加,同時降低了每次計算的功率。
神經(jīng)網(wǎng)絡性能的另一方面在于內(nèi)存和網(wǎng)絡如何提高帶寬。Nervana的目標是最大限度地增加矩陣乘法和卷積的面積,而不是將那些區(qū)域浪費在其他東西上。有了足夠大的神經(jīng)網(wǎng)絡,可以將外部網(wǎng)絡擴展到多個芯片,在這些芯片之間有足夠的帶寬,使得所有的芯片都可以作為一個巨大的計算節(jié)點運行。
矩陣乘法和卷積是深度學習的核心要素。這些計算不同于一般用途的工作負載,因為操作和數(shù)據(jù)移動在很大程度上是預先知道的。出于這個原因,英特爾Nervana NNP沒有標準的緩存層次結構,而芯片內(nèi)存則由軟件直接管理。更好的內(nèi)存管理使芯片能夠在每個芯片上實現(xiàn)高水平的計算。這就意味著為深度學習模型帶來更快的訓練時間。
英特爾在深度學習方面的目標是為所有規(guī)模的應用提供一個產(chǎn)品。除了這篇文章中提到的Nervana芯片之外,還包括FPGA,以及大規(guī)模機器學習推理的Movidius神經(jīng)計算棒等。時間會告訴我們,在最初的“火熱”過后,英特爾能在多大程度上實現(xiàn)這一目標。