国产香蕉视频在线播放,视频二区三区国产情侣在线,午夜网站免费版在线观看

英特爾Nervana深度學習芯片能走多遠？

責任編輯：editor006

2018-01-15 16:10:54

摘自：it168網(wǎng)站

被英特爾收購兩年后，Nervana的深度學習芯片，代號“Lake Crest” 漸漸從概念階段轉化為實際產(chǎn)品。最新的是人們期待已久的關于神經(jīng)芯片如何處理低精度訓練的細節(jié)，以及這種內(nèi)存和互連策略是什么樣子的。

被英特爾收購兩年后，Nervana的深度學習芯片，代號“Lake Crest” 漸漸從概念階段轉化為實際產(chǎn)品。

在深度學習市場潛力如此巨大的情況下，英特爾很樂意通過堅實的技術和合理的價格將Nervana推向市場，積極為其規(guī)劃路線圖——并將其與其他產(chǎn)品相結合，這將是一項巨大的工程。

如今，我們對這個體系架構與GPU的區(qū)別有了一些了解——以及它可能會在哪些方面獲得性能優(yōu)勢，更確切地說，能效優(yōu)勢。

英特爾Nervana對深度學習芯片架構的研究

英特爾Nervana芯片與第一代Nervana芯片非常類似，但由于英特爾提供了更多的專業(yè)知識和技術，使該深度學習芯片的產(chǎn)品計劃每年都能按時進行，正如Nervana四年前第一批員工，現(xiàn)在的英特爾AI硬件主管Carey Kloss所說：

“我們加入英特爾時沒有做多少改變，但是我們確實獲得了大量的一般初創(chuàng)企業(yè)沒有的技術資源，如封裝、電路板設計、功率輸出和實驗室技術等——很多還是一樣的，但它的技術更先進。” Kloss還表示，與他供職過的其他半導體公司相比，英特爾實驗室的培養(yǎng)速度遠遠快于他所見過的任何機構，這使人們更加確信，英特爾公司新產(chǎn)品的年度銷售業(yè)績能夠保持在穩(wěn)健的業(yè)績曲線上。

現(xiàn)在，英特爾越來越接近于實現(xiàn)“Lake Crest”或稱其為英特爾神經(jīng)網(wǎng)絡處理器(NNP)的商業(yè)化供應，更多關于該硬件架構的細節(jié)也正逐漸被分享出來。以下是關于NNP的一些細節(jié)，以便我們對如何改變內(nèi)存帶寬瓶頸以實現(xiàn)高效的性能有更豐富的認識。

NNP目前還沒有進行基準測試，不過Kloss表示，他們預計未來幾個月將有重大的性能進展。

英特爾Nervana對深度學習芯片架構的研究

為了回顧和強調(diào)架構是如何基本保持不變的，讓我們回到2016年它未被英特爾收購之前。當時Nervana的CEO Naveen Rao表示NNP將成為NVIDIA新發(fā)布的NVlink的有力競爭者。Nervana 芯片的亮眼之處是互連，Rao 將這項互連技術描述為一種模塊化架構，其芯片結構可以在編程上擴展成與其它芯片的高速串行鏈接，這讓芯片之間的通信和單個芯片上各單元之間的通信看起來一樣。Rao說，在每秒凈運算次數(shù)上，第一個Nervana芯片將會超過Pascal的5-6倍。

這些都沒有變化，除了FP16的增長和低精度的訓練——這已成為一個更熱門的話題。今年晚些時候，Nervana會有一個引人注目的產(chǎn)品，以供更多的用戶使用——但它在性能、效率和可用性方面的優(yōu)勢還有待觀察。

最新的是人們期待已久的關于神經(jīng)芯片如何處理低精度訓練的細節(jié)，以及這種內(nèi)存和互連策略是什么樣子的。從本質上講，使用16位整數(shù)的乘數(shù)和adder樹，與更標準的FP16方法相比，NNP可以同時節(jié)省功率和面積。這是一個有趣的參數(shù)折衷，因為FP16擁有更小的乘數(shù)，但使用adder樹和所有轉移所需的，就消除了FP16的假定優(yōu)勢。

英特爾Nervana對深度學習芯片架構的研究

在單個芯片上的神經(jīng)網(wǎng)絡計算在很大程度上受到功率和內(nèi)存帶寬的限制。為了提高神經(jīng)網(wǎng)絡工作負載的吞吐量，除了以上的內(nèi)存創(chuàng)新之外，我們還發(fā)明了一種新的數(shù)字格式Flexpoint。Flexpoint允許將標量計算作為定點乘法和添加來實現(xiàn)，同時允許使用共享指數(shù)實現(xiàn)大動態(tài)范圍。由于每一個電路都是小的，這導致了一個管芯內(nèi)并行性的大幅增加，同時降低了每次計算的功率。

神經(jīng)網(wǎng)絡性能的另一方面在于內(nèi)存和網(wǎng)絡如何提高帶寬。Nervana的目標是最大限度地增加矩陣乘法和卷積的面積，而不是將那些區(qū)域浪費在其他東西上。有了足夠大的神經(jīng)網(wǎng)絡，可以將外部網(wǎng)絡擴展到多個芯片，在這些芯片之間有足夠的帶寬，使得所有的芯片都可以作為一個巨大的計算節(jié)點運行。

矩陣乘法和卷積是深度學習的核心要素。這些計算不同于一般用途的工作負載，因為操作和數(shù)據(jù)移動在很大程度上是預先知道的。出于這個原因，英特爾Nervana NNP沒有標準的緩存層次結構，而芯片內(nèi)存則由軟件直接管理。更好的內(nèi)存管理使芯片能夠在每個芯片上實現(xiàn)高水平的計算。這就意味著為深度學習模型帶來更快的訓練時間。

英特爾在深度學習方面的目標是為所有規(guī)模的應用提供一個產(chǎn)品。除了這篇文章中提到的Nervana芯片之外，還包括FPGA，以及大規(guī)模機器學習推理的Movidius神經(jīng)計算棒等。時間會告訴我們，在最初的“火熱”過后，英特爾能在多大程度上實現(xiàn)這一目標。

Nervana Movidius