今年早些時候,英特爾展示了其在神經網絡處理器(NPU)研發上的最新進展。新設計的芯片,其在機器學習和人工智能性能上遠超通用型處理器,且會努力推向市場。英特爾人工智能產品事業部副總裁 Carey Kloss 對 Nervana 架構的改進進行了解釋,首先是理解一個神經網絡(NNP)必須做些什么。使用神經網絡訓練一臺機器,需要大量的內存和算數運算,才能產生有效的輸出。
擴展性、能耗、最大負荷,也是 Nervana 空間架構的主要考慮因素。為了最大限度地節省能源,除非絕對必要,否則數據不應在系統內移動;矢量數據可以在內存模塊之間進行分割,讓數據總是接近最需要它的地方。
隨著高帶寬內存(HBM)的部署,片上和外埠內存之間的帶寬可以超過 1TB/s 。盡管這是一個令人印象深刻的數字,內存帶寬仍然是深度學習工作負載的一個限制因素。
鑒于英特爾無法等到新式內存技術的到來,于是只能在其它方面運用一些創造性的開發方法。比如使用軟件控制內存,允許在內存從一次加載來自外存的信息,然后在本地內存模塊之間轉移數據。
每個模塊大約有 2MB 空間,每個 Nervana 芯片合計約 30MB 。減少讀取外部內存的操作,有助于防止內存帶寬飽和、且允許對下一操作所需數據集進行預取。
Flexpoint 數據類型的一項更新,可在僅 16-bit 的存儲上,實現近似于 32-bit 浮點操作的性能。位寬開銷減半之后,有效內存帶寬可輕松翻倍。當然 Flexpoint 也是模塊化的,因此未來的 Nervana 能夠進一步減少操作所需的 bit 數。
最后,芯片和外部組件之間的通信,也得到了雙向(Tbit 級)的極大改善。在高速通信的保障下,一簇 Nervana 芯片可被當做一個整體,用于單項任務工作。
[編譯自:TechSpot]