人工智能的快速發展正在催生一種新型的機器學習和深度學習的硬件加速器。
一些人把這稱為“寒武紀大爆發”,這是對當前狂熱創新時期的一個恰當比喻。它指的是大約5億年前的一段時期,基本上所有多細胞動物的生物“身體結構”都是在那時首次出現的。從那時起,這些生物——包括我們自己在內——開始分散開來,占領、開發并徹底改變地球上的每一個生態位。
創新的人工智能硬件加速器架構的范圍正不斷擴大。雖然您可能認為圖形處理單元(GPU)是主要的人工智能硬件架構,但這遠非事實。在過去幾年中,無論是初創企業還是老牌芯片供應商都推出了令人印象深刻的新一代硬件架構,這些架構針對機器學習、深度學習、自然語言處理和其他人工智能工作負載進行了優化。
除了新一代的GPU之外,這些新的AI優化芯片組體系結構中最主要的是神經網絡處理單元( NNPUs )、現場可編程門陣列( FPGAs )、專用集成電路( ASIC )和各種被稱為神經突觸結構的相關方法。正如Ars Technica上的一篇文章所指出的,今天的人工智能市場沒有相當于英特爾x86 CPU的硬件單一文化,而x86 CPU曾經主宰著桌面計算領域。這是因為,這些新的人工智能加速器芯片架構正在適應迅速發展的云到邊緣生態系統(如計算機視覺)中高度特定的角色。
AI加速器芯片的發展
要了解AI加速器芯片的快速發展,最好將重點放在市場機遇和挑戰上,如下所示。
AI層
要了解人工智能加速器是如何發展的,先看看邊緣生態系統,在那里新的硬件平臺正在被優化,以實現移動、嵌入式和物聯網設備的更大自主性。除了智能手機嵌入式人工智能處理器的激增之外,這方面最值得注意的是人工智能機器人技術的創新,它正在滲透到從無人駕駛汽車到無人駕駛飛機、智能電器和工業物聯網的所有領域。
在這方面最值得注意的進展之一,是英偉達(Nvidia)對其Jetson Xavier AI系列芯片(SOCs)上的人工智能系統的最新增強。NVIDIA發布了Isaac軟件開發工具包,以幫助構建在其專用機器人硬件上運行的機器人算法。
Jetson Xavier芯片反映了智能機器人的復雜性,由六個處理單元組成,包括512核的Nvidia Volta Tensor Core GPU、八核的Carmel Arm64 CPU、雙Nvidia深度學習加速器以及圖像、視覺和視頻處理器。這些讓它可以處理數十種算法,幫助機器人自主感知環境,有效響應,并與人類工程師一起安全的操作。
人工智能任務
AI加速器已經開始滲透到分布式云到邊緣、高性能計算、超聚合服務器和云存儲體系結構中的每一層。所有這些領域都有源源不斷的新硬件創新,以支持更快速、更高效和準確的人工智能處理。
人工智能硬件創新正在進入市場,以加速這些不同應用環境的特定數據驅動的任務。市場上無數的人工智能芯片組架構反映了機器學習、深度學習、自然語言處理和其他人工智能工作負載的不同范圍,從存儲密集型到計算密集型,涉及到不同程度的設備自主性和人與人之間的互動。
為了解決AI芯片組用于支持的各種工作負載,供應商在其產品組合中甚至在特定的嵌入式AI部署中混合了各種技術,例如驅動智能機器人和移動應用的SOC。
Intel的Xeon Phi CPU架構已經被用于加速人工智能任務。但是英特爾認識到,如果沒有專門的AI加速器芯片,它將無法跟上時代的步伐,因為這些芯片讓它能夠與Nvidia Volta (在GPU中)以及大量生產NNPUs和其他專門AI芯片的廠商正面競爭。因此,英特爾現在有一個產品團隊正在開發一個新的GPU,將在未來兩年內發布。
與此同時,它繼續通過AI優化的芯片組對下面幾種架構類別進行風險對沖:神經網絡處理器(Nervana),FPGA(Altera),計算機視覺ASIC(Movidius)和自動駕駛汽車ASIC(MobilEye)。它還計劃為下一代人工智能的挑戰構建自學習神經形態和量子計算的芯片。
AI容差
每一個加速硬件創新都必須擁有滿足在相關的操作和經濟公差中實現特定指標的能力。
在操作指標中,每個AI芯片組必須符合形狀因素、能效、熱和電磁輻射以及在堅固性方面的相關約束。
在經濟度量中,它必須在性能和成本方面具有競爭力,以適應其要部署到的層和任務。比較行業基準將成為決定AI加速器技術能否在競爭激烈的市場生存下去的關鍵因素。
在一個正在走向工作負載優化的人工智能體系結構的行業中,用戶將采用最快、最可擴展、最節能和成本最低的硬件、軟件和云平臺來運行他們的人工智能任務,包括在每一層中進行開發、培訓、操作和推理。
AI加速器專用集成電路的多樣性
當下的AI加速器硬件架構百花齊放。它們是如此的多樣化,如此的發展迅速,以至于人們很難跟上這個市場不斷創新的步伐。
除了核心的人工智能芯片組制造商(如Nvidia和intelasics)之外,針對特定平臺的AI工作負載的制造商比比皆是。你可以在最近的幾個新聞中看到這種趨勢:
•微軟正在為其HoloLens現實增強耳機準備一款AI芯片。
•Google有一個特殊的NNPU,即Tensor處理單元,可用于Google Cloud Platform上的AI應用程序。
•據報道,亞馬遜正在為其Alexa家庭助理開發AI芯片。
•Apple正在開發一款能為Siri和FaceID提供動力的AI處理器。
•特斯拉(Tesla)正在為其自動駕駛汽車開發人工智能處理器。
AI加速器的基準框架開始出現
AI加速器市場中的跨供應商的合作伙伴關系正變得越來越復雜和重疊。例如,看看中國科技巨頭百度是如何分別與英特爾和英偉達合作的。除了在自然語言處理、圖像識別和自動駕駛方面推出自己的NNPU芯片外,百度還與英特爾合作,在其公共云上支持FPGA支持的AI工作負載加速,推出一個用于Xeon CPU的AI框架、配備人工智能的自主汽車平臺、電腦視覺驅動的零售攝像頭,以及采用英特爾nGraph的一個硬件無關的深層神經網絡編譯器。這一切都是在與英偉達發布類似的聲明之后,包括將Volta GPU引入百度云,對百度的paddelpaddle AI開發框架進行調整,并將Nvidia驅動的AI推向中國消費者市場。
在云計算和專業SoCs中,整理這些令人困惑的AI加速器硬件選項及其組合已經變得越來越困難。如果沒有靈活的基準測試框架,將AI加速器硬件在任何給定任務上對整體性能的貢獻分離出來是很困難的。
幸運的是,人工智能行業正在開發開放、透明和與供應商無關的框架,以用于評估不同工作負載下不同硬件/軟件棧的性能比較。
MLPerf
例如,MLPerf開源基準組正在開發一個標準套件,用于對機器學習軟件框架、硬件加速器和云平臺的性能進行基準測試。MLPerf可以在GitHub上獲取,目前仍是測試版,它為當今人工智能部署中占主導地位的一些人工智能任務提供了參考實現。它將基準限制在特定算法(如resnet - 50v1)對特定數據集(如ImageNet)執行的特定AI任務(如圖像分類)上。核心基準集中在特定的硬件/軟件部署上,比如在ubuntu16.04、Nvidia Docker和CPython 2上運行的圖像分類訓練任務,這些任務由16個CPU芯片、一個Nvidia P100 Volta GPU和600G本地磁盤組成。
MLPerf框架足夠靈活,因此可以想象,基于GPU的圖像分類訓練可以與運行在不同硬件加速器上的相同任務(比如最近發布的百度Kunlun FPGAs )進行基準對比,但是要使用等效的軟件/硬件堆棧。
其他人工智能行業基準測試計劃也支持對替代人工智能加速器芯片以及部署中的其他硬件和軟件組件進行比較性能評估,這些組件使用相同的模型針對相同的訓練或運營數據來處理相同的任務。其他的基準指標包括DawnBench、ReQuest、Transaction Processing Performance委員會的人工智能工作組和CEAN2D2。它們都足夠靈活,可以應用于任何部署層中運行的任何人工智能工作負載任務,并可以根據任何經濟容差進行測量。
EEMBC機器學習基準套件
在將人工智能工作負載轉移到邊緣的過程中,一些人工智能基準測試計劃完全側重于測量部署在這一層的硬件/軟件棧的性能。例如,行業聯盟EEMBC最近開始了一項新的工作,定義一個基準套件,用于在功率受限的邊緣設備中運行的優化芯片組中執行機器學習任務。在英特爾的主持下,EEMBC的機器學習基準套件組將使用來自虛擬助理、智能手機、物聯網設備、智能揚聲器、物聯網網關和其他嵌入式/邊緣系統的真實機器學習工作負載,來確定用于加速機器學習推理作業的處理器內核的性能潛力和能效。
EEMBC機器學習基準將測量低、中、高復雜度推理任務的推理性能、神經網絡啟動時間和功率效率。它與機器學習前端框架、后端運行時環境和硬件加速器目標無關。該小組正在進行概念驗證,并計劃在2019年6月前發布其初始基準套件,解決一系列基于邊緣推理的神經網絡架構和用例。
EEMBC Adasmark基準測試框架
EEMBC的Adasmarkbenchmarking框架專注于配備AI的智能車輛,針對的是較窄范圍的邊緣層和任務。除了機器學習基準測試之外,EEMBC還在為嵌入在高級輔助駕駛系統的AI芯片開發一個單獨的性能測量框架。
該套件有助于測量在多設備、多芯片、多應用智能汽車平臺上執行的人工智能推理任務的性能。它對與高度并行的智能車輛應用程序(如計算機視覺、自動駕駛、汽車環繞視圖、圖像識別和移動增強現實)相關聯的現實世界推斷工作負載進行了基準測試。它可以度量復雜智能汽車邊緣架構的推理性能,這些架構通常包括多個專用CPU,GPU以及在公共機箱內執行不同任務的其他硬件加速器芯片組。
新興的人工智能場景將需要更多的特殊芯片
幾乎可以肯定的是,還會有其他專門的AI邊緣場景出現,它們需要自己的專用芯片、SoCs、硬件平臺和基準測試。AI芯片組的下一個巨大增長領域可能是用于加快加密貨幣挖掘的邊緣節點,這一用例與AI和游戲一起,已經吸收了對Nvidia GPU的大量需求。
專注于這一領域的一家供應商是DeepBrain Chain,它最近宣布了一種計算平臺,可以部署到分布式配置中,以實現人工智能工作負載的高性能處理和加密貨幣的挖掘。采礦站有兩個、四個和八個GPU的配置,以及獨立工作站和128個GPU的定制AI HPC集群。
不久之后,我們幾乎肯定會看到新一代的專注于分布式加密貨幣挖掘的人工智能ASIC。
在我們生活的這個從云到邊緣計算的世界中,為每一層和每一項任務采用專業的硬件平臺是人工智能的未來。