人工智能(AI)發展愈加快速,并開始大舉進軍終端裝置,運算分析已開始從云端轉向終端節點,邊緣運算發展可說是目前半導體產業熱門議題,而2018臺北國際計算機展(Computex 2018)也成為各領域業者(如IP、芯片、儲存) 火力展示的絕佳場合,紛紛于展會期間發布新的解決方案或市場布局規畫。 搶攻邊緣運算市場 Arm動作頻頻 Arm IP產品事業群總裁Rene Haas(圖1)表示,隨著物聯網的蓬勃發展,Arm預測至2035年全球將會有超過1兆臺的聯網裝置,運用于醫療、汽車、燈具及道路等范疇, 而聯網裝置數量的大幅成長也將帶領終端及云端運算的持續發展。 智能運算將持續推動物聯網嶄新時代,帶領AI變革,促使物聯網智能運算無所不在。
因應此一趨勢,且為整合生態系統的AI/機器學習(ML)應用、演算與框架,并結合軟件優化與硬件IP產品,讓各式裝置及平臺都能支持最常使用的機器學習框架,Arm近期宣布推出三款全新IP產品,分別為Cortex-A76 CPU、 Mali-G76 GPU,以及Mali-V76 VPU,以提升游戲與AR/VR體驗,AI和機器學習能力。 透過這三款新產品,Arm將持續強化該公司于行動領域的競爭優勢,也再度增強了智能手機、平板計算機、PC等行動終端裝置的運算效能。 Arm副總裁暨客戶事業部總經理Nandan Nayampally(圖2)表示,未來5G將推動整個行動產業創新,即將到來的5G聯網應用,包含VR、AI或是手機游戲等將會帶動更多運算量成長,未來將會有更多不同運算需求產生。
Nayampally進一步指出,游戲也是推動行動裝置運算持續攀升的關鍵因素之一。 游戲產業已成目前全球營收規模最大的市場之一,預計在2018年可達到1,379億美元的產值,這也驅動了消費者對于運算效能的需求。 據悉,Cortex-A76是基于Arm旗下的DynamIQ技術打造,和去年所發布的Cortex-A75相比,提升了35%的效能與40%的效率;可為終端裝置上的AI/ML提供4倍的運算效能, 于PC和智能手機上實現快速且安全的體驗。 Mali-G76則比前一代的Mali-G72 GPU提升30%運算效能,以及增加了30%的效能密度,不僅可滿足消費者隨時游玩高階游戲的需求,也為開發人員提供更多的效能空間,使他們能編寫更多新的應用程序, 為行動應用帶來更多高階游戲,或是將AR/VR整合至生活當中。 最后,隨著UHD 8K需求逐漸攀升,為確保IP能支持智能手機和其他裝置編碼譯碼運算,Arm便推出Mali-V76,可支持高達60fps的8K分辨率或四部60fps的4K串流影片,消費者能同時串流四部4K分辨率的電影、 在視頻會議中錄制影片,或者以4K觀看四場比賽;或在較低分辨率的狀況下,仍能呈現高分辨率畫質(Full HD),并能支持多達16部串流影片組成4×4的電視墻。 Project Trillium亮相 加速建構ML生態系 與此同時,為提升終端裝置機器學習效能,Arm也于2018年初發表Project Trillium平臺,包含全新機器學習處理器(ML Processor)、對象偵測處理器(Objects Processor), 以及Arm神經網絡軟件(Arm NN)。 相較于獨立CPU、GPU與加速器,Project Trillium平臺效能更遠遠超越傳統DSP的可編程邏輯。 Arm副總裁、院士暨機器學習事業群總經理Jem Davies(圖3)指出,邊緣運算發展潛力十分龐大,目前市面上的確有許多獨立的解決方案,像是ASIC加速器、CPU/GPU等。 終端業者當然可以選擇自己想要的方案,不過缺點在于須花費時間自行進行硬件與軟件(TensorFlow、Caffe)的整合。
Davies說明,Project Trillium的優勢在于,是以平臺的架構呈現,硬件方面不僅有ML Processor和Objects Processor可供選擇,同時也能透過Arm NN軟件, 協助用戶簡化TensorFlow、Caffe與Android NN等神經網絡框架和Arm Cortex CPU、Arm Mali GPU與機器學習處理器之間的鏈接整合。 Davies進一步指出,軟件整合是發展機器學習其中一個關鍵要素,許多加速器業者或許有辦法提供相關硬件處理器(CPU、GPU),但卻少有資源可以提供一個完善的平臺架構,協助客戶進行軟硬件整合或是提升ML模型運算, 而Project Trillium包含全新的Arm IP處理器及神經網絡軟件,從硬件和軟件面都能滿足現今市場需求,而這種方式也有助于Arm建構完善的邊緣運算生態系。 另外,Davies也觀察到,MCU對機器學習的需求也十分強勁。 他透露,在Project Trillium上線,Arm NN軟件開發工具包開放用戶下載的第一天,就有超過5,000名用戶開始使用CMSIS NN,嘗試以Cortex-M執行機器學習算法。 Davies說,這個結果其實出乎Arm的預料,也顯示MCU用戶群對機器學習的需求跟興趣,是不容忽視的。 這也促使Arm決定在未來推出的新版Cortex-M核心中,進一步強化這類核心執行ML算法的效率。 CMSIS NN是Arm神經網絡軟件開發工具包Arm NN SDK下的一個運算函式庫(Compute Library),可以提升Cortex-M執行機器學習算法的效率。 即便是現有的Cortex-M核心,在CMSIS NN的幫助下,也可以執行一些很簡單的機器學習推論,例如判讀傳感器輸出數據所代表的意義。 當然,由于MCU的運算效能跟內存空間都不是很充裕,因此不可能執行非常復雜機器學習推論,但如果是對單一傳感器節點輸出的數據做簡單判讀,還是有機會實現的。 Davies指出,MCU如果無法支持某些基本的ML算法,AI應用無所不在的未來是難以實現的。 目前透過云端數據中心提供的人工智能應用服務,其實有很明顯的應用局限,只有把AI不斷往邊緣推進,才能讓AI應用更加普及。 而為了讓MCU能更有效率地執行ML算法,在Arm未來的產品發展路線圖里面,Cortex-M執行ML的效率將會進一步提升。