“AI芯片大清洗”即將來臨：ARM終于出手，要一統(tǒng)人工智能生態(tài)

責(zé)任編輯：zsheng |來源：企業(yè)網(wǎng)D1Net 2018-03-13 08:21:35 本文摘自：快資訊

作為幾乎所有智能移動(dòng)終端及多數(shù)智能聯(lián)網(wǎng)設(shè)備的計(jì)算核心設(shè)計(jì)者，全球最為著名芯片架構(gòu)設(shè)計(jì)公司 arm 在這兩年 AI 生態(tài)蓬勃發(fā)展的走勢中一反常態(tài)，沒有站在主導(dǎo)地位，甚至也沒什么音量。

可以說，雖然 arm 的地位如今仍然重要，但卻已經(jīng)不再是眾人眼光的焦點(diǎn)，當(dāng)蘋果、華為、高通等客戶不斷在 AI 技術(shù)與應(yīng)用上進(jìn)行創(chuàng)新時(shí)，arm 基礎(chǔ)架構(gòu)似乎還是維持自己的步調(diào)，沒有太多波瀾起月 6 日，arm 在北京舉辦了人工智能新品發(fā)布會。面對市場的質(zhì)疑，arm 通過這次發(fā)布會正式向市場宣布進(jìn)軍 AI 方案，實(shí)際上解答了這兩年來為何 arm 在 AI 領(lǐng)域沒有太多作為的具體原因。在這次為期兩天的發(fā)布會中宣布了兩款針對中低端市場的GPU架構(gòu)及多媒體方案，但本次發(fā)布會的重點(diǎn)還是在第二天關(guān)于人工智能方案布局的座談，arm 資深市場營銷總監(jiān) Ian Smythe 針對未來 arm 在 AI 應(yīng)用領(lǐng)域的布局進(jìn)行深入的探討。

事實(shí)上，該行業(yè)巨頭早在 2016 年就已經(jīng)把觸手伸進(jìn)多個(gè) AI 應(yīng)用領(lǐng)域同時(shí)發(fā)展，包含號稱針對機(jī)器學(xué)習(xí)優(yōu)化的 Bifrost GPU 架構(gòu)，以及針對高端服務(wù)器芯片的 SVE 延伸指令集。隨著相關(guān)方案陸續(xù)成熟，采用者也逐漸增加，arm 終于在今年 2 月底推出 Project Trillium，結(jié)合開發(fā)環(huán)境、算法與各大主流機(jī)器學(xué)習(xí)框架，要布局從終端到云端所有 AI 應(yīng)用開發(fā)生態(tài)。

為什么 arm 要在這個(gè)時(shí)間點(diǎn)推出他們自己的AI方案?

首先，各家使用的 AI 方案架構(gòu)方面都有不小落差，且應(yīng)用的兼容性可能也存在些問題，雖然都支持類似的框架，但畢竟沒有一個(gè)標(biāo)準(zhǔn)的 AI 計(jì)算接口存在，在此情況下，應(yīng)用開發(fā)商若要開發(fā)各類行應(yīng)用，就必須針對不同廠商的設(shè)備個(gè)別支持，如此曠日廢時(shí)，且可能會受限于不同架構(gòu)的性能落差而使得應(yīng)用的表現(xiàn)不如預(yù)期。

其次，開發(fā)獨(dú)家的 AI 加速架構(gòu)代價(jià)并不低，且除了要考慮到所采用的 IP 來源的可擴(kuò)展性、框架支持廣度、是否提供標(biāo)準(zhǔn)接口，相關(guān)算法也不是朝夕之間就可研發(fā)出來，如果能夠提供一個(gè)可利用既有架構(gòu)便可達(dá)到接近完全硬件處理 AI 算力，不需支出額外的授權(quán)成本，也不需要改變既有的芯片設(shè)計(jì)布局，那么對市場而言，其吸引力自然是不言可喻。

arm 資深市場行銷總監(jiān) Ian Smythe 對此表示，他們正在做的就是提供業(yè)界更多的選擇，其他使用自有 AI 計(jì)算架構(gòu)的客戶也同樣能夠得到好處。

但 DT 君認(rèn)為這是個(gè)排他性很強(qiáng)的選擇，以包含軟硬件等大生態(tài)逼迫客戶放棄未來開發(fā)自有 AI 芯片的打算，確保能持續(xù)主導(dǎo)整體計(jì)算架構(gòu)發(fā)展走勢，未來甚至要挑戰(zhàn)服務(wù)器等其他專業(yè) AI 計(jì)算架構(gòu)——arm 這步棋將為整個(gè) AI 計(jì)算生態(tài)，尤其是相關(guān)芯片產(chǎn)業(yè)帶來另一波榮景，還是一次大滅絕?恐怕是整個(gè)業(yè)界目前最關(guān)切的。

挑戰(zhàn)高端 AI 計(jì)算，直取 NVIDIA 主場，甚至構(gòu)筑排他性生態(tài)

arm 要用針對嵌入式市場的小 GPU 來挑戰(zhàn) NVIDIA?乍看之下不大可能，但 Ian 對 DT 君展示了其 AI 計(jì)算方案的能效表現(xiàn)，以類似規(guī)模的架構(gòu)來比較，其實(shí) arm 的方案在能效方面都還是有一定的優(yōu)勢存在，加上 arm 架構(gòu)原生就支持高效率的推理工作，配合已經(jīng)相當(dāng)成熟的開發(fā)套件，可以支持大多數(shù)主流機(jī)器學(xué)習(xí)框架，相信對開發(fā)者可具相當(dāng)?shù)奈Α?/p>

當(dāng)然，要以絕對性能對抗 NVIDIA，DT 君認(rèn)為短期間之內(nèi)還不大現(xiàn)實(shí)，但若以能耗、配合arm 在邊緣計(jì)算以及終端上的 AI 算布局構(gòu)成完整的生態(tài)鏈，那么要在數(shù)據(jù)中心市場吃下一定的占比，也不是不可能的事情。

在終端市場方面，前兩年AI熱潮中，各家新創(chuàng)產(chǎn)業(yè)紛紛推出自有的AI芯片，尤其是主流CV方案，市場上可說群雄并起，連過去止做低價(jià)主控的公司也都陸續(xù)搶進(jìn)，打造自己的AI方案。

不過，在關(guān)鍵的算法方面，多數(shù)公司其實(shí)都還是倚賴第三方，真正創(chuàng)造自有算法的比例其實(shí)很少，就連AI計(jì)算架構(gòu)也可能都是直接取用現(xiàn)成的第三方方案，這些方案的支持完整性不一，且因?yàn)榧夹g(shù)來源分散，很難構(gòu)成，或分享來自一套共通的生態(tài)環(huán)境的優(yōu)點(diǎn)，基本上就是處于單打獨(dú)斗的窘境。

然而，arm 這次的作法則是建立了一套從端到云的完整體系，不論客戶在市場中的定位如何，都能從 arm 拿到相對應(yīng)的方案，且不只是硬件，就連開發(fā)工具包以及算法都能提供。DT 君認(rèn)為這將造成相當(dāng)深遠(yuǎn)的影響，個(gè)別的 AI 芯片架構(gòu) IP 或者是算法 IP 供貨商會先受到一定的沖擊，甚或可能會被逐步逼出市場。

諸如寒武紀(jì)、深鑒等想要打進(jìn)主流消費(fèi)AI方案的供貨商恐怕將成為首波受害者，arm自家方案擁有強(qiáng)大的生態(tài)優(yōu)勢，即便絕對性能可能還稍微落后寒武紀(jì)或深鑒的方案，但憑借極低的導(dǎo)入門坎，及對主流算法模型的完整支持，且額外增加的成本極低，客戶會如何選擇，其實(shí)已經(jīng)不言可喻。

arm 方面也在說明會上表示，其架構(gòu)將可承載不同的算法來進(jìn)行各種 AI 應(yīng)用，算法來源不限定。然而，arm 自己也在發(fā)展相關(guān)算法，表面上的說法是要提供客戶更多樣化的選擇，但真正的盤算，恐怕是要對整個(gè) AI 市場進(jìn)行一次大清洗，并替換成自己的生態(tài)，借此擴(kuò)大 arm 的市場格局，走向真正的架構(gòu)霸主之路。

畢竟從 arm 生態(tài)的歷史發(fā)展中，以嵌入式 GPU 為例，當(dāng)初 arm 和 Imagination 兩家英國 IP 公司關(guān)系緊密，相互提攜，但后來 arm 決定要發(fā)展自有的 GPU 架構(gòu)后，沒錯(cuò)，市場有了更多的選擇，但事實(shí)上，arm 依靠包裝行銷與生態(tài)的優(yōu)勢，將 Imagination 打到落花流水。除少數(shù)如高通的 Andreno 自有 GPU 架構(gòu)較不受影響外，目前嵌入式 GPU 的 IP 授權(quán)產(chǎn)業(yè)幾乎也都被arm 通吃，不復(fù)見以往競爭激烈的局面。

后續(xù) arm 也進(jìn)入多媒體與顯示相關(guān)方案的 IP 市場，同樣對相關(guān)產(chǎn)業(yè)的技術(shù)供應(yīng)商造成相當(dāng)大的影響，雖然擴(kuò)大產(chǎn)品布局是 arm 避免在特定領(lǐng)域掉隊(duì)，繼而維持其市場霸業(yè)的最有效方式，而被其策略布局影響到的對手或客戶可能就不是那么樂意了。

當(dāng)然，arm 的客戶永遠(yuǎn)都有得選擇，但依附在 arm生態(tài)之下的第三方 IP 供應(yīng)商就未必了。

早期從固定功能軟件著手，后續(xù)補(bǔ)齊硬件與整體開發(fā)生態(tài)

實(shí)際上，如果從當(dāng)年 arm 進(jìn)入 GPU 市場對市場所帶來的影響觀察，上面所描述結(jié)果或許就不那么讓人驚訝了。“循序漸進(jìn)”是arm近年來布局 AI 生態(tài)時(shí)很重要的遵循方向，Ian 向 DT 君說道。

其實(shí)，arm 早在 NPU 等 AI 加速芯片概念出現(xiàn)之前，就已經(jīng)搶先在手機(jī)以及其他聯(lián)網(wǎng)終端產(chǎn)品中引入 AI 計(jì)算概念，而且值得一提的是，雖然 arm 是提供計(jì)算架構(gòu)硬件基礎(chǔ)核心的公司，算法與軟件生態(tài)環(huán)境通常都是跟著新架構(gòu)發(fā)展，但是在 AI 生態(tài)方面，卻反其道而行，算法和軟件先行，后續(xù)才逐漸補(bǔ)上硬件設(shè)計(jì)與開發(fā)環(huán)境。

以華為公司的手機(jī)為例，其實(shí)雖然消費(fèi)大眾被其在 Kirin 970 中采用的 NPU 設(shè)計(jì)抓住了眼光，認(rèn)為此類硬件 AI 計(jì)算架構(gòu)算是開創(chuàng)了手機(jī)產(chǎn)品的另一個(gè)新時(shí)代，但事實(shí)上，早在 Kirin 960 時(shí)，ARM 就已經(jīng)提供華為不少關(guān)于物件偵測、語音加速以及照相處理等算法與 AI 軟件功能，妥善利用了當(dāng)時(shí) arm 芯片基于 GPU 與 CPU 合作而來的 AI 計(jì)算能力，雖然沒有真正的硬體加速方案，但在效率上已經(jīng)相當(dāng)受肯定。

Ian 對 DT 君表示，早期移動(dòng)終端對 AI 概念還不明顯，因此 arm 先提供功能有限的軟件方案讓市場嘗鮮，等到市場看出更多應(yīng)用潛力，不滿于現(xiàn)有的軟硬件搭配時(shí)，arm 再推出更完整的硬件設(shè)計(jì)與開發(fā)環(huán)境，承接這些想要?jiǎng)?chuàng)造更多可性的客戶的需求。

市場的需求總是會一直前進(jìn)，且應(yīng)用也會越趨復(fù)雜，Mate 10 的 AI 場景攝影功能由于進(jìn)行了更多、更復(fù)雜的計(jì)算，華為因此選擇在芯片中集成了專屬的 AI 計(jì)算芯片，也就是 NPU，期望在增加 AI 計(jì)算復(fù)雜度的同時(shí)也要能改善性能表現(xiàn)，蘋果過去的 AI 方案主要也是基于 GPU 計(jì)算，但同樣在其 A11 芯片中引入架構(gòu)類似的神經(jīng)網(wǎng)絡(luò)芯片。

由于 AI 技術(shù)的革新速度超乎預(yù)期，眾多芯片客戶心中也開始有了疑惑：arm 的 AI 方案呢?Ian 對 DT 君表示，其實(shí) arm 早在 2016 年發(fā)表基于 Bifrsost 架構(gòu)的 Mali G-71 時(shí)，就已經(jīng)希望借由該架構(gòu)來推動(dòng) AI 在終端以及邊緣計(jì)算的應(yīng)用場景，但當(dāng)初可和主流 AI、機(jī)器學(xué)習(xí)框架緊密結(jié)合的整套軟件開發(fā)環(huán)境還不夠成熟，且 arm 也不希望揠苗助長，推出半生不熟的環(huán)境搞壞自己名聲，因此在 Project Trillium 發(fā)布前，基本上也都沒有太多動(dòng)作。

這次雖然推出通用的 AI 開發(fā)平臺，但首波針對的還是基于計(jì)算機(jī)視覺 (CV) 為主的 OD(object detection) 處理設(shè)計(jì)平臺，以及機(jī)器學(xué)習(xí)等市場相對較成熟，且應(yīng)用較廣的方。Ian 進(jìn)一步表示，基于 Project Trillium 開發(fā)平臺的 AI 應(yīng)用將可針對幾乎所有類型的 AI 應(yīng)用，小到 IoT 設(shè)備，大至數(shù)據(jù)中心，只要是機(jī)器學(xué)習(xí)相關(guān)的應(yīng)用開發(fā)需求，都可基于同一套可變規(guī)模的架構(gòu)發(fā)展出來。

以 GPU 算力為核心，結(jié)合 CPU 生態(tài)優(yōu)勢，首波布局邊緣計(jì)算

GPU 計(jì)算可說是 arm 未來要發(fā)展 AI 計(jì)算生態(tài)的主要角色，從第一代 BiFrost 架構(gòu)開始，就已經(jīng)針對 AI 計(jì)算所需要的各種場景，包含機(jī)器學(xué)習(xí)中的訓(xùn)練，以及推理加速等進(jìn)行優(yōu)化。

我們都知道，過去數(shù)據(jù)中心以及超算架構(gòu)中所使用的 GPU 架構(gòu)，其實(shí)只能應(yīng)對訓(xùn)練，但是訓(xùn)練完，要利用模型推理的工作處理上，效率非常差，這主要是因?yàn)閭鹘y(tǒng) GPGPU 擅長計(jì)算 32bit 甚至 64bit 的高精度整數(shù)或浮點(diǎn)計(jì)算，但是在深度學(xué)習(xí)所需要的數(shù)據(jù)處理而言，其實(shí)不需要這么高的精度，大部分場景下甚至只需要低精度的整數(shù)計(jì)算即可。目前，包含 TPU、NPU 等各種專用計(jì)算硬件都把 8bit 精度計(jì)算當(dāng)作標(biāo)準(zhǔn)的數(shù)據(jù)處理寬度，也因此其每秒操作性能都可達(dá)數(shù)個(gè) TeraFlops。

arm 早在數(shù)年前投入研發(fā)機(jī)器學(xué)習(xí)架構(gòu)時(shí)，就已經(jīng)把 8bit 寬度數(shù)據(jù)處理能力列為標(biāo)準(zhǔn)，不只在 GPU，CPU 中的 NEON DSP 單元也同樣支持 8bit 寬度數(shù)據(jù)計(jì)算，因此基于 arm 機(jī)器學(xué)習(xí)平臺，不僅可充分應(yīng)對機(jī)器學(xué)習(xí)的訓(xùn)練需求，推理能力也能充分獲得滿足。雖因這樣的設(shè)計(jì)，過去 arm 的 Mali GPU 在芯片面積及功耗表現(xiàn)稍弱，但隨著芯片工藝的改進(jìn)，以及各種 AI 計(jì)算需求的帶動(dòng)，其設(shè)計(jì)的價(jià)值也逐漸被顯現(xiàn)出來。

arm 的 AI 計(jì)算平臺規(guī)劃同時(shí)也包括了數(shù)據(jù)中心等應(yīng)用。Ian 對此表示，由于數(shù)據(jù)中心等大型機(jī)器學(xué)習(xí)平臺數(shù)據(jù)流通量極大，如果只是單純把目前針對移動(dòng)平臺開發(fā)的 arm 架構(gòu)規(guī)模等比例放大，核心算力雖足夠與一線平臺相提并論，但數(shù)據(jù)傳輸能力就會成為短板，即便核心算力再強(qiáng)大，數(shù)據(jù)來不及存取，那么芯片也只能空轉(zhuǎn)，平白浪費(fèi)能源。

因此，arm 初期還是會以數(shù)據(jù)需求量較小的終端和邊緣計(jì)算應(yīng)用為主，著重在小規(guī)模的計(jì)算應(yīng)用，2018 年稍晚就會推出新版架構(gòu)，補(bǔ)足總線與帶寬方面的缺點(diǎn)，正式向目前主流的數(shù)據(jù)中心應(yīng)用挑戰(zhàn)。

關(guān)鍵字：生態(tài)智能 ARM 芯片