可以說,雖然 arm 的地位如今仍然重要,但卻已經(jīng)不再是眾人眼光的焦點(diǎn),當(dāng)蘋果、華為、高通等客戶不斷在 AI 技術(shù)與應(yīng)用上進(jìn)行創(chuàng)新時(shí),arm 基礎(chǔ)架構(gòu)似乎還是維持自己的步調(diào),沒有太多波瀾起 月 6 日,arm 在北京舉辦了人工智能新品發(fā)布會。面對市場的質(zhì)疑,arm 通過這次發(fā)布會正式向市場宣布進(jìn)軍 AI 方案,實(shí)際上解答了這兩年來為何 arm 在 AI 領(lǐng)域沒有太多作為的具體原因。在這次為期兩天的發(fā)布會中宣布了兩款針對中低端市場的GPU架構(gòu)及多媒體方案,但本次發(fā)布會的重點(diǎn)還是在第二天關(guān)于人工智能方案布局的座談,arm 資深市場營銷總監(jiān) Ian Smythe 針對未來 arm 在 AI 應(yīng)用領(lǐng)域的布局進(jìn)行深入的探討。
事實(shí)上,該行業(yè)巨頭早在 2016 年就已經(jīng)把觸手伸進(jìn)多個(gè) AI 應(yīng)用領(lǐng)域同時(shí)發(fā)展,包含號稱針對機(jī)器學(xué)習(xí)優(yōu)化的 Bifrost GPU 架構(gòu),以及針對高端服務(wù)器芯片的 SVE 延伸指令集。隨著相關(guān)方案陸續(xù)成熟,采用者也逐漸增加,arm 終于在今年 2 月底推出 Project Trillium,結(jié)合開發(fā)環(huán)境、算法與各大主流機(jī)器學(xué)習(xí)框架,要布局從終端到云端所有 AI 應(yīng)用開發(fā)生態(tài)。
為什么 arm 要在這個(gè)時(shí)間點(diǎn)推出他們自己的AI方案?
首先,各家使用的 AI 方案架構(gòu)方面都有不小落差,且應(yīng)用的兼容性可能也存在些問題,雖然都支持類似的框架,但畢竟沒有一個(gè)標(biāo)準(zhǔn)的 AI 計(jì)算接口存在,在此情況下,應(yīng)用開發(fā)商若要開發(fā)各類行應(yīng)用,就必須針對不同廠商的設(shè)備個(gè)別支持,如此曠日廢時(shí),且可能會受限于不同架構(gòu)的性能落差而使得應(yīng)用的表現(xiàn)不如預(yù)期。
其次,開發(fā)獨(dú)家的 AI 加速架構(gòu)代價(jià)并不低,且除了要考慮到所采用的 IP 來源的可擴(kuò)展性、框架支持廣度、是否提供標(biāo)準(zhǔn)接口,相關(guān)算法也不是朝夕之間就可研發(fā)出來,如果能夠提供一個(gè)可利用既有架構(gòu)便可達(dá)到接近完全硬件處理 AI 算力,不需支出額外的授權(quán)成本,也不需要改變既有的芯片設(shè)計(jì)布局,那么對市場而言,其吸引力自然是不言可喻。
arm 資深市場行銷總監(jiān) Ian Smythe 對此表示,他們正在做的就是提供業(yè)界更多的選擇,其他使用自有 AI 計(jì)算架構(gòu)的客戶也同樣能夠得到好處。
但 DT 君認(rèn)為這是個(gè)排他性很強(qiáng)的選擇,以包含軟硬件等大生態(tài)逼迫客戶放棄未來開發(fā)自有 AI 芯片的打算,確保能持續(xù)主導(dǎo)整體計(jì)算架構(gòu)發(fā)展走勢,未來甚至要挑戰(zhàn)服務(wù)器等其他專業(yè) AI 計(jì)算架構(gòu)——arm 這步棋將為整個(gè) AI 計(jì)算生態(tài),尤其是相關(guān)芯片產(chǎn)業(yè)帶來另一波榮景,還是一次大滅絕?恐怕是整個(gè)業(yè)界目前最關(guān)切的。
挑戰(zhàn)高端 AI 計(jì)算,直取 NVIDIA 主場,甚至構(gòu)筑排他性生態(tài)
arm 要用針對嵌入式市場的小 GPU 來挑戰(zhàn) NVIDIA?乍看之下不大可能,但 Ian 對 DT 君展示了其 AI 計(jì)算方案的能效表現(xiàn),以類似規(guī)模的架構(gòu)來比較,其實(shí) arm 的方案在能效方面都還是有一定的優(yōu)勢存在,加上 arm 架構(gòu)原生就支持高效率的推理工作,配合已經(jīng)相當(dāng)成熟的開發(fā)套件,可以支持大多數(shù)主流機(jī)器學(xué)習(xí)框架,相信對開發(fā)者可具相當(dāng)?shù)奈Α?/p>
當(dāng)然,要以絕對性能對抗 NVIDIA,DT 君認(rèn)為短期間之內(nèi)還不大現(xiàn)實(shí),但若以能耗、配合arm 在邊緣計(jì)算以及終端上的 AI 算布局構(gòu)成完整的生態(tài)鏈,那么要在數(shù)據(jù)中心市場吃下一定的占比,也不是不可能的事情。
在終端市場方面,前兩年AI熱潮中,各家新創(chuàng)產(chǎn)業(yè)紛紛推出自有的AI芯片,尤其是主流CV方案,市場上可說群雄并起,連過去止做低價(jià)主控的公司也都陸續(xù)搶進(jìn),打造自己的AI方案。
不過,在關(guān)鍵的算法方面,多數(shù)公司其實(shí)都還是倚賴第三方,真正創(chuàng)造自有算法的比例其實(shí)很少,就連AI計(jì)算架構(gòu)也可能都是直接取用現(xiàn)成的第三方方案,這些方案的支持完整性不一,且因?yàn)榧夹g(shù)來源分散,很難構(gòu)成,或分享來自一套共通的生態(tài)環(huán)境的優(yōu)點(diǎn),基本上就是處于單打獨(dú)斗的窘境。
然而,arm 這次的作法則是建立了一套從端到云的完整體系,不論客戶在市場中的定位如何,都能從 arm 拿到相對應(yīng)的方案,且不只是硬件,就連開發(fā)工具包以及算法都能提供。DT 君認(rèn)為這將造成相當(dāng)深遠(yuǎn)的影響,個(gè)別的 AI 芯片架構(gòu) IP 或者是算法 IP 供貨商會先受到一定的沖擊,甚或可能會被逐步逼出市場。
諸如寒武紀(jì)、深鑒等想要打進(jìn)主流消費(fèi)AI方案的供貨商恐怕將成為首波受害者,arm自家方案擁有強(qiáng)大的生態(tài)優(yōu)勢,即便絕對性能可能還稍微落后寒武紀(jì)或深鑒的方案,但憑借極低的導(dǎo)入門坎,及對主流算法模型的完整支持,且額外增加的成本極低,客戶會如何選擇,其實(shí)已經(jīng)不言可喻。
arm 方面也在說明會上表示,其架構(gòu)將可承載不同的算法來進(jìn)行各種 AI 應(yīng)用,算法來源不限定。然而,arm 自己也在發(fā)展相關(guān)算法,表面上的說法是要提供客戶更多樣化的選擇,但真正的盤算,恐怕是要對整個(gè) AI 市場進(jìn)行一次大清洗,并替換成自己的生態(tài),借此擴(kuò)大 arm 的市場格局,走向真正的架構(gòu)霸主之路。
畢竟從 arm 生態(tài)的歷史發(fā)展中,以嵌入式 GPU 為例,當(dāng)初 arm 和 Imagination 兩家英國 IP 公司關(guān)系緊密,相互提攜,但后來 arm 決定要發(fā)展自有的 GPU 架構(gòu)后,沒錯(cuò),市場有了更多的選擇,但事實(shí)上,arm 依靠包裝行銷與生態(tài)的優(yōu)勢,將 Imagination 打到落花流水。除少數(shù)如高通的 Andreno 自有 GPU 架構(gòu)較不受影響外,目前嵌入式 GPU 的 IP 授權(quán)產(chǎn)業(yè)幾乎也都被arm 通吃,不復(fù)見以往競爭激烈的局面。
后續(xù) arm 也進(jìn)入多媒體與顯示相關(guān)方案的 IP 市場,同樣對相關(guān)產(chǎn)業(yè)的技術(shù)供應(yīng)商造成相當(dāng)大的影響,雖然擴(kuò)大產(chǎn)品布局是 arm 避免在特定領(lǐng)域掉隊(duì),繼而維持其市場霸業(yè)的最有效方式,而被其策略布局影響到的對手或客戶可能就不是那么樂意了。
當(dāng)然,arm 的客戶永遠(yuǎn)都有得選擇,但依附在 arm生態(tài)之下的第三方 IP 供應(yīng)商就未必了。
早期從固定功能軟件著手,后續(xù)補(bǔ)齊硬件與整體開發(fā)生態(tài)
實(shí)際上,如果從當(dāng)年 arm 進(jìn)入 GPU 市場對市場所帶來的影響觀察,上面所描述結(jié)果或許就不那么讓人驚訝了。“循序漸進(jìn)”是arm近年來布局 AI 生態(tài)時(shí)很重要的遵循方向,Ian 向 DT 君說道。
其實(shí),arm 早在 NPU 等 AI 加速芯片概念出現(xiàn)之前,就已經(jīng)搶先在手機(jī)以及其他聯(lián)網(wǎng)終端產(chǎn)品中引入 AI 計(jì)算概念,而且值得一提的是,雖然 arm 是提供計(jì)算架構(gòu)硬件基礎(chǔ)核心的公司,算法與軟件生態(tài)環(huán)境通常都是跟著新架構(gòu)發(fā)展,但是在 AI 生態(tài)方面,卻反其道而行,算法和軟件先行,后續(xù)才逐漸補(bǔ)上硬件設(shè)計(jì)與開發(fā)環(huán)境。
以華為公司的手機(jī)為例,其實(shí)雖然消費(fèi)大眾被其在 Kirin 970 中采用的 NPU 設(shè)計(jì)抓住了眼光,認(rèn)為此類硬件 AI 計(jì)算架構(gòu)算是開創(chuàng)了手機(jī)產(chǎn)品的另一個(gè)新時(shí)代,但事實(shí)上,早在 Kirin 960 時(shí),ARM 就已經(jīng)提供華為不少關(guān)于物件偵測、語音加速以及照相處理等算法與 AI 軟件功能,妥善利用了當(dāng)時(shí) arm 芯片基于 GPU 與 CPU 合作而來的 AI 計(jì)算能力,雖然沒有真正的硬體加速方案,但在效率上已經(jīng)相當(dāng)受肯定。
Ian 對 DT 君表示,早期移動(dòng)終端對 AI 概念還不明顯,因此 arm 先提供功能有限的軟件方案讓市場嘗鮮,等到市場看出更多應(yīng)用潛力,不滿于現(xiàn)有的軟硬件搭配時(shí),arm 再推出更完整的硬件設(shè)計(jì)與開發(fā)環(huán)境,承接這些想要?jiǎng)?chuàng)造更多可性的客戶的需求。
市場的需求總是會一直前進(jìn),且應(yīng)用也會越趨復(fù)雜,Mate 10 的 AI 場景攝影功能由于進(jìn)行了更多、更復(fù)雜的計(jì)算,華為因此選擇在芯片中集成了專屬的 AI 計(jì)算芯片,也就是 NPU,期望在增加 AI 計(jì)算復(fù)雜度的同時(shí)也要能改善性能表現(xiàn),蘋果過去的 AI 方案主要也是基于 GPU 計(jì)算,但同樣在其 A11 芯片中引入架構(gòu)類似的神經(jīng)網(wǎng)絡(luò)芯片。
由于 AI 技術(shù)的革新速度超乎預(yù)期,眾多芯片客戶心中也開始有了疑惑:arm 的 AI 方案呢?Ian 對 DT 君表示,其實(shí) arm 早在 2016 年發(fā)表基于 Bifrsost 架構(gòu)的 Mali G-71 時(shí),就已經(jīng)希望借由該架構(gòu)來推動(dòng) AI 在終端以及邊緣計(jì)算的應(yīng)用場景,但當(dāng)初可和主流 AI、機(jī)器學(xué)習(xí)框架緊密結(jié)合的整套軟件開發(fā)環(huán)境還不夠成熟,且 arm 也不希望揠苗助長,推出半生不熟的環(huán)境搞壞自己名聲,因此在 Project Trillium 發(fā)布前,基本上也都沒有太多動(dòng)作。
這次雖然推出通用的 AI 開發(fā)平臺,但首波針對的還是基于計(jì)算機(jī)視覺 (CV) 為主的 OD(object detection) 處理設(shè)計(jì)平臺,以及機(jī)器學(xué)習(xí)等市場相對較成熟,且應(yīng)用較廣的方。Ian 進(jìn)一步表示,基于 Project Trillium 開發(fā)平臺的 AI 應(yīng)用將可針對幾乎所有類型的 AI 應(yīng)用,小到 IoT 設(shè)備,大至數(shù)據(jù)中心,只要是機(jī)器學(xué)習(xí)相關(guān)的應(yīng)用開發(fā)需求,都可基于同一套可變規(guī)模的架構(gòu)發(fā)展出來。
以 GPU 算力為核心,結(jié)合 CPU 生態(tài)優(yōu)勢,首波布局邊緣計(jì)算
GPU 計(jì)算可說是 arm 未來要發(fā)展 AI 計(jì)算生態(tài)的主要角色,從第一代 BiFrost 架構(gòu)開始,就已經(jīng)針對 AI 計(jì)算所需要的各種場景,包含機(jī)器學(xué)習(xí)中的訓(xùn)練,以及推理加速等進(jìn)行優(yōu)化。
我們都知道,過去數(shù)據(jù)中心以及超算架構(gòu)中所使用的 GPU 架構(gòu),其實(shí)只能應(yīng)對訓(xùn)練,但是訓(xùn)練完,要利用模型推理的工作處理上,效率非常差,這主要是因?yàn)閭鹘y(tǒng) GPGPU 擅長計(jì)算 32bit 甚至 64bit 的高精度整數(shù)或浮點(diǎn)計(jì)算,但是在深度學(xué)習(xí)所需要的數(shù)據(jù)處理而言,其實(shí)不需要這么高的精度,大部分場景下甚至只需要低精度的整數(shù)計(jì)算即可。目前,包含 TPU、NPU 等各種專用計(jì)算硬件都把 8bit 精度計(jì)算當(dāng)作標(biāo)準(zhǔn)的數(shù)據(jù)處理寬度,也因此其每秒操作性能都可達(dá)數(shù)個(gè) TeraFlops。
arm 早在數(shù)年前投入研發(fā)機(jī)器學(xué)習(xí)架構(gòu)時(shí),就已經(jīng)把 8bit 寬度數(shù)據(jù)處理能力列為標(biāo)準(zhǔn),不只在 GPU,CPU 中的 NEON DSP 單元也同樣支持 8bit 寬度數(shù)據(jù)計(jì)算,因此基于 arm 機(jī)器學(xué)習(xí)平臺,不僅可充分應(yīng)對機(jī)器學(xué)習(xí)的訓(xùn)練需求,推理能力也能充分獲得滿足。雖因這樣的設(shè)計(jì),過去 arm 的 Mali GPU 在芯片面積及功耗表現(xiàn)稍弱,但隨著芯片工藝的改進(jìn),以及各種 AI 計(jì)算需求的帶動(dòng),其設(shè)計(jì)的價(jià)值也逐漸被顯現(xiàn)出來。
arm 的 AI 計(jì)算平臺規(guī)劃同時(shí)也包括了數(shù)據(jù)中心等應(yīng)用。Ian 對此表示,由于數(shù)據(jù)中心等大型機(jī)器學(xué)習(xí)平臺數(shù)據(jù)流通量極大,如果只是單純把目前針對移動(dòng)平臺開發(fā)的 arm 架構(gòu)規(guī)模等比例放大,核心算力雖足夠與一線平臺相提并論,但數(shù)據(jù)傳輸能力就會成為短板,即便核心算力再強(qiáng)大,數(shù)據(jù)來不及存取,那么芯片也只能空轉(zhuǎn),平白浪費(fèi)能源。
因此,arm 初期還是會以數(shù)據(jù)需求量較小的終端和邊緣計(jì)算應(yīng)用為主,著重在小規(guī)模的計(jì)算應(yīng)用,2018 年稍晚就會推出新版架構(gòu),補(bǔ)足總線與帶寬方面的缺點(diǎn),正式向目前主流的數(shù)據(jù)中心應(yīng)用挑戰(zhàn)。