億歐推出“芯片帝國”系列分析稿件,從芯片的核心架構(gòu)、應(yīng)用場景、國內(nèi)外主要玩家和下游晶圓代工廠等方面呈現(xiàn)芯片業(yè)的產(chǎn)業(yè)圖景。當(dāng)前AI芯片主要分為GPU、FPGA、ASIC及類腦芯片等。以下為第一篇架構(gòu)篇,從通用芯片CPU及它的創(chuàng)始者英特爾說起,梳理AI浪潮下不同的芯片架構(gòu),及它們所構(gòu)筑的科技帝國。
英特爾和CPU:開山鼻祖,集成通用芯片、PC界老大
芯片中,最令人熟悉的恐怕是中央處理器CPU了。作為一種超大規(guī)模的集成通用芯片,CPU可完成多種不同種類的任務(wù),在PC世界里起著大腦的作用。而CPU的誕生也開始了PC時代的巨頭——英特爾的輝煌歷史。
英特爾是主要以研制CPU處理器的巨頭,全球最大的個人計(jì)算機(jī)零件和CPU制造商,1971年,英特爾推出了全球第一個微處理器,它引發(fā)的微處理器所帶來的計(jì)算機(jī)和互聯(lián)網(wǎng)革命,可以說改變了整個世界。
但CPU雖統(tǒng)治了PC時代,隨著人工智能興起,傳統(tǒng)的CPU算力不足這一問題便越來越突出,尤其基于CPU的傳統(tǒng)計(jì)算架構(gòu)無法滿足人工智能并行計(jì)算的需求。AI所需的深度學(xué)習(xí)需要很高的內(nèi)在并行度、大量浮點(diǎn)計(jì)算能力以及矩陣運(yùn)算,因此在通用芯片之下,需發(fā)展適合人工智能架構(gòu)的專屬芯片。這也帶來了英特爾地位的下降。
不過在更早時候,即移動互聯(lián)網(wǎng)大潮襲來時,CPU巨頭英特爾的劣勢就已開始顯現(xiàn)了。英特爾在移動端不敵來自生產(chǎn)ARM芯片(與英特爾X86平級的CPU架構(gòu),但采用精簡指令集計(jì)算機(jī),主打低成本、低功耗和高效率)的ARM公司,目前世界超過95%的智能手機(jī)和平板電腦都采用ARM架構(gòu)。
再加上英偉達(dá)GPU在數(shù)據(jù)中心業(yè)務(wù)的競爭,2010年還占據(jù)整個半導(dǎo)體芯片市場80%多份額(據(jù)IHS的報(bào)告數(shù)據(jù))的英特爾,到2016年第二季度,僅占14.7%。
為了在人工智能時代不落后其他科技公司,英特爾近年來通過收購一批在FPGA、ASIC等芯片領(lǐng)域的頭部企業(yè)。在云端,2015年,英特爾收購全球第二大FPGA廠商Altera;在終端,2016年收購了研發(fā)高性能視覺處理芯片的Movidius;另外,英特爾2017年還收購了汽車領(lǐng)域的Mobileye,以此對抗英特爾在汽車領(lǐng)域的地位。
不過,今年7月,英特爾交出的財(cái)報(bào)顯示,其Q2營收為169.62億美元,凈利潤50.06億美元,同比增長78%。雖然營收、凈利潤增速不錯,但基于CPU、FPGA的數(shù)據(jù)業(yè)務(wù)并未達(dá)到之前的預(yù)期,英特爾股價(jià)還是跌了。
當(dāng)然,英特爾雖然目前已有頹勢,但CPU卻也沒有到馬上要被替代的地步。
CPU雖然計(jì)算能力稍差,但它是通用計(jì)算機(jī)的處理核心,處理各式各樣的指令要求,所有部件也都要通過它互聯(lián)互通,其有著復(fù)雜的邏輯控制單元和獨(dú)特的指令翻譯結(jié)構(gòu),這是其他芯片目前難以替代的。
并且,ARM架構(gòu)的CPU芯片在手機(jī)和智能音箱等領(lǐng)域也是不可或缺的。所以唱衰CPU,還是為時過早的。
英偉達(dá)和GPU:先發(fā)制人的“十項(xiàng)全能”選手,目前應(yīng)用最廣泛AI芯片
CPU的計(jì)算能力漸漸落后,也催生了崛起的圖像處理器GPU及新的巨頭英偉達(dá)。1999年,英偉達(dá)發(fā)明了GPU,這極大地推動了PC游戲市場的發(fā)展,重新定義了現(xiàn)代計(jì)算機(jī)圖形技術(shù),并徹底改變了并行計(jì)算。
相比CPU,GPU由于更適合執(zhí)行復(fù)雜的數(shù)學(xué)和幾何計(jì)算(尤其是并行運(yùn)算),剛好與包含大量的并行運(yùn)算的人工智能深度學(xué)習(xí)算法相匹配,因此在人工智能時代剛好被賦予了新的使命,成為AI硬件首選,在云端作為AI“訓(xùn)練”的主力芯片,在終端的安防、汽車等領(lǐng)域,GPU也率先落地,是目前應(yīng)用范圍最廣、靈活度最高的AI硬件。
而英偉達(dá)也因此幾乎成為AI浪潮中的最大受益者,在加速深度學(xué)習(xí)算法芯片市場幾乎占壟斷地位。英偉達(dá)2016年第一個推出專為深度學(xué)習(xí)優(yōu)化的Pascal GPU,2017年推出了性能更優(yōu)的新GPU架構(gòu)Volta,及神經(jīng)網(wǎng)絡(luò)推理加速器TensorRT 3。目前占據(jù)全球GPU行業(yè)的市場份額超過70%,GPU作為其核心產(chǎn)品占據(jù)84%的收入份額。
另外,由于英偉達(dá)發(fā)布的針對開發(fā)者提供的并行計(jì)算平臺CUDA,被廣泛認(rèn)可和普及,積累了良好的編程環(huán)境,目前應(yīng)用在人工智能領(lǐng)域,可進(jìn)行通用計(jì)算的GPU市場基本被英偉達(dá)壟斷。
不過英偉達(dá)在PC端和數(shù)據(jù)中心業(yè)務(wù)上,也面臨著老二AMD的挑戰(zhàn)。
在PC處理器市場,AMD正在英特爾主導(dǎo)的市場“搶食”。從2017年3月至今年4月,AMD推出了銳龍7、銳龍5、銳龍3、銳龍Threadripper、銳龍2000等處理器。數(shù)據(jù)顯示,在銳龍?zhí)幚砥魍瞥龊螅珹MD的桌面處理器市場份額已從8%增至12%;而英特爾的份額則下跌1.9%,至87.8%。
雖然,英特爾在數(shù)據(jù)中心處理器市場也占有絕對的領(lǐng)先地位,擁有99%的市場份額,不過野村證券稱英特爾正在試圖阻止將15-20%的數(shù)據(jù)中心處理器份額讓給AMD。
目前GPU和英偉達(dá),在人工智能浪潮下,可以說是風(fēng)頭正勁,不過在頂著“應(yīng)用最廣泛AI芯片”的光環(huán),英偉達(dá)也還面臨FPGA和ASIC等專用化程度更高、計(jì)算力更強(qiáng)的芯片的挑戰(zhàn)。
賽靈思和FPGA:“變形金剛”,算法未定型前的階段性最佳選擇
同樣能滿足更高的計(jì)算需求,并可進(jìn)行編程,1984年,賽靈思(Xilinx)發(fā)明了現(xiàn)場可編程門陣列FPGA,F(xiàn)PGA作為半定制化的ASIC(專用集成電路),順應(yīng)了計(jì)算機(jī)需求更專業(yè)的趨勢,成為神經(jīng)網(wǎng)絡(luò)算法中的主流芯片。
FPGA可算是芯片界的“變形金剛”,在寫入軟件前它有勝于CPU的通用性,寫入軟件后它有類似于ASIC的表現(xiàn),是算法未定型前的階段性最佳選擇。FPGA相比GPU具有低功耗優(yōu)勢,同時相比ASIC具有開發(fā)周期快,更加靈活編程等特點(diǎn)。
在現(xiàn)階段云端數(shù)據(jù)中心業(yè)務(wù)中,F(xiàn)PGA以其靈活性和可深度優(yōu)化的特點(diǎn),有望繼GPU之后在該市場爆發(fā);在目前的終端智能安防領(lǐng)域,也有廠商采用FPGA方案實(shí)現(xiàn)AI硬件加速。
FPGA市場的最大玩家是其創(chuàng)始者賽靈思,除了“通過系統(tǒng)集成和先進(jìn)的‘軟件定義’開發(fā)環(huán)境所擴(kuò)展的新用戶群體的服務(wù)”外,賽靈思在金融、制造業(yè)、娛樂、公共安全以及電信等傳統(tǒng)行業(yè),以及在自動駕駛汽車、無人機(jī)、智能監(jiān)控等新興行業(yè)都有布局。
在數(shù)據(jù)中心方面,全球七大超大規(guī)模云服務(wù)公司,已有3家采用了賽靈思FPGA,其中的百度于今年10月宣布,其已設(shè)計(jì)出賽靈思UltraScale?FPGA池。另外,賽靈思在車用電腦視覺處理市場占有率排名第二,僅次于Mobileye(2017年被英特爾收購),不過其與Mobileye間還存在著巨大差距。
賽靈思今年還收購了我國的人工智能創(chuàng)企深鑒科技,深鑒基于賽靈思的FPGA開發(fā)AI芯片,此前已和大華股份、東方網(wǎng)力等安防廠商展開合作,推出基于Xilinx FPGA的DPU產(chǎn)品。
不過老大賽靈思在回復(fù)如何看待阿爾特拉被英特爾收購時,傲嬌的表示:“我們依舊是第一,只是尾巴丟了”。
但由于FPGA要保證編程的靈活性,電路上會有大量冗余,因此成本上不能像ASIC做到最優(yōu),工作頻率也不能太高。因而,在ASIC還并不成熟,同時GPU功耗和成本較高的現(xiàn)階段發(fā)展較好。
谷歌和ASIC:“專精職業(yè)選手”,專一決定效率,AI芯片未來
隨著專用化需求的進(jìn)一步發(fā)展,芯片界又誕生了ASIC。ASIC(Application Specific Integrated Circuit)即專用集成電路,本文中特指專門為AI應(yīng)用設(shè)計(jì)、專屬架構(gòu)的處理器芯片。
近年來涌現(xiàn)的類似TPU、NPU、VPU、BPU等,本質(zhì)上都屬于ASIC。無論是從性能、面積、功耗等各方面,AISC都優(yōu)于GPU和FPGA,長期來看,ASIC代表AI芯片的未來。
ASIC架構(gòu)典型的代表,是谷歌的張量處理器TPU,其采用了脈動陣列的組織方式。2016年,谷歌TPU在AlphaGo與李世石一役中橫空出世,使AlphaGo“思考”棋招和預(yù)判局勢,處理速度比GPU和CPU快上幾十倍。令人驚艷的的TPU,也一度被認(rèn)為是AI芯片業(yè)內(nèi)新的攪局者。不過TPU的資歷也沒比以上幾位年輕,哈佛大學(xué)孔祥重教授在1970 s就提出了TPU的脈動陣列組織方式。
今年2月,谷歌也以Beta測試的形式開放了一直只是自用的TPU,服務(wù)的名稱為Cloud TPUs(云端TPUs),用于云端服務(wù)器。今年5月Google云端芯還發(fā)布了TPU 3.0,8月谷歌又推出一款為邊緣計(jì)算定制的Edge TPU。
不過TPU目前并不對外發(fā)售,并且要想進(jìn)入更多市場,它的通用性仍需檢驗(yàn)。但谷歌TPU的推出,以及測試版對中小企業(yè)的開放,還是會對英偉達(dá)帶來一定威脅。
而ASIC芯片領(lǐng)域,也有一大批追趕者。以我國的初創(chuàng)企業(yè)而言,2017年9月,華為發(fā)售的AI芯片麒麟970上的NPU(屬ASIC架構(gòu))集成了初創(chuàng)芯片企業(yè)寒武紀(jì)的1A處理器作為其核心人工智能處理單元。
2017年1月,地平線攜手英特爾發(fā)布基于BPU(屬ASIC架構(gòu))架構(gòu)的最新高級輔助駕駛系統(tǒng),12月,地平線機(jī)器人發(fā)布“旭日”和“征程”兩款嵌入式AI芯片,面向智能駕駛和智能攝像頭。
2016年,英特爾收購的視覺處理芯片企業(yè)Movidius,其研發(fā)的VPU也是ASIC芯片。
在AI算法尚處于蓬勃發(fā)展、快速迭代的今天,ASIC存在開發(fā)周期較長、需要底層硬件編程、靈活性較低等劣勢,因此目前發(fā)展速度還不及GPU和FPGA。但長期來看,ASIC是AI芯片的未來。
IBM和類腦芯片:另辟蹊徑,顛覆傳統(tǒng)計(jì)算架構(gòu),仍在研發(fā)
另外,在傳統(tǒng)架構(gòu)之外,還有一類“不走尋常路”的芯片,這就是“類腦芯片”。“類腦芯片”顛覆傳統(tǒng)計(jì)算架構(gòu),將數(shù)字處理器當(dāng)作神經(jīng)元,把內(nèi)存作為突觸,內(nèi)存、CPU和通信部件完全集成在一起,采用模擬人腦神經(jīng)元結(jié)構(gòu)來提升計(jì)算能力。
“類腦芯片”以IBM TrueNorth芯片為代表,但由于技術(shù)和底層硬件的限制,其尚處于前期研發(fā)階段,目前不具備大規(guī)模商業(yè)應(yīng)用的可能性。從技術(shù)成熟度和商業(yè)可行性兩個角度,使用AI專屬硬件進(jìn)行加速運(yùn)算是今后五年及以上的市場主流。
我國初創(chuàng)企業(yè)西井科技也在研發(fā)類腦芯片,其宣稱“芯片用電路模擬神經(jīng),成品有100億規(guī)模的仿真神經(jīng)元,可用于基因測序、模擬大腦放電等領(lǐng)域”。
不過,類腦芯片的商用并不樂觀,西井目前也從研究類腦芯片轉(zhuǎn)向自動駕駛領(lǐng)域。
總結(jié):諸侯混戰(zhàn),同賽道糾纏,不同架構(gòu)競爭
從CPU、GPU、FPGA,到ASIC及類腦芯片,從英特爾、英偉達(dá)、賽靈思、谷歌再到IBM,可以看出芯片業(yè)最近50年可謂風(fēng)起云涌,而人工智能芯片的興起只是最近的一次浪潮。
GPU、FPGA、ASIC及類腦芯片等可用于AI的芯片,也只是目前登場的芯片中的一小部分,其商用場景還未完全展開。而當(dāng)前的AI芯片中,應(yīng)用還是以GPU領(lǐng)先,F(xiàn)PGA可能成為下一個爆點(diǎn),ASIC目前是被看好、但不成熟的新星。
再看芯片巨頭的斗爭,英特爾與ARM在CPU市場、英偉達(dá)和AMD在GPU市場、賽靈思和阿爾特拉在FPGA市場上,及谷歌和一些創(chuàng)企在ASIC市場的競爭……而在AI浪潮下引導(dǎo)的芯片革新上,英特爾與英偉達(dá),賽靈思以及谷歌又在不同芯片架構(gòu)及應(yīng)用場景間進(jìn)行斗爭。
可以說這確實(shí)是一場“諸侯混戰(zhàn)”,而身處變革中的每一個巨頭,都不想在戰(zhàn)爭中先倒下。