而在全新的移動(dòng)市場(chǎng)中,仿佛講述了一個(gè)近乎壟斷的相似故事:英國(guó)ARM公司稱霸了移動(dòng)芯片市場(chǎng)。在此期間,英特爾非常努力地開發(fā)Atom處理器,但是頻頻碰壁,最終于2015年放棄。
就這樣,一切都改變了,AMD作為x86強(qiáng)力的競(jìng)爭(zhēng)者又重新浮出水面,后來FPGA(可編程門陣列技術(shù),專門處理大數(shù)據(jù)等新型技術(shù))處理器出現(xiàn)了。不過,芯片市場(chǎng)還是在人工智能(AI)與機(jī)器學(xué)習(xí)(ML)的出現(xiàn)后,才出現(xiàn)了重大轉(zhuǎn)變。隨著這些新興科技的出現(xiàn),一些令人意想不到開發(fā)商也推出了一批新的處理器,筆者在下方進(jìn)行了整理。
1,英特爾通過在2016年收購(gòu)深度學(xué)習(xí)公司Nervana Systems,而后又收購(gòu)了一家計(jì)算機(jī)視覺芯片公司Movidius,開發(fā)圖像處理AI技術(shù)。2,微軟正在為HoloLens的混合現(xiàn)實(shí)頭顯開發(fā)一款A(yù)I芯片,未來這款芯片可能應(yīng)用與其他設(shè)備中。3,谷歌為神經(jīng)網(wǎng)絡(luò)開發(fā)了一款A(yù)I芯片,名為張量處理單元(TPU),可供谷歌云平臺(tái)上的AI應(yīng)用使用。4,據(jù)報(bào)道,亞馬遜在為Alexa語(yǔ)音助手開發(fā)一款A(yù)I芯片。5,蘋果在研發(fā)一款A(yù)I處理器,名為Neural Engine,將用于Siri和FaceID。6,近日,ARM集團(tuán)推出了兩款新處理器,ARM機(jī)器學(xué)習(xí)(ML)處理器和物體檢測(cè)(OD)處理器,都是專門用來識(shí)別圖像的。7,2017年底,IBM公司開發(fā)了一款專門的AI處理器Power 9,并且授權(quán)NVIDIA的NVLink部門專門為AI和ML量產(chǎn)高速數(shù)據(jù)。8,非傳統(tǒng)科技公司特斯拉都想加入競(jìng)爭(zhēng),CEO馬斯克在2017年底都證實(shí)前AMD和蘋果芯片的工程師,“芯片大神”Jim Keller將為特斯拉研發(fā)芯片。
谷歌TPU計(jì)算單元
微軟Hololens中HPU結(jié)構(gòu)圖
intel Movidius芯片場(chǎng)景描繪PPT
當(dāng)然,這些只是宏觀的總結(jié),并沒有算入各種初創(chuàng)公司。《紐約時(shí)報(bào)》估計(jì)專注開發(fā)AI芯片的創(chuàng)業(yè)公司(既不是軟件公司,也不是芯片公司)能有45家,而且數(shù)量還在增加。當(dāng)然,這個(gè)數(shù)字并不完整,因?yàn)橛行┰谥袊?guó)的創(chuàng)業(yè)公司由政府投資,非常低調(diào)。
那么問題來了,芯片制造業(yè)停滯不前這么久之后,為什么又火爆起來了?畢竟,大家都知道,NVIDIA公司的GPU是很優(yōu)秀的人工智能處理器,而且已經(jīng)得到了廣泛應(yīng)用。那為什么現(xiàn)在需要更多開發(fā)更多不同的芯片呢?
這個(gè)問題的答案就和人工智能本身一樣,很復(fù)雜。
向錢看齊(也向使用率與效率看齊)
高性能計(jì)算行業(yè)的顧問咨詢公司Intersect360 Research的CEO Addison Snell,負(fù)責(zé)HPC(高性能計(jì)算機(jī)群)和AI問題,他表示:“目前,x86還是電腦運(yùn)算中主要使用的芯片架構(gòu),x86架構(gòu)和AI一樣也有著高度專業(yè)化的用途。”
他繼續(xù)說道:“x86本身就是一個(gè)普通的服務(wù)器平臺(tái),因此,它必須樣樣精通。而其他芯片,是專門為某個(gè)應(yīng)用開發(fā)的,并不需要應(yīng)付其他的基礎(chǔ)設(shè)施。所以操作系統(tǒng)和基礎(chǔ)設(shè)施的處理就交給x86架構(gòu),并部分交給各種協(xié)處理器與加速器處理就行。”
真正的AI技術(shù)處理工作與標(biāo)準(zhǔn)的計(jì)算或GPU處理過程非常不同,因此市場(chǎng)對(duì)專門芯片的需求十分迫切。x86構(gòu)架的CPU能夠處理AI,但是需要分12步處理,明明只需要3步就可以,有些時(shí)候使用GPU也顯得很多余。
通常科學(xué)計(jì)算的結(jié)果很明確,2+3就是等于5,小數(shù)點(diǎn)后面的數(shù)字都要很精確,在這一點(diǎn)上x86和GPU都能做到。但是AI的特性是當(dāng)遇到2.5+3.5的情況,幾乎每次不用計(jì)算就能得出6。現(xiàn)在的人工智能技術(shù)中最重要的是在數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,而不是精確的計(jì)算。
李世石與Alpha Go比賽畫面
簡(jiǎn)言之,AI與機(jī)器學(xué)習(xí)的定義是從過往的經(jīng)驗(yàn)總結(jié)并提高。比較出名的一個(gè)例子是谷歌子公司DeepMind開發(fā)的AlphaGo阿爾法圍棋人工智能,開發(fā)者為了提高AlphaGo的棋藝模擬了許多場(chǎng)圍棋比賽。再舉一個(gè)例子,人們?nèi)粘J褂玫腇acebook人臉識(shí)別AI技術(shù),也是經(jīng)過多年訓(xùn)練之后才能準(zhǔn)確在照片中識(shí)別人臉(Facebook在2012年收購(gòu)了面部識(shí)別公司Face.com,在2016年收購(gòu)了換臉應(yīng)用 Masquerade和面部識(shí)別公司Faciometrics)
AI機(jī)器人學(xué)到了東西之后就不會(huì)忘記了,這正是機(jī)器學(xué)習(xí)的標(biāo)志,AI大概念中的小概念。機(jī)器學(xué)習(xí)的核心是一種使用算法解析數(shù)據(jù)、從中學(xué)習(xí)然后根據(jù)數(shù)據(jù)作出決定或者預(yù)測(cè)的一種行為。機(jī)器學(xué)習(xí)也可以看作是一種識(shí)別規(guī)律的機(jī)制,比如在機(jī)器學(xué)習(xí)軟件記住2+3=5后,整個(gè)AI系統(tǒng)就能用上這一信息,從這一點(diǎn)來看,一個(gè)識(shí)別技術(shù)是否用了AI就很容易分辨了。
再舉個(gè)例子,用于自動(dòng)駕駛車的AI技術(shù),并不會(huì)使用決定性物理算法決定周遭其他物品的移動(dòng)路徑,只不過是利用過往經(jīng)驗(yàn)來判斷其他車是從這個(gè)方向來,還是從另一個(gè)方向來,因此AI系統(tǒng)是看到動(dòng)作做出反應(yīng)。
利用預(yù)測(cè)性的問題解決方式,AI技術(shù)只需要一次精確計(jì)算就能得出結(jié)論。雖然CPU與GPU也能做出這么精確的計(jì)算,但是過程太麻煩。一個(gè)單一的精準(zhǔn)小體積芯片就能夠解決,而且更好還更低。
別誤會(huì),功耗與適用范圍對(duì)于芯片來講很重要,尤其是對(duì)于AI來說,因?yàn)樵谶@一領(lǐng)域并不是一種芯片就能全部試用的。AI的核心是機(jī)器學(xué)習(xí),機(jī)器學(xué)習(xí)的核心是深度學(xué)習(xí),這些技術(shù)利用不同的配置能完成不同的任務(wù)。英特爾旗下的Movidius公司為深度學(xué)習(xí)專門定制了一款芯片,因?yàn)樯疃葘W(xué)習(xí)的過程使用CPU受到了極大的限制。Movidiu的市場(chǎng)市場(chǎng)總監(jiān)GaryBrown表示:“不是每一款A(yù)I芯片都是一樣的,每一款芯片能夠在不同時(shí)間處理不同的智能問題。我們的芯片擁有視覺智能,我們的算法利用攝像頭信號(hào)源推斷出眼前的情況,這就是我們開發(fā)的重點(diǎn)。”
Brown還補(bǔ)充,“我們甚至還需要區(qū)分應(yīng)用在網(wǎng)絡(luò)邊緣和數(shù)據(jù)中心的芯片,在不同領(lǐng)域使用的芯片應(yīng)該不同。網(wǎng)絡(luò)邊緣使用的芯片與數(shù)據(jù)中心使用的芯片無法媲美,例如英特爾公司的至強(qiáng)處理器屬于數(shù)據(jù)中心芯片,足以應(yīng)對(duì)數(shù)據(jù)中心AI技術(shù)的高性能需求,與智能手機(jī)中的AI對(duì)性能的需求是不一樣的,智能手機(jī)的AI耗電不能超過1w。那么問題來了,主處理器跟功能單一的副處理器相比差在哪里?”
畢竟,如果想在智能手機(jī)或者AR頭顯中加入AI技術(shù),就要考慮到電力。NVIDIA的Volta架構(gòu)處理器處理AI很強(qiáng)悍,但是要消耗300w,是沒辦法應(yīng)用在智能手機(jī)上的。
自動(dòng)駕駛工業(yè)叉車技術(shù)的里程碑,機(jī)器人解決方案供應(yīng)商Seegrid公司的科技進(jìn)步主任Sean Stetson認(rèn)為,目前的AI和ML技術(shù)都不適合通用處理器。他表示:“要想運(yùn)行任何算法,不管是機(jī)器學(xué)習(xí)還是圖像處理、圖形處理,都有專門的工作流程。如果沒有為不同的工作流程設(shè)置專門的計(jì)算核心,就會(huì)出現(xiàn)多余的數(shù)據(jù)和傳輸。在最沒有效率地傳輸數(shù)據(jù)時(shí),就會(huì)產(chǎn)生許多多余信息和瞬態(tài)功率,因?yàn)樘幚砥鞯男视擅宽?xiàng)指令使用的電力來測(cè)量。”
當(dāng)然,新AI芯片的出現(xiàn)并不只是因?yàn)槭袌?chǎng)對(duì)專門芯片和能源效率有需求。IBM Power系統(tǒng)開發(fā)部門的副總裁之一Brad McCredie認(rèn)為大家都想上這波AI芯片的車還有一個(gè)原因是因?yàn)楠?jiǎng)勵(lì)真的很豐厚。他說:“這是IT行業(yè)在數(shù)十年來第一次看到發(fā)展,而且還是呈指數(shù)增長(zhǎng)的趨勢(shì)。出現(xiàn)變化是因?yàn)樾碌馁Y金將進(jìn)入IT行業(yè),用于AI的開發(fā),就這樣風(fēng)投資金流入了IT行業(yè)。毫無疑問,大家看到的是一場(chǎng)淘金熱。”
全新的生態(tài)環(huán)境
開發(fā)專門用于AI的芯片帶來的不只是科技發(fā)展,隨之而來的還有考慮到AI和ML處理相似性的全新量產(chǎn)方式。如果開發(fā)了一款A(yù)I協(xié)處理器,卻用在過時(shí)的PC設(shè)備,或服務(wù)器中,就好像是將法拉利引擎浪費(fèi)在大眾的甲殼蟲車中了。
英特爾AI產(chǎn)品項(xiàng)目組的副總裁兼首席技術(shù)官以及Nervana公司的聯(lián)合創(chuàng)始人Amir Khosrowshahi表示:“人們說的AI和AI芯片,說的是圍繞著許多非AI科技研發(fā)的AI解決方案,其中涉及了CPU、內(nèi)存、SSD和互聯(lián),這些對(duì)一個(gè)可行的AI解決方案來說缺一不可。”
舉個(gè)例子,IBM在2017年底推出Power 9處理器來應(yīng)對(duì)處理重要任務(wù)的系統(tǒng)時(shí),將NVIDIA的高速NVLink技術(shù)應(yīng)用在了核心互聯(lián)、第四代PCIe和IBM自己的名為OpenCAPI的接口(開放式一致性加速器處理接口)上。OpenCAPI是一款為內(nèi)存、加速器、網(wǎng)絡(luò)、存儲(chǔ)器和其他芯片提供高寬帶,低延遲的接口。
McCredie表示,在x86架構(gòu)的生態(tài)環(huán)境有點(diǎn)落后了。他指出,第三代PCIe已經(jīng)上市7年卻遲遲未推出重大更新(直到2017下半年才推出下一代),IBM是第一批應(yīng)用三代PCIe的公司,他們的x86服務(wù)器現(xiàn)在還在搭載三代PCIe,跟第四代相比帶寬縮減了一半。
McCredie補(bǔ)充道:“隨著計(jì)算能力的大幅增長(zhǎng),計(jì)算容量也應(yīng)該大幅增加,我們需要更全能的處理器。處理器達(dá)到了存儲(chǔ)帶寬和I/O帶寬,解決了限制系統(tǒng)性能的首要問題。”
他繼續(xù)說道:“未來的加速器也會(huì)越來越強(qiáng)大,因?yàn)楣ぷ髁考哟缶蜁?huì)需要更厲害的加速器。我們甚至還打算為數(shù)據(jù)庫(kù)和ERP(企業(yè)資源規(guī)劃)等常見的工作負(fù)荷加速。我認(rèn)為現(xiàn)在芯片行業(yè)呈現(xiàn)出一個(gè)穩(wěn)定的趨勢(shì),就是重點(diǎn)越來越趨向于加速,市面上也出現(xiàn)了更多的加速器。”
流動(dòng)資產(chǎn)分析科技公司OTAS的CEO Tom Doris爭(zhēng)辯到:“不過單靠硬件是無法完成機(jī)器學(xué)習(xí)的,機(jī)器學(xué)習(xí)的主要部分還是在于軟件。大家爭(zhēng)先恐后開發(fā)新款芯片時(shí),卻很少提到與芯片搭配的軟件,那是因?yàn)檫@樣的軟件大部分已經(jīng)面世了,正等待芯片追上它們的腳步。”
他繼續(xù)說道:“如果參考更久遠(yuǎn)的歷史,科技發(fā)展都由硬件科技推動(dòng)的,算法的變化并不大。我離開這行業(yè)并沒有多久,當(dāng)我回來發(fā)現(xiàn)這一現(xiàn)象也覺得很吃驚。算法與軟件從90年代晚期就沒怎么變過,關(guān)鍵還是看計(jì)算能力。”
據(jù)悉,彭博社首席技術(shù)官辦公室的數(shù)據(jù)科學(xué)家David Rosenberg,也認(rèn)為現(xiàn)在的軟件已經(jīng)足夠用。他表示:“有些領(lǐng)域的軟件因?yàn)榉植际接?jì)算和分布式神經(jīng)計(jì)算的原理需要進(jìn)一步開發(fā),但是我們已經(jīng)在軟件開發(fā)上很有經(jīng)驗(yàn),所以不需要擔(dān)心,目前重要的是硬件能否快速有效地執(zhí)行這些軟件。”
前斯坦福大學(xué)教授Ian Buck,開發(fā)了CUDA平臺(tái)(使用平臺(tái)的開發(fā)者可以編寫使用NVIDIA自己的GPU來進(jìn)行并行處理)的前身,他解釋到,實(shí)際上,通過現(xiàn)在的用例可以看出,硬件與軟件正在齊頭并進(jìn)地發(fā)展,目標(biāo)是支持AI芯片和用例這股新浪潮。在我們NVIDIA,軟件與硬件團(tuán)隊(duì)規(guī)模大致差不多。據(jù)悉,Buck現(xiàn)在是NVIDIA的AI部門主任。
Buck說道:“我們利用系統(tǒng)軟件、庫(kù)、AI框架和編譯程式共同開發(fā)了新的構(gòu)架,只為了利用日益更新的技術(shù)和神經(jīng)網(wǎng)絡(luò)。在AI行業(yè)唯一能成功的辦法不只是開發(fā)優(yōu)秀的芯片,還有將所有的軟件緊密結(jié)合在一起,使用并優(yōu)化不斷推陳出新網(wǎng)絡(luò)。”
對(duì)Buck來說,AI代表一種新式計(jì)算方法的原因之一是他認(rèn)為AI用新的辦法將硬件與軟件結(jié)合在一起。他說:“我們不用考慮向后兼容性,我們只是在改造一種能夠勝任工作的處理器,這種處理器還需要能配合軟件的運(yùn)行。”
競(jìng)爭(zhēng)的終點(diǎn)
雖然今天有很多看似有潛力的AI芯片開發(fā)商,然而現(xiàn)階段面臨的問題就是之一就是他們有多少能流入市場(chǎng)銷售,而不是僅提供給供應(yīng)商,甚至項(xiàng)目被取消。也就是說,今天大多數(shù)AI芯片項(xiàng)目仍然存在較大的不確定性。
對(duì)于許多沒有CPU制造經(jīng)驗(yàn)的設(shè)計(jì)AI芯片制造商,例如谷歌、Facebook、微軟,這些公司似乎都在開發(fā)定制的AI芯片用于自家項(xiàng)目上,很可能永遠(yuǎn)都不會(huì)推向市場(chǎng)。這些公司憑借著強(qiáng)大的資金實(shí)力,可以投入多大數(shù)十億美元的研發(fā)資金,而且沒有要求立刻或有明顯的投資收益。
因此,用戶可能會(huì)依賴谷歌的Tensor計(jì)算單元作為Google Cloud服務(wù),且是特色之一,而不會(huì)直接銷售這些芯片。不難猜測(cè),F(xiàn)acebook和微軟也很可能采用這種研發(fā)運(yùn)營(yíng)模式。
Nvidia自動(dòng)駕駛平臺(tái)Drive PX Pegasus
而更多的芯片將會(huì)流入市場(chǎng),例如NVIDIA最近宣布推出三款A(yù)I芯片:專為智能機(jī)器人設(shè)計(jì)的Jetson Xavier片上系統(tǒng)、專為自動(dòng)駕駛出租車以及深度學(xué)習(xí)設(shè)計(jì)的Pegasus、專為半自動(dòng)駕駛汽車設(shè)計(jì)的Xavier。然而,所有的這些芯片都是基于NVIDIA自家的模擬的環(huán)境:Isaac Sim,開發(fā)人員可以通過它來訓(xùn)練機(jī)器人并使用Jetson Xavier進(jìn)行測(cè)試。
Intel收購(gòu)而來的專注于AI的Nervana神經(jīng)網(wǎng)絡(luò)處理器
與此同時(shí),Intel也承諾其首款基于深度學(xué)習(xí)處理器(基于2016年收購(gòu)的Nervana公司)將于2019年面世,代號(hào)為Spring Crest。此外,Intel還擁有一款Nervana芯片,代號(hào)是Lake Crest。Intel表示,Spring Crest的性能將達(dá)到Lake Crest的3-4倍。
那么問題來了,所有的AI芯片都能走向成功嗎?
Movidius部門的Brown講到:“我認(rèn)為未來AI領(lǐng)域?qū)?huì)出現(xiàn)演變,例如如果你想在數(shù)據(jù)中心中加入AI芯片,那么你就需要一個(gè)數(shù)據(jù)中心芯片,而如果你想在一個(gè)VR頭顯,那么你會(huì)找到另外的芯片。因此,未來可能會(huì)產(chǎn)生更多的專用領(lǐng)域的芯片,甚至有可能集成到CPU內(nèi)部,AI芯片也存在多樣性。”
AI芯片的發(fā)展在某些方面確實(shí)和CPU早期的演進(jìn)過程很相似,未來也會(huì)誕生一批有優(yōu)勢(shì)的產(chǎn)品,甚至行業(yè)領(lǐng)導(dǎo)者的優(yōu)勢(shì)的AI芯片將支持多種用途。想想30年前,80386是當(dāng)時(shí)數(shù)一數(shù)二的桌面級(jí)處理器,如果需要在LOTUS 1-2-3(一種電子表格)進(jìn)行大量數(shù)據(jù)運(yùn)算,那么可能還需要一臺(tái)80837的數(shù)字協(xié)處理器。之后則是80486,Intel又將數(shù)字學(xué)處理器集成到CPU中,慢慢的CPU加入了越來越多的擴(kuò)展功能,例如內(nèi)存控制器、GPU等等。
OTAS公司的Doris指出,許多沒有流入市場(chǎng)的AI芯片雖然受到內(nèi)部高級(jí)技術(shù)研發(fā)人員的高度喜愛,但變革往往受到行業(yè)標(biāo)準(zhǔn)的牽制。Intersect360公司的Snell表示,很多AI芯片領(lǐng)域的初創(chuàng)公司都在所見隊(duì)伍規(guī)模,這也意味著未來的競(jìng)爭(zhēng)將更加激烈。因此,這些公司中更寄希望于開發(fā)出一個(gè)功能強(qiáng)大的基礎(chǔ)型芯片,以此來奪取夯實(shí)市場(chǎng)。
IBM公司的McCredie表示,我雖然同意AI芯片的研發(fā)是一個(gè)艱苦的過程,但賽道將越來越窄,意味著有一天AI芯片領(lǐng)域依舊會(huì)向傳統(tǒng)芯片一樣,廣闊的X86架構(gòu)、NVIDIA的GPU、ARM的生態(tài)世界。但就目前而言,這場(chǎng)AI芯片的競(jìng)賽已經(jīng)脫離了起跑線,并且競(jìng)賽選手依然持續(xù)跑下去。