編者按:本文為”新智元“(ID:AI_era)對(duì)Nervana Systems CEO的專訪,作者聞菲,36氪經(jīng)授權(quán)發(fā)布。
根據(jù)MarketsandMarkets最新市場研究報(bào)告,預(yù)計(jì)到2022年,全球深度學(xué)習(xí)市場的價(jià)值將達(dá)到172.29億美元,在2016年和2022年之間以65.3%的年復(fù)合增長率增長。其中,由于對(duì)運(yùn)行深度學(xué)習(xí)算法高計(jì)算能力的硬件平臺(tái)需求的增長,在2016年至2022年之間深度學(xué)習(xí)硬件市場預(yù)計(jì)將以最高速度增長。大公司和初創(chuàng)企業(yè)之間的競爭將日益激烈,導(dǎo)致大量新產(chǎn)品的研發(fā),包括運(yùn)行深度學(xué)習(xí)算法和程序硬件和軟件平臺(tái)。其中,值得關(guān)注的公司包括谷歌、微軟、英特爾、高通和IBM。
Naveen Rao,這位從高通神經(jīng)網(wǎng)絡(luò)項(xiàng)目部門出走,創(chuàng)建了今年以超過4億美元被英特爾收購的深度學(xué)習(xí)芯片研發(fā)公司 Nervana Systems 并兼任其CEO,現(xiàn)在變身為英特爾數(shù)據(jù)中心事業(yè)部副總裁、AI解決方案部門總經(jīng)理的傳奇人物,昨天接受新智元專訪,闡述了英特爾將如何在AI芯片硝煙彌漫的戰(zhàn)場上,與以往的常勝將軍英偉達(dá)一爭雌雄。英特爾這頭曾稱霸PC時(shí)代的獅子王是否已經(jīng)在人工智能時(shí)代原力驚醒?深度學(xué)習(xí)芯片市場如果被英特爾的Nervana架構(gòu)重新定義,那么不僅GPU會(huì)受到威脅,整個(gè)AI產(chǎn)業(yè)的軟硬件生態(tài)可能也會(huì)被重構(gòu)。但激烈的競爭也意味著AI芯片群雄逐鹿的時(shí)代將有精彩對(duì)決不斷上演,CPU與GPU對(duì)AI芯片主導(dǎo)權(quán)的爭霸賽才剛啟幕。
新智元編輯聞菲(右)專訪英特爾數(shù)據(jù)中心事業(yè)部副總裁、人工智能解決方案部門總經(jīng)理、Nervana Systems 聯(lián)合創(chuàng)始人兼CEO Naveen Rao。
在英偉達(dá)GPU已在深度學(xué)習(xí)市場的賽道上領(lǐng)先幾圈,英偉達(dá)股價(jià)連翻暴漲的2016年末,剛剛才宣布人工智能戰(zhàn)略,2017年初才會(huì)推出深度學(xué)習(xí)芯片的英特爾現(xiàn)在沖刺還來得及嗎?
聽到這個(gè)問題,Raveen Rao 停了一秒,然后笑著說:“那正是英特爾收購Nervana的原因。”
作為2014年成立的深度學(xué)習(xí)公司 Nervana Systems 聯(lián)合創(chuàng)始人兼CEO,Raveen Rao此前在高通任職,負(fù)責(zé)神經(jīng)網(wǎng)絡(luò)項(xiàng)目研發(fā)。在兩年多的時(shí)間里,Rao 帶領(lǐng)一個(gè)48人的團(tuán)隊(duì),開發(fā)了目前速度最快的開源學(xué)習(xí)深度平臺(tái)Neon(現(xiàn)在成為英特爾Nervana 深度學(xué)習(xí)平臺(tái)Nervana graph的基礎(chǔ)),并且原計(jì)劃在 2016 年年底推出一款名為Nervana Engine的芯片,號(hào)稱加速深度學(xué)習(xí)比英偉達(dá)最強(qiáng)GPU快十倍。
今年 8 月,Nervana Systems 以4.08 億美元被英特爾收購,引發(fā)業(yè)界轟動(dòng)。百度首席科學(xué)家吳恩達(dá)當(dāng)時(shí)在Twitter發(fā)消息稱,英特爾這是要在深度學(xué)習(xí)上跟英偉達(dá)開戰(zhàn)了!
吳恩達(dá)是業(yè)界第一個(gè)將GPU用于深度學(xué)習(xí)的人,那時(shí)候吳恩達(dá)還供職于谷歌大腦,從事現(xiàn)在圈內(nèi)已經(jīng)幾乎無人不知的“讓計(jì)算機(jī)識(shí)別貓臉”的任務(wù)。由此,GPU加速深度學(xué)習(xí)的特性才被發(fā)掘出來,并在業(yè)界迅速傳開。
正因此,英偉達(dá)CEO黃仁勛將第一臺(tái)英偉達(dá)深度學(xué)習(xí)處理器Titan X親手贈(zèng)與了吳恩達(dá)。
GPU不是為深度學(xué)習(xí)而生,英特爾深度學(xué)習(xí)芯片比它快10倍
但是,在現(xiàn)已成為英特爾人工智能解決方案部門總經(jīng)理的 Raveen Rao 看來,GPU并非專門為了深度學(xué)習(xí)而研發(fā)。他在接受新智元采訪時(shí)表示,GPU最開始只是為了在CPU的基礎(chǔ)上進(jìn)一步優(yōu)化圖像處理才被研發(fā)出來,后來恰好被發(fā)現(xiàn)適合用于深度學(xué)習(xí)才得到廣泛使用,而且其原因僅僅是目前市面上還沒有更好的選擇。這或許也是 Rao 對(duì)于英偉達(dá)GPU當(dāng)前的市場份額和發(fā)展勢頭顯得不怎么擔(dān)心的原因。
Rao認(rèn)為,英偉達(dá)CEO黃仁勛的說法——讓GPU專為深度學(xué)習(xí)加速——實(shí)際上是矛盾的。
Rao表示,英特爾預(yù)計(jì)于2017年Q1推出的深度學(xué)習(xí)芯片,才是真正針對(duì)加速深度學(xué)習(xí)而研發(fā)。根據(jù)Rao在Nervana Systems官方博客上的文章,Nervana Engine,也即英特爾首款深度學(xué)習(xí)芯片的原型,借鑒神經(jīng)科學(xué)原理,從基礎(chǔ)架構(gòu)設(shè)計(jì)上開始就沒有進(jìn)行任何妥協(xié),從而實(shí)現(xiàn)了加速深度學(xué)習(xí)性能上的大幅提升。
不僅如此,“Nervana 還是創(chuàng)業(yè)公司的時(shí)候,我們就針對(duì)GPU做了深度學(xué)習(xí)方面的優(yōu)化。”Rao對(duì)新智元說。“針對(duì)英偉達(dá)硬件的優(yōu)化代碼,實(shí)際上比他們自己做得都好。”
在以語音識(shí)別、圖像識(shí)別和分類以及機(jī)器翻譯等應(yīng)用步入產(chǎn)業(yè)化乃至商用的當(dāng)下,以深度學(xué)習(xí)為代表的人工智能技術(shù)可謂“火熱到不能被忽視”。作為后來者,在PC時(shí)代雄霸天下的CPU巨頭英特爾能否、或者說將如何與已經(jīng)在深度學(xué)習(xí)市場深得人心的英偉達(dá)一拼高下?新智元在英特爾于北京舉辦的AI Day開幕之前,對(duì)英特爾人工智能部門關(guān)鍵人物、英特爾數(shù)據(jù)中心事業(yè)部副總裁、人工智能解決方案部門總經(jīng)理 Raveen Rao 進(jìn)行了專訪。
新智元:結(jié)合了Nervana的技術(shù)以后,英特爾的CPU會(huì)發(fā)生什么改變?
Rao:首先,[英特爾的 CPU 將]更加注重人工智能,加快工作量(workload)。這意味著[英特爾]將有專注于人工智能的產(chǎn)品,而其功能特性也將逐漸地拓展到英特爾所有其他不同的產(chǎn)品線上。此外,這也是一個(gè)關(guān)注焦點(diǎn)的轉(zhuǎn)變——moving up to the stack,從只是銷售硬件產(chǎn)品到銷售更高層的原語(primitives),我們?cè)谒挟a(chǎn)品線上都有統(tǒng)一的人工智能軟件戰(zhàn)略。
新智元:那具體英特爾的CPU將發(fā)生什么改變?
Rao:英特爾CPU不會(huì)立即發(fā)生改變。英特爾CPU是通用處理器,可以處理許多不同的工作(workloads),但它并沒有專門針對(duì)AI進(jìn)行優(yōu)化。不過,我們會(huì)從AI產(chǎn)品線,也即Nervana 產(chǎn)品線中吸取警告(taking warnings),在英特爾其他所有產(chǎn)品線中增加功能,使它們針對(duì)AI進(jìn)行更多的優(yōu)化
新智元:那我們最終能看到一款類似CPU升級(jí)版的芯片嗎?
Rao:Xeon產(chǎn)品線仍將繼續(xù)存在,這是目前數(shù)據(jù)中心的標(biāo)配,這個(gè)是不會(huì)消失的。不過,我們也會(huì)新推出一條更加專注AI的產(chǎn)品線,將主處理器與Nervana技術(shù)緊密結(jié)合在一起。因此,我預(yù)期屆時(shí)英特爾將有兩條不同的產(chǎn)品線。原因是像作為網(wǎng)站服務(wù)器等常規(guī)工作,以及進(jìn)行不同類型的計(jì)算,Nervana的技術(shù)并不做,但Xeon處理器在處理這些常規(guī)工作時(shí)表現(xiàn)十分優(yōu)異,而這些工作是不會(huì)消失的。
新智元:英特爾預(yù)計(jì)在2017年Q1預(yù)計(jì)推出的深度學(xué)習(xí)芯片,它的主要應(yīng)用場景是哪些?
Rao:主要是加速深度學(xué)習(xí),而深度學(xué)習(xí)實(shí)際上包含的原語(primitives)很少,大概就 20 個(gè)左右,其中有兩大基本原語,一個(gè)是矩陣乘積,另外一個(gè)卷積計(jì)算,這兩個(gè)是最耗時(shí)的。現(xiàn)在全球的趨勢是數(shù)據(jù)中心的工作越來越偏向深度學(xué)習(xí),我們就需要拿出針對(duì)深度學(xué)習(xí)進(jìn)行優(yōu)化的產(chǎn)品——但是,這并不意味著以前的那些工作需求就會(huì)消失。我們只是會(huì)把更多的周期用于研發(fā)深度學(xué)習(xí),打造滿足數(shù)據(jù)中心工作量需求的硬件。
新智元:跟英偉達(dá)的GPU相比,英特爾的深度學(xué)習(xí)芯片在處理語音、圖像、三維圖像等數(shù)據(jù)方面有什么區(qū)別?
Rao:英偉達(dá)的產(chǎn)品主要是針對(duì)圖像渲染的,這個(gè)跟深度學(xué)習(xí)有些類似,但實(shí)際上還是完全不同的。就目前來看,GPU是我們能夠加速深度學(xué)習(xí)最適合的產(chǎn)品了(the closest thing for deep learning),這也是我們使用GPU加速深度學(xué)習(xí)的原因。但是,如果關(guān)注深度學(xué)習(xí)本身,我們可以打造更加適合深度學(xué)習(xí)、針對(duì)深度學(xué)習(xí)進(jìn)行更好優(yōu)化的產(chǎn)品。從架構(gòu)上看,英特爾的深度學(xué)習(xí)芯片比GPU加速深度學(xué)習(xí)的速度要快十倍。在講到計(jì)算力的時(shí)候,我們比較的基本單元是乘積累加(MAC)運(yùn)算次數(shù),也就是每秒鐘可以進(jìn)行的MAC次數(shù)。英偉達(dá)最新的GPU采用17納米工藝,能提供9到10 TP;我們用28納米的芯片,可以達(dá)到超過50 TP的級(jí)別。
新智元:根據(jù)新聞稿,英特爾的這款深度學(xué)習(xí)芯片將來還預(yù)計(jì)縮小到16納米,到時(shí)候這個(gè)速度還會(huì)提升嗎?
Rao:[Nervana]愿意加入英特爾的原因之一,就是英特爾擁有很強(qiáng)的半導(dǎo)體工藝,英特爾擁有世界最高密度(highest density)、最低能耗(lowest power)的工藝,再結(jié)合Nervana的架構(gòu),我們將實(shí)現(xiàn)其他人無法做到的事情。
Naveen Rao 獨(dú)門利器 flexpoint,甚至不需要緩存
新智元:現(xiàn)在深度學(xué)習(xí)要處理的數(shù)據(jù)越來越多、越來越復(fù)雜,英特爾的深度學(xué)習(xí)芯片在不同場景加速的時(shí)候與英偉達(dá)的GPU有什么樣的區(qū)別?
Rao:實(shí)際上,不同類型的數(shù)據(jù)神經(jīng)網(wǎng)絡(luò)架構(gòu)是類似的,你幾乎可以不用去考慮數(shù)據(jù)類型。我們之所以能比GPU做得更好,是因?yàn)槟忝娣e有限(fixed area),上面晶體管的數(shù)量是固定的,于是問題的根本就成了你能夠如何利用這些晶體管進(jìn)行不同類型的計(jì)算。我們發(fā)明了一種新的指標(biāo)(metrics),叫做“flexpoint”,介于浮點(diǎn)運(yùn)算和定點(diǎn)運(yùn)算之間。(注:此前接受 The Next Platform 記者采訪時(shí),Rao 表示 flexpoint 利用了神經(jīng)網(wǎng)絡(luò)的特點(diǎn),不需要進(jìn)行完整的浮點(diǎn)運(yùn)算,這是一個(gè)基于張量的架構(gòu),不適合進(jìn)行普通的乘法,但卻能配合普通浮點(diǎn)運(yùn)算芯片,讓電路搭建得非常密集。)在架構(gòu)上,[英特爾Nervana深度學(xué)習(xí)芯片]也與GPU和其他傳統(tǒng)芯片不同,是沒有緩存的。此外,它的可擴(kuò)展性非常強(qiáng),總帶寬(Aggregated IO)很多,速度每秒能夠達(dá)到2.4TB。簡單說,這樣不會(huì)浪費(fèi)資源去做與深度學(xué)習(xí)無關(guān)的計(jì)算,也不會(huì)去處理圖像數(shù)據(jù)。
新智元:此前新智元采訪英偉達(dá)CEO黃仁勛,他提到GPU能夠處理語音、圖像、視頻等多種類型的數(shù)據(jù),他把這個(gè)作為一項(xiàng)優(yōu)勢。從剛才的談話當(dāng)中,可以認(rèn)為能夠處理多種類型的數(shù)據(jù)實(shí)際上并不是一項(xiàng)優(yōu)勢,是嗎?
Rao:是的,我認(rèn)為可以這樣說。英特爾有非常完備的產(chǎn)品組合,我們可以有針對(duì)深度學(xué)習(xí)做優(yōu)化的產(chǎn)品,也有 Xeon Phi 這樣適用于通用一些功能的產(chǎn)品,還有更加通用的比如 Xeon處理器。我們獨(dú)特的優(yōu)勢在于,比起GPU這種單一的架構(gòu),我們能更加精準(zhǔn)地滿足客戶的不同需求。奇怪的是,這正是英偉達(dá)成立之初采取的策略,他們基本上就是在 CPU 的基礎(chǔ)上搭建了一種更加適合處理圖像的架構(gòu)——當(dāng)時(shí) CPU 也能處理圖像數(shù)據(jù),英偉達(dá)針對(duì)圖像進(jìn)行優(yōu)化推出了 GPU。因此,可以說英偉達(dá)現(xiàn)在嘴上說的跟他們實(shí)際做的正好相反(笑)。
新智元:能再具體談一下Flexpoint嗎?
Rao:當(dāng)你把矩陣乘以矩陣時(shí),行和列相乘,就得到乘積累加。每做這樣一次運(yùn)算,如果以浮點(diǎn)計(jì)算的方式進(jìn)行,會(huì)產(chǎn)品很多系統(tǒng)開銷(overhead)。每個(gè)定標(biāo)器(scaler)都有一個(gè)指數(shù)(exponent)。因此,if you making the exponent for each scaler,你就不得不把數(shù)據(jù)移來移去——那就導(dǎo)致了 overhead。此外,每次乘法、加法運(yùn)算都必須進(jìn)行正則化和擴(kuò)展(scaling)。我們采取的方法是,每次乘法和加法都以定點(diǎn)運(yùn)算的方式進(jìn)行,整個(gè)矩陣只保留一個(gè)指數(shù),在最后才進(jìn)行擴(kuò)展。由此,我們每次運(yùn)算所資源的占用更少,功耗也更低。
新智元:英偉達(dá)的GPU能兼容所有的深度學(xué)習(xí)框架。英特爾預(yù)計(jì)推出的深度學(xué)習(xí)產(chǎn)品將用什么方式、在什么時(shí)候?qū)崿F(xiàn)到這一點(diǎn)呢?
Rao:我們的方法就是Nervana Graph。我們的構(gòu)想簡單說就是,如果有N個(gè)硬件平臺(tái),有X個(gè)框架,要將每個(gè)都進(jìn)行優(yōu)化匹配,就需要進(jìn)行N×X次優(yōu)化。我們所做的 Nervana graph 相當(dāng)于一個(gè)中間的媒介,可以將所有的框架先轉(zhuǎn)換成Nervana graph,然后從graph這個(gè)層面對(duì)每個(gè)硬件平臺(tái)做優(yōu)化,這樣只需要N+X次優(yōu)化就行了。至于時(shí)間,我們兩周前才推出了Nervana graph,而且是 technical preview 版,在Github上開源。我們現(xiàn)在開始會(huì)逐漸轉(zhuǎn)換其他的框架,首先是 TensorFlow,明年夏天,大約在6月份時(shí)預(yù)計(jì)推出第一版。我們也選擇了其他一些平臺(tái),比如Torch、CNTK、MXNet,這些也是我們后續(xù)會(huì)轉(zhuǎn)換的對(duì)象。
新智元:是否可以這樣理解——GPU雖然可以兼容所有平臺(tái),但是會(huì)為了每個(gè)框架都會(huì)做優(yōu)化,也就是N×X,而Ngraph的優(yōu)勢在于簡化了這個(gè)過程,因此比GPU更加高效?
Rao:可以這樣理解。或許你已經(jīng)知道了,我們就連針對(duì)GPU也有最優(yōu)化的代碼。Nervana 還是初創(chuàng)公司的時(shí)候,我們針對(duì)英偉達(dá)硬件的優(yōu)化代碼,實(shí)際上比他們自己做得都好,我們也將繼續(xù)支持相應(yīng)的工作。
新智元:現(xiàn)在TensorFlow已經(jīng)成為Github上最受歡迎的開源深度學(xué)習(xí)項(xiàng)目,在這種情況下,英特爾計(jì)劃如何吸引AI開發(fā)者,讓他們使用Ngraph?
Rao:Ngraph實(shí)際上比TensorFlow要低一級(jí)(one level below)。TensorFlow有前端,也有TensorFlow graph,實(shí)際上與 Ngraph一樣,我們之所以認(rèn)為通過設(shè)定標(biāo)準(zhǔn),讓Ngraph能夠吸引開發(fā)者,是因?yàn)槲覀兪强梢灾С趾芏嗖煌挠布脚_(tái),比如Xeon、Xeon Phi、FPGA,還有GPU。對(duì)于開發(fā)者來說他們有更多的選擇,可以使用任何框架寫程序,包括TensorFlow、Neon、CNCK,然后再通過Ngraph在他們自己不同的硬件平臺(tái)上運(yùn)行。
新智元:這確實(shí)能夠吸引更廣泛的用戶。那么針對(duì)現(xiàn)在已經(jīng)使用TensorFlow的用戶,英特爾打算如何讓他們轉(zhuǎn)移到Ngraph上來呢?
Rao:對(duì)于目前正在使用TensorFlow的這批開發(fā)者,我們要贏得他們,還是要從硬件層面出發(fā),只要我們能夠提供足夠好的理由——開發(fā)者并不需要改變前端代碼,他們可以繼續(xù)使用TensorFlow,elaborate、compile down to TensorFlow graph,將TensorFlow graph轉(zhuǎn)換為Ngraph,然后就可以使用英特爾的硬件平臺(tái)了——這是個(gè)很有吸引力的理由,因?yàn)橛脩粲辛撕芏嗟倪x擇,他們可以同時(shí)享有最高的性能和通用的計(jì)算。
新智元:你如何評(píng)價(jià)TensorFlow、CNCK、Torch、Mxnet這些分別有大公司在背后支撐的開源深度學(xué)習(xí)平臺(tái)?
Rao:你剛才所提到的這幾個(gè)平臺(tái)架構(gòu)都是十分類似的,都有前端,語言要么是Python,要么是Luna,然后再將其轉(zhuǎn)換為中間過渡的graph表征。為這些graph表征建立一個(gè)標(biāo)準(zhǔn),我們實(shí)際上為開發(fā)者提供了便利,他們可以繼續(xù)使用當(dāng)前使用的框架,同時(shí)還能接入很多不同的硬件平臺(tái)。英特爾的框架是Neon,因此英特爾一旦推出新的硬件產(chǎn)品,Neon將會(huì)提供相應(yīng)最優(yōu)化的stack。這之后,我們當(dāng)然也會(huì)針對(duì)其他開源深度學(xué)習(xí)平臺(tái)做優(yōu)化——但是,Neon將會(huì)是最新最先的。
英特爾近未來AI戰(zhàn)略布局:CPU或重登王座,一統(tǒng)AI芯片江湖
新智元:英特爾現(xiàn)在已經(jīng)錯(cuò)失了深度學(xué)習(xí)市場先機(jī)了,英偉達(dá)GPU大量進(jìn)入了語音及圖像識(shí)別、數(shù)據(jù)中心、無人駕駛汽車等多種應(yīng)用場景,對(duì)此英特爾將如何推廣自己的產(chǎn)品?
Rao:這正是英特爾收購Nervana 的原因(笑)。我們擁有針對(duì)GPU最快的軟件堆棧(software stack),而且我們正在開發(fā)比GPU更先進(jìn)的硬件。因此,英特爾雖然眼下沒有[加速深度學(xué)習(xí)]最快的硬件,但未來我們就會(huì)有了,最快的話只需要一年。
新智元:英特爾未來三到五年的人工智能戰(zhàn)略布局是怎么樣的?
Rao:英特爾Nervana平臺(tái)會(huì)持續(xù)演進(jìn),深度學(xué)習(xí)芯片也將融入英特爾硅芯片生產(chǎn)制造的過程(silicon process),由此會(huì)帶來性能的大幅提升。此外,Nervana的芯片技術(shù)還將與英特爾的主處理器融合,這在系統(tǒng)層面是非常領(lǐng)先的——讓數(shù)據(jù)進(jìn)入系統(tǒng),然后在系統(tǒng)上對(duì)這些數(shù)據(jù)進(jìn)行運(yùn)算,實(shí)際上是現(xiàn)在的難點(diǎn)(hard part)——兩者的融合將帶來非常有吸引力的(compelling)解決方案。此外,英特爾占據(jù)了獨(dú)特的市場地位,我們不僅擁有數(shù)據(jù)中心,還有進(jìn)軍最先進(jìn)的領(lǐng)域(the edge)——我們未來準(zhǔn)備收購Movidius這家公司,他們的視覺芯片功耗非常低。此外,英特爾在5G技術(shù)方面也有大量投資。所以從端到端,數(shù)據(jù)中心、網(wǎng)絡(luò)到 Edge,我們具有獨(dú)一無二的市場位置。
新智元:英特爾在無人駕駛汽車芯片這一塊是怎樣布局的呢?
Rao:無人駕駛是英特爾下重金重點(diǎn)投入的一個(gè)領(lǐng)域,我們?cè)谶@方面已經(jīng)和寶馬等公司達(dá)成合作。兩周之前,我們的CEO還講到我們?cè)跓o人駕駛方面進(jìn)行了大筆的投資。因此,從Edge到網(wǎng)絡(luò),包括到數(shù)據(jù)中心,整個(gè)stack都有覆蓋。
新智元:英特爾收購了Nervana Systems,剛才也提到收購 Movidius,接下來還將繼續(xù)收購人工智能初創(chuàng)公司嗎?
Rao:對(duì)此我無可奉告。
新智元:英特爾的Nervana平臺(tái)號(hào)稱“業(yè)界最全的AI產(chǎn)品組合”,英特爾Nervana平臺(tái)本身在英特爾所有產(chǎn)品組合中占有的份額是多少?
Rao:關(guān)于人工智能產(chǎn)品市場推廣,我們實(shí)際上有幾種方式,還沒有全面對(duì)外透露,我們現(xiàn)在還在考慮各種各樣的可能性。英特爾的人工智能技術(shù)是芯片、軟件堆棧,還有云(注釋:指 Nervana Cloud)。我們會(huì)針對(duì)不同的消費(fèi)者,使用不同的方法滿足他們的需求,比如說對(duì)于規(guī)模比較大的用戶來說,可以使用相對(duì)底層的方案,比如直接使用芯片;企業(yè)級(jí)用戶則可以使用云,或者使用我們以后可能推出的產(chǎn)品。英特爾有一個(gè)具體針對(duì)AI的方案,Nervana 的AI只針對(duì)深度學(xué)習(xí);至強(qiáng)融核針對(duì)高性能計(jì)算,也針對(duì)一部分AI;此外Xeon本身就是通用計(jì)算,所以很難統(tǒng)計(jì)。現(xiàn)在AI市場是比較新,很難說一個(gè)具體數(shù)字。
新智元:我們想知道英特爾的AI產(chǎn)品在英特爾公司內(nèi)部產(chǎn)品組合中占有的份額是多少?
Rao:這個(gè)數(shù)據(jù)我們沒有,無法提供。
新智元:剛才提到了針對(duì)不同的客戶有不同的需求,英特爾對(duì)于這方面具體是怎樣規(guī)劃的?
Rao:我們通過提供不同的產(chǎn)品組合來滿足不同消費(fèi)者的需求,我們是一種軟件策略適用于所有不同的硬件。因此,對(duì)于不知道他們工作量是什么的公司,我們會(huì)給他們提供 Xeon,因?yàn)?Xeon 是通用處理器。對(duì)于知道自己要進(jìn)行更多并行計(jì)算或者某些通用計(jì)算的公司,我們會(huì)提供Xeon Phi。對(duì)于那些十分明確自己需要進(jìn)行很多高速計(jì)算或深度學(xué)習(xí)的公司,就可以采用Nervana的解決方案。此外,還有FPGA,可以用于滿足低延遲推斷計(jì)算的需求。
新智元:現(xiàn)在英特爾集團(tuán)內(nèi)部的人工智能或者說深度學(xué)習(xí)組織架構(gòu)是什么樣的?
Rao:Nervana是一個(gè)業(yè)務(wù)單元,只要是所有跟深度學(xué)習(xí)、數(shù)據(jù)中心相關(guān)的軟硬件的業(yè)務(wù)都是由我們來負(fù)責(zé)的,Nervana相當(dāng)于是主導(dǎo)英特爾深度學(xué)習(xí)方面的業(yè)務(wù)單元。
新智元:那可以認(rèn)為Nervana就是負(fù)責(zé)英特爾人工智能產(chǎn)品的嗎?
Rao:不能說是針對(duì)所有人工智能,只能是數(shù)據(jù)中心相關(guān)的人工智能。
新智元:那其他的人工智能產(chǎn)品由誰負(fù)責(zé)?
Rao:英特爾AI組織架構(gòu)還可能會(huì)發(fā)生變化,包括剛才講到的 Movidius 也將很快被并購,Altera也有人工智能方面的項(xiàng)目,這些都獨(dú)立的業(yè)務(wù)部門。但是,這些不同的部門之間都有比較密切的溝通和聯(lián)系。
新智元:為什么Nervana沒有成為英特爾的首選,而是先使用了Altera的技術(shù)?
Rao:Altera的市場定位和Nervana是不太一樣的,Altera關(guān)注FPGA,F(xiàn)PGA可以用于推斷(inference),針對(duì) Edge 或者低延遲應(yīng)用,實(shí)際上那也將融入英特爾的AI軟件戰(zhàn)略。而Nervana則將在 Altera的基礎(chǔ)上工作,所以,這再次涉及我們端到端的戰(zhàn)略,對(duì)于Edge、低延遲推斷、數(shù)據(jù)中心訓(xùn)練,我們有Xeon Phi 和Nervana Engine。
新智元:全球AI芯片市場格局是什么樣的?中國研發(fā)的AI芯片在其中處于什么地位?
Rao:中國市場,我對(duì)SMIC了解比少,據(jù)我所知,SMIC應(yīng)該比現(xiàn)在的處理器落后了1到1.5代,因此我們一般不考慮SMIC,因?yàn)殡y以取得Silicon IP,過程也不太成熟。這也是為什么Nervana選擇TSMC。
至于全球AI芯片市場及技術(shù)趨勢,我認(rèn)為將出現(xiàn)越來越多新的架構(gòu),對(duì)于電腦架構(gòu)師來說這是非常令人激動(dòng)的一個(gè)時(shí)代,因?yàn)樵谙喈?dāng)長的一段時(shí)間內(nèi),計(jì)算機(jī)架構(gòu)其實(shí)沒有什么大的創(chuàng)新。現(xiàn)在[深度學(xué)習(xí)的出現(xiàn)],讓我們看到一個(gè)全新的使用場景,這是非常獨(dú)特也是非常重要的。我們可以看到,有很多不同的方法[加速深度學(xué)習(xí)],最開始是GPU,英特爾也在使用新的方法,無數(shù)的初創(chuàng)公司也在朝著這個(gè)方向走,世界上其他地方可能還有其他公司也在解決這個(gè)問題。所以我認(rèn)為這將推動(dòng)計(jì)算機(jī)走向一個(gè)全新的方向,從技術(shù)上說,這也讓我感到非常興奮。這方面會(huì)有很多新的架構(gòu)和應(yīng)用出來。
新智元:正好你提到了有很多不同的架構(gòu)和不同的團(tuán)隊(duì)正在涌現(xiàn),對(duì)于值得關(guān)注的智能芯片公司或團(tuán)隊(duì),能舉幾個(gè)例子嗎?
Rao:這個(gè)我無可奉告。
智能時(shí)代芯片展望:讓神經(jīng)科學(xué)給深度學(xué)習(xí)芯片更多靈感
新智元:有一種觀點(diǎn)認(rèn)為摩爾定律已經(jīng)走到盡頭了,對(duì)此你怎么看?英特爾的優(yōu)勢會(huì)隨之減弱或消失嗎?
Rao:對(duì)于硅芯片而言,創(chuàng)新管道(innovation pipelines)依然是在進(jìn)行的,或許速度是在減緩,但總的來說,還是有很多創(chuàng)新渠道(pathways),通往體積越來越小、能耗越來越低的設(shè)備。英特爾作為一家垂直一體化企業(yè),在市場上仍然占有獨(dú)一無二的位置,[我們的產(chǎn)品涵蓋]軟件、硬件架構(gòu),還有硅芯片的設(shè)計(jì)和制造的能力,因此打造新的計(jì)算機(jī)體系結(jié)構(gòu)方面還是具有很強(qiáng)優(yōu)勢的,比如我們可以利用電路設(shè)計(jì)和處理能力方面的優(yōu)勢,這對(duì)于無晶圓公司(fabless,注釋:指設(shè)計(jì)微處理器但將生產(chǎn)制造外包,自己沒有工廠的公司)是很難的。
新智元:專門加速深度學(xué)習(xí)的芯片或者說專用芯片會(huì)成為接下來的主流產(chǎn)品嗎?
Rao:這是由市場來決定的(笑)。
新智元:你是神經(jīng)科學(xué)家,在高通也是負(fù)責(zé)神經(jīng)網(wǎng)絡(luò)項(xiàng)目研發(fā),能具體談一談你認(rèn)為神經(jīng)科學(xué)在計(jì)算機(jī)體系結(jié)構(gòu)中發(fā)揮的作用嗎?
Rao:神經(jīng)科學(xué)帶來了靈感,讓我們可以從不同的角度、用不同的方式思考計(jì)算機(jī)體系結(jié)構(gòu)。在過去差不多50多年的時(shí)間里,計(jì)算機(jī)基本沒有什么變化,神經(jīng)科學(xué)給了我們[對(duì)計(jì)算的本質(zhì)]不同的思考方式。其中一個(gè)例子就是我們對(duì)Flexpoint的思考——在大腦的神經(jīng)元里,進(jìn)行著模擬計(jì)算,乘法實(shí)際上是低精度的,加法則是高精度的。我們?nèi)绾螌⑦@一特性轉(zhuǎn)移到芯片工程設(shè)計(jì)中呢?并不需要直接模仿,而是弄清楚你能在硅芯片上實(shí)現(xiàn)什么,然后如何利用這種關(guān)于計(jì)算的不同的思考方式。這也正是我們?cè)谟⑻貭朜ervana 深度學(xué)習(xí)芯片上所做的事情,這讓我們?cè)诠杌|(zhì)上實(shí)現(xiàn)了[計(jì)算]性能的提升。
新智元:你在Nervana的博客里面提到,因?yàn)槔昧松窠?jīng)科學(xué)的特性,在設(shè)計(jì) Nervana Engine的時(shí)候,從底層架構(gòu)上起就沒有做出任何妥協(xié)(compromise),而其他的芯片都因?yàn)楦鞣N原因作出了種種犧牲。能針對(duì)這一點(diǎn)具體談一下嗎?
Rao:舉個(gè)例子,我們沒有做的一個(gè)妥協(xié)就是緩存。有緩存實(shí)際上正是因?yàn)闆]有真正理解芯片上會(huì)進(jìn)行何種類型的計(jì)算。深度學(xué)習(xí)是不同的,你能夠清楚地知道數(shù)據(jù)從哪里來、到哪里去,因此不需要管理緩存。另一個(gè)例子是Flexpoint,我們不需要支持通用數(shù)字運(yùn)算——我們非常清楚神經(jīng)網(wǎng)絡(luò)數(shù)字運(yùn)算的范圍和行為特點(diǎn)。所以,我們沒有做出任何妥協(xié),制造出的就是我們最初想設(shè)計(jì)的芯片。