2018 英特爾人工智能大會(AIDC)14、15日在京舉行,英特爾全球副總裁兼人工智能產品事業部總經理 Naveen Rao 時隔兩年,再次接受新智元的采訪。
盡管外界對英特爾10 納米芯片“難產” 和英特爾 Nervana 神經網絡處理器 NNP 發布時間一再延遲充滿了“焦灼的期待”,但與兩年前相比——那時候 Naveen剛加盟英特爾不久,他告訴新智元英特爾預計在 2017 年第一季度推出一款深度學習芯片——Naveen 顯得更加從容。
當被問及“是否覺得在 2019 年底才推出 AI 芯片有些晚”時,他反而笑著問道:“為什么會覺得晚呢?”
收購Nervana Systems——Naveen Rao 出走高通,在 2014 年與人聯合成立的深度學習芯片初創公司,成為英特爾全面擁抱人工智能的一個重要節點,Naveen 表示 AI 已是英特爾“絕不能輸的戰場”。
如今,英特爾上下全面意識到了 AI 的重要性,他率領的包括 Nervana 團隊在內的人工智能產品事業部,推進 Nervana 神經網絡處理器之外,還為英特爾其他所有部門提供技術支持。“最近兩年英特爾至強處理器的改進也基本來自于我們組的工作。” Naveen 說。
一把鑰匙開不了所有的鎖。Naveen 表示不同的計算需要不同的架構,但任何計算都離不開CPU。市面上已經安裝并投入使用的CPU 是英特爾的巨大優勢。“客戶的基礎設施更新是逐步做起的,” Naveen 說:“沒有人會一下子把舊的全扔掉然后換新的。” 在這些基礎設施中,英特爾的 CPU 占了近九成,眼下最火熱的人工智能推理,也有近 90% 是在英特爾的芯片上完成。
英偉達占據了很大的AI訓練市場,也在為GPU添加更多的AI元素,“這是很正確的做法,”Naveen說:“但我們也將提供對 AI 來說最好的 CPU。”
“CPU 加 GPU 再加各種 AI 加速器很好,如果客戶需要,把它們全部封裝進一個芯片里也很好,” Naveen 說:“兩者在我看來是一樣的。”
換言之,AI時代,仍將由英特爾來主導。
谷歌TPU不是英特爾的對手
2018 年 5 月,谷歌在 I/O 大會上發布了第三代 TPU,由 TPU 3.0 組成的 TPUPod 運算陣列,性能相比上一代提升了 8 倍,每秒運算性能 “遠超” 100PFLOPS,也即 10 億億次——中國引以為傲的超級計算機神威·太湖之光的 Linpack 浮點性能是 9.3 億億次——為了給它降溫,谷歌第一次在其數據中心引入了液冷。
為了給 TPU 3.0 Pod 運算陣列降溫,谷歌第一次在其數據中心引入了液冷
除了谷歌,微軟、亞馬遜等巨頭都在研發自己的 AI 芯片。國內,大公司自己造芯的聲勢更加明顯:百度的“昆侖”,阿里的“平頭哥”,華為的“昇騰”,一個比一個浩大。
不管怎么看,形勢對英特爾來說都很不利。
但 Naveen 卻說,“除了TPU(還僅供谷歌內部使用)和GPU,你還能再說出一款已經量產的AI訓練芯片嗎?”
“英特爾不與我們的客戶相競爭,” Naveen 說:“谷歌、微軟等大公司自己做芯片,歸根結底是由于我們芯片廠商沒有提供給他們適合的產品,因此,短期看他們自己做芯片更省錢,更有效率。我不認為他們會銷售芯片,也不認為他們想要進入芯片行業,等到英特爾研發出工藝更好、價錢更便宜的芯片時——芯片制造工藝是英特爾的核心價值所在——大公司自然就會重新使用英特爾的產品,不再自己做芯片。”
而且,英特爾的產品線可是從云到端全面覆蓋的。
佩服英偉達十年建生態,但英特爾要一統江湖
至于英偉達,Naveen認為英偉達在一個正確的時機做出了正確的選擇,大力投入深度學習,現在也在不斷為GPU 增加更多的“AI元素”,“這是很正確的做法”。
Naveen 表示,英特爾近年來對AI的認識也有了很大轉變。見證了人工智能幾起幾落的英特爾,在2014年之前并不認為這一次深度學習真的能掀起些什么。
收購Naverna 代表著英特爾對人工智能態度的轉變,從“不重要”變為“非要不可”,Nervana團隊現在為英特爾的所有部門,從CPU到FPGA再到物聯網……提供技術支持。“實際上,至強處理器近兩年來的性能提升基本上都來自我們組的貢獻。”Naveen說。
搶占先機的英偉達,市值已經翻了幾十番,GPU在AI訓練市場擁有毋庸置疑的領先地位。但真正成就英偉達的,是其配套軟件生態系統 CUDA。
“英偉達最初在2005年推出CUDA,這也就是說他們花了十年時間才讓CUDA能夠使用,”Naveen說,沒有人能一夜之間顛覆這種優勢,要讓一款硬件取得成功,相關的軟件生態系統至關重要,而要打造這樣一套生態,“非常、非常地難”。
面對英偉達在人工智能領域憑借GPU+CUDA構建起的強大生態,Naveen表示英特爾的應對之道是他們兩年前便開始布局的nGRAPH——如今,有各種各樣的機器學習框架,而這些框架上的模型又需要在不同的硬件上面運行。以前做深度學習和人工智能運算,大家主要用GPU來加速,訓練直接在框架里調用英偉達的CUDA庫,推理則是用英偉達的TensorRT?,F在硬件的選擇變多了,大家也想做更多的優化,“框架編譯器”(compiler)的概念也隨之興起。
最初是谷歌的XLA(Accelerated Linear Algebra/加速線性代數),但XLA是用于 TensorFlow的編譯器,針對的也自然是谷歌的TPU。類似的是Facebook的Glow,實際上現在每家公司都在不同的層級上構建屬于自己的中間表示,好讓編程語言能夠適應更多的硬件組合。
2016年8月,陳天奇團隊推出了TVM,讓包括圖模型(Graph)在內的編程語言能夠適應越來越多的硬件。Naveen告訴新智元,實際上TVM是比nGRAPH更低一級的中間表示,而英特爾正在與TVM合作。
英特爾要做的事情是,不與谷歌、Facebook、百度等公司直接競爭,“因為他們都是我們的客戶”,nGRAPH能支持所有的框架,“無論你使用哪種框架,新建一個框架也行,我們都樂意支持”。
框架編譯器,比如英特爾的nGRAPH,能將不同框架上運行的模型針對各種硬件進行優化,包括英偉達的GPU和其他硬件。
但Naveen也承認,業界現在確實有在所有這些中間表示中確定一個“標準”的意向,因為標準就是標準,有了大家都方便,而英特爾也不諱言想讓nGRAPH成為這個標準。
“我們比所有人都領先,目前最接近的就是谷歌的XLA。”
“臺積電的7nm從晶體管密度上說遠不及英特爾的10nm”
但是等等,2019年底英特爾預計推出的可是“10納米”芯片,對手臺積電、三星早就量產了10nm,高通驍龍835已經在市場上整整賣了一年,臺積電今年“7納米”芯片量產成功,明年更是已經確定要上EUV 5納米的研發。
但這里有個“陷阱”:一般人可能都認為10nm肯定比14nm先進,7nm也當然比10nm要好。實際上,7nm也好,10nm也罷,這些“線寬”僅僅代表工藝節點,但要衡量這個工藝的好壞,柵極間距(gate pitch)、邏輯單元高度(Logic Cell Height)、鰭片間距(fin pitch)、最小金屬間距(Min Metal Pith)等關鍵技術參數更為重要。
英特爾22nm和14nm工藝比較:鰭片間距提升
2017年9月,英特爾主動公布出臺積電、三星和自家10nm工藝相關技術參數指標,由下圖可見,英特爾的10nm光刻技術制造出來的鰭片、柵極間隔更小。因此,在晶體管密度上幾乎是臺積電、三星的兩倍。
英特爾的10nm光刻技術制造出來的鰭片、柵極間隔更小,在晶體管密度上幾乎是臺積電、三星的兩倍
摩爾定律是怎么說的?
“積體電路上可容納的晶體管數目,每隔18個月便會增加一倍。”
因此,要看的是電路上晶體管的密度,而不僅僅是“線寬”。
Anandtech總結的全球半導體企業制程路線圖,那時候格芯還沒有宣布放棄7nm
關于英特爾10納米工藝芯片的“難產”,業界有各種各樣的推論和假說,Naveen 自然沒有給出正面回答,只說 “我們的10納米工藝研發進度正順利按計劃完成”。
“但是,臺積電的7nm從晶體管密度上說遠不及英特爾的10nm。” Naveen說:“這是絕對的。”
AI芯片初創公司活下去沒靠山不行
巨頭、英偉達、臺積電等等都搞定了,對于頗有井噴式爆發的大批AI芯片初創公司又如何呢?
作為曾經芯片初創公司的CEO,Naveen 直言:“要做出能夠大規模商用的芯片,靠初創芯片公司100%不行。”
現在確實是“計算機體系結構的黃金時代”,也有不少炒作,但計算機架構不是那么簡單的事情。芯片的技術周期很長,也極少能用一代就取得成功,需要不斷的迭代,這期間芯片的架構可能過時,或者有競爭對手出現。
做芯片是非常難的一件事情——你或許真的能設計出一款能解決一切問題的超級芯片,但要將這款芯片制造出來,需要付出大量的努力,而就算芯片真的做出來了,成功也不僅僅是靠處理器,還有生態系統和商業模式要考慮,要在百億臺處理器規模的數據中心無差錯的使用,價格要能讓客戶用得起。
這也是 Nervana Systems 選擇被英特爾收購的原因。“我們想要的是把自己的技術推向市場,而英特爾精湛的制造工藝和成熟的銷售渠道以及其他資源,讓我們能夠把 Nervana的技術留下來并推向市場,這是我們唯一關心的。”
“我并不是說所有芯片初創公司都會死,”Naveen 說:“上世紀90年代,圖形處理器市場,當初也有成千上萬家 GPU 創業公司,有些被收購了,其技術也成為那些公司的一部分,大部分都倒閉了,最終活下來的有多少?而活下來的這兩家,在此期間也幾度瀕臨破產。”
“作為芯片初創公司要生存下去實在太難了,”Naveen說。Nervana Systems 曾經有過那么一個窗口,抓住這個機遇或許能成為下一個“英特爾”,但 Naveen和他的團隊,做了99%的人都會做的、更保守、更安全、更穩妥、從各種意義上說,也是最明智的選擇——投入英特爾的懷抱。(Moblieye 的創始人是不是也是這樣想的呢?)
AI是絕不能輸的戰場,CPU的AI化是英特爾的未來
剛剛加入英特爾時,Naveen和他的團隊就未來AI和計算的發展著很強的vision,但并沒有獲得大多數人的同意。
“實際上,當時人工智能對英特爾來說并非值得優先考慮的事情(priority),而現在英特爾的每個部門都在想著AI。”Naveen說:“AI是英特爾‘絕不能輸的戰場’。”
CPU曾經是英特爾的一切,也是令英特爾如此輝煌的原因。但過去兩年來,“CPU就是一切”(注:非Naveen原話)的意識形態在公司內部已經有所轉變,大家意識到各種各樣的加速器,尤其是AI加速器,開始扮演起越來越重要的角色。
盡管CPU不再是“唯一”,但仍然是計算結構里不可或缺的重要組成部分。Naveen說,只要是馮·諾依曼架構,“你必須要有一個CPU”。
在CPU的周圍,你可以放上GPU、DSP、ISP,以及NNP,或者各種新的架構,其中一些會被淘汰,而另一則會被被大家廣泛使用,“我們很樂意把大家都用的這種架構放進CPU里”,Naveen說。
CPU+GPU+NNP等眾多核心的異構計算很好,把所有這些核心封裝到CPU里成為一個SoC也很好,“在我看來這兩者是一樣的”。
英特爾另一大優勢在于,市面上已經安裝并且投入使用的CPU。“客戶的基礎設施更新是逐步做起的,” Naveen 說:“沒有人會一下子把舊的全扔掉然后換新的。” 如今,全球有3500萬公司使用英特爾的CPU,眼下最火熱的人工智能推理,也有近 90% 是在英特爾的芯片上完成。
與此同時,英特爾還在不斷打造更好的CPU,不僅為人工智能。