近日,英特爾人工智能產(chǎn)品事業(yè)部副總裁Gadi Singer接受了媒體訪談,談?wù)摿擞⑻貭栐谏疃葘W(xué)習(xí)領(lǐng)域的長期愿景,以及為什么公司看好x86之外的架構(gòu)和單芯片解決方案。
記者:處理器方面有什么變化?
Singer:最大的變化是增加了深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)。過去幾年,人工智能帶來了快速且深刻的變化,我們也正在試圖評(píng)估它們的潛力,以及能用它做些什么。但是,與此同時(shí),您還需要退后一步,思考如何與其它互補(bǔ)性的功能相適應(yīng)。處理器的變化是英特爾整體轉(zhuǎn)型大略的一部分。
英特爾人工智能產(chǎn)品事業(yè)部副總裁Gadi Singer
記者:真正人工智能的標(biāo)志是可以用機(jī)器開發(fā)算法而不是人工開發(fā)對(duì)吧?
Singer:人工智能起步于20世紀(jì)60年代,直到計(jì)算機(jī)科學(xué)家Hinton和其他人在21世紀(jì)初找到一種更好的方法有效處理多層數(shù)據(jù)之前,它一直處于沉寂狀態(tài)。幾年前,ImageNet的工作表明可以通過機(jī)器進(jìn)行圖像識(shí)別且達(dá)到接近于人的識(shí)別精度,人們才意識(shí)到深度學(xué)習(xí)是一種重要的計(jì)算力量,人工智能至此取得了重大突破。之后,我們?cè)谡Z音識(shí)別方面也取得了很好的成果。2015年到2016年左右,深度學(xué)習(xí)的一系列成果表明,人工智能成為推動(dòng)人類科技進(jìn)步的重大因素。當(dāng)時(shí)能夠處理的圖像都是相對(duì)簡單的二維圖像,可以識(shí)別的語音也簡單直接。之后,業(yè)界的一系列努力證明了可以通過深度學(xué)習(xí)達(dá)到一定的精度,取得一系列成果。當(dāng)時(shí)創(chuàng)建和驗(yàn)證模型的主要架構(gòu)是CPU和GPU,主要開發(fā)語言是C++,開發(fā)環(huán)境是CUDA等專有環(huán)境。構(gòu)建并部署計(jì)算架構(gòu)需要大量的專業(yè)知識(shí)并投入大量精力。你看看現(xiàn)在這個(gè)領(lǐng)域的主要技術(shù),就可以看出哪些公司是早期的參與者。
記者:從那以后發(fā)生了什么變化?
Singer:在過去的幾年中,深度學(xué)習(xí)時(shí)代迎面而來。數(shù)據(jù)本身變得更加復(fù)雜了,我們也從識(shí)別2D圖像成功轉(zhuǎn)變?yōu)樽R(shí)別3D圖像。我們正在和諾華公司合作,它們正在研究細(xì)胞的3D顯微圖像,以試圖找出潛在的惡性細(xì)胞。在數(shù)據(jù)方面,圖像的復(fù)雜程度提升了25倍,但是現(xiàn)在識(shí)別的是更加精確的模型。
記者:英特爾在這些架構(gòu)的哪些方面發(fā)力?人工智能和深度學(xué)習(xí)的一大問題在于它們還在快速變化之中,因此您需要一個(gè)非常靈活的架構(gòu),英特爾在這方面有什么計(jì)劃?
Singer:過去面對(duì)的問題很清楚。你知道兩三年后的圖形芯片或者CPU芯片需要實(shí)現(xiàn)什么功能,公司之間的競爭體現(xiàn)在為已知問題提供最佳解決方案上。在深度學(xué)習(xí)領(lǐng)域的競爭則體現(xiàn)在誰能夠在發(fā)展變化過程中最深刻地理解問題。你需要的是一個(gè)能夠理解并預(yù)見變化趨勢的架構(gòu),并在全面生產(chǎn)上市和部署時(shí)為即將面臨的問題做好準(zhǔn)備,而不是在設(shè)計(jì)和測試時(shí)就固定好了能夠解決的問題。
記者:架構(gòu)會(huì)因市場而改變,還是架構(gòu)仍然相同?
Singer:這影響到方方面面。我們認(rèn)為,一種架構(gòu)不可能滿足所有需求,成功的解決方案是提供一系列各具特色的產(chǎn)品。所以架構(gòu)肯定不止一個(gè),但是也不會(huì)太多。我們可以按照功率從1瓦以下到300瓦,從推理、訓(xùn)練到機(jī)器學(xué)習(xí),從關(guān)注吞吐能力到關(guān)注延遲,按照各種要求實(shí)施不同的架構(gòu)。架構(gòu)對(duì)每瓦性能也有不同的敏感度。解決方案的能效值是多少?你愿意在其它方面妥協(xié)嗎?這不僅僅是在一個(gè)實(shí)例上進(jìn)行小程度的修改,而是面對(duì)一系列需求,必須有一系列互補(bǔ)性的架構(gòu)。
記者:這一系列架構(gòu)是什么?
Singer:主要有三個(gè)要素。第一,因?yàn)槲覀兛蛻粢蟛煌覀冃枰峁┮粋€(gè)產(chǎn)品組合。你需要提供從終端設(shè)備(安全攝像頭、無人機(jī)或汽車等)到網(wǎng)關(guān)(數(shù)據(jù)匯聚點(diǎn))再到云端或本地服務(wù)器的解決方案,每個(gè)層面都需要有非常有效的解決方案。第二,我們的硬件戰(zhàn)略是提供具有互補(bǔ)架構(gòu)和解決方案的組合。第三,進(jìn)一步使Xeon成為AI的堅(jiān)實(shí)基礎(chǔ)。
記者:針對(duì)訓(xùn)練還是針對(duì)推理?
Singer:我們是從推理開始的。Xeon是一個(gè)很好的推理解決方案。和其它任何產(chǎn)品相比,Xeon的推理解決方案都毫不遜色,而且在總體擁有成本和靈活性方面具有其它優(yōu)勢。你看看Facebook,他們會(huì)展示怎么對(duì)其Top 7服務(wù)進(jìn)行培訓(xùn)和推理的。
記者:但是Facebook這樣的公司對(duì)推理的要求和手機(jī)或汽車攝像頭一樣嗎?
Singer:不一樣,這就是你需要不同架構(gòu)的原因。你希望在大型數(shù)據(jù)中心中進(jìn)行推理,你可以利用同樣的計(jì)算進(jìn)行推理或者執(zhí)行其它任何任務(wù)。在低端市場中,我們有Movidius架構(gòu),它的功耗在1瓦到幾瓦之間(英特爾于2016年9月購買了開發(fā)計(jì)算機(jī)視覺應(yīng)用低功耗處理器的公司movidius),你可以使用它實(shí)時(shí)創(chuàng)作音樂,或者將Movidius計(jì)算棒連接到手機(jī)上,檢測早期皮膚癌,然后進(jìn)行非常重要的分析。
記者:所以你們?cè)跀?shù)據(jù)中心和邊緣節(jié)點(diǎn)上都有方案了,你們戰(zhàn)略的第三部分是什么?
Singer:系統(tǒng)集成。當(dāng)您考慮系統(tǒng)集成時(shí),擁有正確解決方案的大量價(jià)值都體現(xiàn)在數(shù)據(jù)移動(dòng)上。一個(gè)好的解決方案應(yīng)該盡量減少數(shù)據(jù)移動(dòng),因?yàn)閿?shù)據(jù)移動(dòng)的成本要比對(duì)數(shù)據(jù)進(jìn)行乘除/累加貴10倍。針對(duì)如何在正確的位置、正確的時(shí)間取得數(shù)據(jù)進(jìn)行系統(tǒng)和軟件棧的優(yōu)化,是任何解決方案成功的關(guān)鍵。
記者:聽起來英特爾像是要發(fā)生從頭到腳的變化。
Singer:當(dāng)然,你看一下我們對(duì)基本版本Xeon的改進(jìn),我們現(xiàn)在通過VNNI(矢量神經(jīng)網(wǎng)絡(luò)指令集)和BFloat 16提升DL(深度學(xué)習(xí))能力。過去,英特爾分別解決了浮點(diǎn)、SIMD和矢量運(yùn)算。現(xiàn)在,AI需要一系列能力,我們?cè)趚86架構(gòu)下實(shí)現(xiàn)了許多重要的新功能。我們希望為這兩種架構(gòu)提供優(yōu)化的解決方案。這就是我們和Movidius合作要解決的問題,我們將要發(fā)布Nervana,這個(gè)架構(gòu)引入了FPGA,它集成了最出色的x86,并用最好的架構(gòu)增強(qiáng)它,對(duì)它加速。現(xiàn)在從系統(tǒng)的層面來看,不僅僅是主機(jī)和加速器的改進(jìn),還涉及到存儲(chǔ)器和網(wǎng)絡(luò),它是一種系統(tǒng)集成。你在硅片上、封裝內(nèi)放什么東西?你在同一個(gè)機(jī)架中集成了什么?
記者:所以你們現(xiàn)在實(shí)施的是包含先進(jìn)封裝在內(nèi)的平臺(tái)策略。這是英特爾之前沒有認(rèn)真做過的事情,你覺得這種策略是怎么個(gè)玩法?
Singer:封裝內(nèi)集成可以將不同種類的事情結(jié)合在一起,并將之緊密集成,我們正在這方面努力,我們認(rèn)為這樣做非常有價(jià)值。
記者:新型硬件架構(gòu)正在發(fā)生的一個(gè)重大變化是增加數(shù)據(jù)密度,每個(gè)周期可以處理更多數(shù)據(jù),對(duì)吧?
Singer:這方面講的是數(shù)據(jù)壓縮和增加計(jì)算的并行性。你看我們從頭開始構(gòu)建的Nervana NNP(神經(jīng)網(wǎng)絡(luò)處理器)架構(gòu),它具有張量神經(jīng)網(wǎng)絡(luò),你管理的是各種數(shù)據(jù)結(jié)構(gòu)。這是架構(gòu)創(chuàng)新的基礎(chǔ),使用VNNI,你可以提供在數(shù)據(jù)結(jié)構(gòu)上執(zhí)行的指令,從而能夠在陣列上進(jìn)行計(jì)算。
記者:除了縮小功能單元外,還有更多優(yōu)勢,對(duì)吧?
Singer:我們需要從這個(gè)流程中得到需要的東西。我們一直將設(shè)計(jì)和架構(gòu)向矢量處理的方向推進(jìn)。我們將利用這種流程。不過,我們的目的是提高設(shè)計(jì)和架構(gòu)的效率,使得每個(gè)周期可以處理更多指令,始終都是為了讓向量盡可能快地運(yùn)行。
記者:但是現(xiàn)在你必須把這些東西融合在一起,數(shù)據(jù)在內(nèi)存中存儲(chǔ)和讀取的方式也可能不同。
Singer:是的。你必須能夠從內(nèi)存中提取這些數(shù)據(jù)結(jié)構(gòu),我們需要看到的另外一件事是如何融合純神經(jīng)網(wǎng)絡(luò)操作和常規(guī)的潛在循環(huán)代碼。如果你注意到現(xiàn)在已經(jīng)在開展的一些工作就會(huì)發(fā)現(xiàn),它會(huì)假設(shè)很多新的計(jì)算必須是深度學(xué)習(xí)。實(shí)際上,這些是具有神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)的更加通用的任務(wù)。你需要一個(gè)非常有效的神經(jīng)網(wǎng)絡(luò)架構(gòu)。但是,如果一個(gè)方程的某些部分的次序性更強(qiáng)或者需要依賴更多條件,它同樣需要非常有效地完成。你需要能夠在常規(guī)運(yùn)算和神經(jīng)網(wǎng)絡(luò)運(yùn)算之間切換。我們目前正在研究的一個(gè)課題就是,如何在具有其它元素的真實(shí)背景中以最佳方式執(zhí)行神經(jīng)網(wǎng)絡(luò)運(yùn)算。如果你看一下NNP機(jī)器翻譯或者其它類似的工作,就會(huì)發(fā)現(xiàn)它們內(nèi)部就有一些不是神經(jīng)網(wǎng)絡(luò)計(jì)算的內(nèi)容,它們也是解決方案的一部分。