會后,Gadi Singer接受了智東西同少數(shù)國內(nèi)媒體的專訪,就英特爾和百度的合作細(xì)節(jié)、英特爾在AI領(lǐng)域的前瞻性戰(zhàn)略布局、AI發(fā)展面臨的挑戰(zhàn)以及對如何做好AI芯片進(jìn)行深入交流。Gadi Singer表示,英特爾將聚焦硬件、軟件和生態(tài)系統(tǒng)對AI展開全方位布局。
▲英特爾人工智能事業(yè)部副總裁兼人工智能架構(gòu)總經(jīng)理Gadi Singer
百度和英特爾有超過十年的合作歷史。Gadi Singer表示,五年前,他們的合作邁出很一大步,兩家公司建立了面向移動互聯(lián)網(wǎng)的戰(zhàn)略聯(lián)盟,一起打造智能云手機(jī)生態(tài)環(huán)境。兩年前,雙方在AI方面有了更強(qiáng)的合作。
Gadi Singer重點(diǎn)介紹和百度合作的三款項(xiàng)目:至強(qiáng)處理器優(yōu)化PaddlePaddle深度學(xué)習(xí)框架、FPGA加速工作負(fù)載和Movidius處理器助力Xeye智能攝像頭。最后,Gadi Singer特意介紹了英特爾針對神經(jīng)網(wǎng)絡(luò)模型的開源nGragh編譯器。
深度學(xué)習(xí)平臺PaddlePaddle是百度于2016年8月底開源的并行分布式全功能深度學(xué)習(xí)框架,能夠讓開發(fā)者和企業(yè)安全高效地滿足圖像識別、圖像分類、機(jī)器翻譯和自動駕駛等多領(lǐng)域的AI技術(shù)需求。本次百度AI開發(fā)者大會公布了PaddlePaddle 3.0版本。
PaddlePaddle在英特爾至強(qiáng)可擴(kuò)展處理器上性能的優(yōu)化,使得AI應(yīng)用的運(yùn)營效率進(jìn)一步提高,開發(fā)者與數(shù)據(jù)科學(xué)家可以使用支持全球數(shù)據(jù)中心和云計算的硬件來不斷改進(jìn)AI算法。
英特爾對PaddlePaddle的優(yōu)化涵蓋計算、內(nèi)存、架構(gòu)、通信等不同層面,比如通過AVX Intrinsics函數(shù)、BLAS庫(例如MKL, OpenBLAS)或定制CPU函數(shù)優(yōu)化數(shù)字運(yùn)算的效率,以及通過MKL-DNN(面向深度神經(jīng)網(wǎng)絡(luò)的英特爾數(shù)學(xué)核心函數(shù)庫)優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)(CNN)。
Gadi Singer表示,優(yōu)化AI框架有兩個非常重要的方式:其一,為框架挑選合適的庫和函數(shù) ;其二,對每個AI工作負(fù)載進(jìn)行分析,從而對它進(jìn)行適合的培訓(xùn),以達(dá)到更好的效果。
FPGA是指現(xiàn)場可編程門陣列(Field Programmable Gate Array)。2015年,英特爾以167億美元收購FPGA巨頭Altera,為未來算力的發(fā)展趨勢奠定基礎(chǔ)。
目前百度在其開發(fā)的異構(gòu)計算平臺上部署了最新FPGA技術(shù)。這一技術(shù)的應(yīng)用在定制化和配置方面更加靈活,對于要求高的工作負(fù)載可實(shí)現(xiàn)更高的性能和能效,還能開發(fā)低延時的應(yīng)用。
據(jù)Gadi Singer稱,F(xiàn)PGA已經(jīng)被好幾家公司所驗(yàn)證,既可提供較高帶寬和較低時延,同時又支持大量數(shù)據(jù)傳輸?shù)墓ぷ髫?fù)載,對AI類應(yīng)用而言是非常強(qiáng)有力的選擇。FPGA賦能百度云上的工作負(fù)載加速即服務(wù),可以為百度的異構(gòu)計算環(huán)境提供更多元化選擇。
2016年,英特爾收購視覺處理初創(chuàng)公司Movidius。2017年7月,英特爾推出以“PC雞血神器”著稱的Movidius神經(jīng)計算棒(Movidius Neural Compute Stick)U盤產(chǎn)品,為機(jī)器的深度學(xué)習(xí)提供超大“血包”。
▲使用Movidius神經(jīng)計算棒進(jìn)行車輛識別
Movidius處理器被廣泛應(yīng)用于安全監(jiān)控攝像頭和無人機(jī),有專門用于計算機(jī)視覺引擎,同時兼?zhèn)溆糜谕ㄓ眯屯评硌堇[的引擎,兩者組合在一起,可以更好實(shí)現(xiàn)計算機(jī)視覺和設(shè)備端的演繹推理,為集計算和AI于一身的終端設(shè)備提供非常有吸引力的解決方案。Movidius研發(fā)的視覺處理單元(VPU)具備兩大優(yōu)勢:一是直接在本地攝像頭運(yùn)行神經(jīng)網(wǎng)絡(luò),縮短延遲時間,節(jié)約帶寬和成本;二是用前端算法降低能耗,實(shí)現(xiàn)長期續(xù)航。
百度Xeye攝像頭采用英特爾Movidius Myriad 2視覺處理單元(Movidius Myriad 2 VPU),為機(jī)器學(xué)習(xí)算法提供更低功耗的推理引擎,讓此款攝像頭能夠分析物體和手勢并識別人體,從而為零售行業(yè)用戶提供個性化的購物體驗(yàn)。
▲基于Movidius™ Myriad X VPU運(yùn)行GoogleNet V1網(wǎng)絡(luò)的推理
▲Movidius芯片組和Movidius Myriad X VPU(紅色方框標(biāo)注)
百度機(jī)器學(xué)習(xí)算法通過和英特爾定制化VPU解決方案強(qiáng)強(qiáng)聯(lián)合,能以更低功耗優(yōu)化運(yùn)營,為零售業(yè)提供高性能、低功耗的視覺智能。
最后Gadi Singer還特意介紹了nGragh。nGraph是英特爾在今年3月份開源的一款面向各種設(shè)備和框架的深度神經(jīng)網(wǎng)絡(luò)(DNN)模型編譯器,能與多種深度學(xué)習(xí)框架進(jìn)行連接。nGraph的所有輸出結(jié)果,最終都能在CPU、Movidius、FPGA和未來的Neon上運(yùn)行。
百度和英特爾已將PaddlePaddle與英特爾nGraph編譯器整合。在其支持下,數(shù)據(jù)科學(xué)家可專注于數(shù)據(jù)科學(xué)研發(fā),而無需擔(dān)心如何將 DNN 模型部署到各種不同的硬件平臺做高效訓(xùn)練和運(yùn)行。
在智能手機(jī)時代,英特爾曾遭遇水土不服,晚一步入局移動芯片的英特爾在智能手機(jī)應(yīng)用處理器領(lǐng)域長期舉步為艱。AI是繼移動互聯(lián)網(wǎng)后的下一個時代,英特爾也開始在AI領(lǐng)域布下重陣。
根據(jù)Gadi Singer的判斷,在下一波大的技術(shù)浪潮前,將有好幾個小的AI技術(shù)浪潮。機(jī)器學(xué)習(xí)改變整個計算世界格局,使人們用更短時間處理更多數(shù)據(jù),而這六年只是AI在演進(jìn)過程中的開頭,在這個階段大部分技術(shù)突破都發(fā)生在深度學(xué)習(xí)領(lǐng)域,持續(xù)學(xué)習(xí)、增強(qiáng)學(xué)習(xí)方面的技術(shù)也發(fā)展地很快。
他認(rèn)為,如果把眼光放到宏觀層面來看,機(jī)器學(xué)習(xí)正與新的深度學(xué)習(xí)技術(shù)發(fā)生集成。現(xiàn)在深度學(xué)習(xí)可以進(jìn)行物體識別、分類以及異常檢測,比如說識別一個人體細(xì)胞三維圖、判斷惡性細(xì)胞,這些工作都需要復(fù)雜認(rèn)知能力。而隨著未來AI的進(jìn)一步發(fā)展,認(rèn)知能力更上一層的平臺則是理解人類世界、和人有相同的體驗(yàn)。因此在智能家居、智能車、照顧老人的機(jī)器人方面,機(jī)器需要更好地理解人類的對話和請求。想要達(dá)到這樣一個目標(biāo),深度學(xué)習(xí)和機(jī)器學(xué)習(xí)能力都很重要。
面對愈發(fā)搶手的AI市場,Gadi Singer將英特爾的AI戰(zhàn)略發(fā)展分為三大部分:硬件、軟件和生態(tài)系統(tǒng)。
至強(qiáng)處理器屬于通用型處理器,是AI的基礎(chǔ)。Gadi Singer表示,大部分AI的演繹推理都是在至強(qiáng)處理器上運(yùn)行。英特爾不斷豐富至強(qiáng)的指令集,從而實(shí)現(xiàn)AI工作負(fù)載的加速,并讓軟件堆棧能夠更好地加以利用。
除了通用型,英特爾還有一些專用型的芯片產(chǎn)品。不僅在功耗方面從幾十毫瓦到400瓦實(shí)現(xiàn)全面覆蓋,同時也覆蓋從終端設(shè)備邊緣到數(shù)據(jù)中心的不同計算環(huán)境。英特爾認(rèn)為沒有萬能藥,不可能說用一款產(chǎn)品就能滿足不同的使用場景。因此,英特爾在硬件產(chǎn)品方面提供多元化的產(chǎn)品線。
在軟件戰(zhàn)略部分,針對不同硬件,英特爾提供優(yōu)化的堆棧。不管是數(shù)據(jù)科學(xué)家還是編程員,英特爾對每個用戶端都提供一致的數(shù)據(jù)體驗(yàn)。比如英特爾今年3月開源的nGraph編譯器,不僅能對接英特爾所有的硬件產(chǎn)品,還能和PaddlePaddle、Tensorflow、 caffe、MXnet等其他深度學(xué)習(xí)框架連接。這對用戶來說,是個簡化易用的體驗(yàn)。
英特爾在整個AI生態(tài)系統(tǒng)提供支撐作用。Gadi Singer認(rèn)為,生態(tài)系統(tǒng)對計算涉及的各個領(lǐng)域都很重要。在他所目睹的技術(shù)變革歷史中,AI的發(fā)展變革速度史無前例,新技術(shù)的出現(xiàn)和廣泛使用可能只需 18-24個月的時間。因此,英特爾非常注重和AI領(lǐng)域的學(xué)術(shù)界以及思想領(lǐng)袖保持密切的聯(lián)系。英特爾在擁有自己的研究院和實(shí)驗(yàn)室的同時,和許多頂級學(xué)府開展合作,與他們進(jìn)行聯(lián)合研究或?yàn)樗麄兲峁┵Y源支持。此外,為了更好的參與開源社區(qū),英特爾還將包括nGraph在內(nèi)的一些技術(shù)開源出來。
據(jù)Gadi Singer稱,英特爾也積極參與標(biāo)準(zhǔn)化組織工作。比如在去年,英特爾宣布支持由微軟和Facebook聯(lián)合發(fā)布的開放式神經(jīng)網(wǎng)絡(luò)交換(Open Neural Network Exchange,ONNX)格式,這一格式用于表示深度學(xué)習(xí)模型的標(biāo)準(zhǔn),方便模型在不同框架間之間進(jìn)行遷移。這是邁向開放生態(tài)系統(tǒng)的重要一步,對業(yè)界共享好的技術(shù)很有幫助。Gadi Singer還強(qiáng)調(diào)到,英特爾重視和行業(yè)領(lǐng)先者們進(jìn)行合作,完成一些概念驗(yàn)證,共同打造技術(shù)解決方案。
▲中間為英特爾人工智能事業(yè)部副總裁兼人工智能架構(gòu)總經(jīng)理Gadi Singer
當(dāng)被問及從企業(yè)角度看AI落地的最大挑戰(zhàn),Gadi Singer談到一個具體實(shí)例,即近年來大熱的深度學(xué)習(xí)模型——生成對抗式網(wǎng)絡(luò)(Generative Adversarial Nets,GANs)。GANs的概念在2014年被提出,到了2016年已經(jīng)廣為使用。2018年,GANs已經(jīng)做到第三代,在機(jī)器學(xué)習(xí)研究方面取得了新的進(jìn)展,可以直接合成新的動物圖像并從圖像中創(chuàng)建3D圖形。
根據(jù)Gadi Singer所言,這個技術(shù)的采納主要存在兩大障礙。
其一,找到真正有生命力有價值的新技術(shù),而不是一次性有效的新技術(shù)。盡管新的技術(shù)想法和實(shí)驗(yàn)層出不窮,真正有價值的技術(shù)生存下來的卻并不多。
其二,大量數(shù)據(jù)。很多新的技術(shù)需要大量數(shù)據(jù)才能展現(xiàn)價值和通用性。然而對于部分?jǐn)?shù)據(jù)種類,尤其時牽扯到隱私的數(shù)據(jù),可能會需要較長時間來完成數(shù)據(jù)采集。
Gadi Singer認(rèn)為做出好的AI芯片產(chǎn)品,有兩點(diǎn)不可或缺。
其一,弄清楚設(shè)計這個處理器究竟是為了解決什么問題。今年已經(jīng)是Gadi Singer在英特爾工作的第35年,他曾經(jīng)在多個部門做過不同類型的產(chǎn)品,因?yàn)锳I領(lǐng)域變化太快,要解決的問題本身也在持續(xù)改變, 解決方案本身具有挑戰(zhàn)性。假設(shè)不久之前有人開發(fā)出針對AlexNet、GoogleNet的完美解決方案,但這個方案到了2019年、2020年可能就無法稱之為好的解決方案,因?yàn)闀霈F(xiàn)新的它無法解決的問題。因此,Gadi Singer認(rèn)為,如果想要AI芯片解決方案成功,很重要的一點(diǎn)就是做好趨勢判斷,能夠基于這種判斷做出適度合理的猜測。
其二,AI芯片本身由不同部分組成,這些不同功能塊之間要有很好的平衡。如果芯片只是在某一功能塊(比如Tensor Multiplication)做得完美,但整體功能沒有做到均衡,并不足以解決實(shí)際場景問題。比如Movidius VPU和NNP主要是加速的作用,但不可能把它們做成只具備加速功能的芯片。所以AI處理器解決方案要注重加入不同元素,可以針對某些場景解決特定問題,但解決問題的范圍不能太過狹窄。
萬物互聯(lián)時代,英特爾正在全面進(jìn)軍AI領(lǐng)域。目前,英特爾已經(jīng)打造了一套完整的全棧式AI解決方案,包括至強(qiáng)處理器、Nervana神經(jīng)網(wǎng)絡(luò)處理器等硬件,F(xiàn)PGA、網(wǎng)絡(luò)和存儲技術(shù)等技術(shù),MKL和DAAL等用于深度學(xué)習(xí)和機(jī)器學(xué)習(xí)的數(shù)學(xué)函數(shù)庫,以及支持和優(yōu)化Caffe、Neon等深度學(xué)習(xí)框架等。
在推動AI性能升級和技術(shù)大眾化的過程中,英特爾不斷和百度等企業(yè)進(jìn)行深入合作。在十多年的合作史間,從智能化終端設(shè)備,基于至強(qiáng)可擴(kuò)展處理器的大規(guī)模數(shù)據(jù)中心,到利用FPGA加速工作負(fù)載,再到優(yōu)化PaddlePaddle開發(fā)平臺,英特爾為百度提供豐富的產(chǎn)品和技術(shù)專長,加速AI技術(shù)的進(jìn)步和落地。
至于英特爾全方位AI戰(zhàn)略布局將如何開花結(jié)果,市場會給出最終的答案。