在最近的2015年全國高性能計算學術年會(HPC China 2015)上,NVIDIA解決方案工程架構副總裁Marc Hamilton接受CSDN記者的采訪,分享利用GPU加速應用的技術趨勢和GPU技術研發新動向。他表示,GPU加速是“后摩爾定律”時代應用最廣泛的加速計算技術,而加速市場的重心在深度學習及其相關的視覺計算,未來NVIDIA會繼續專注于視覺和加速計算。
和Marc Hamilton一同接受采訪的還有NVIDIA全球副總裁、PSG&云計算業務總經理Ashok Pandey,他介紹了NVIDIA加速計算技術在中國市場的本地化工作以及一些應用進展。
定制加速不如通用GPU
在科學計算、大數據分析、深度學習等領域,對高性能計算的需求是不言而喻的,目前最典型的還是深度學習。NVIDIA認為,當前深度學習流行的主要原因之一,就是GPU所帶來的巨大可用的計算能力。比如在深度學習網絡當中,有很多以十億為單位來計算的參數量,那這種對數據和計算能力有非常高的要求的這種訓練,是非常適合來用GPU進行的。
深度學習從業者尋求的加速方案包括GPU、FPGA以及類腦芯片等,后者包括完全非馮諾依曼架構的系統,如IBM的SyNAPSE,以及加速芯片的形式,如中國的寒武紀。Marc Hamilton認為,這些不同加速芯片的出現,都是為了應對傳統的芯片面臨挑戰的問題——我們已經接近了摩爾定律描述的末端,未來沒有辦法再繼續依賴于摩爾定律來實現最高的性能。
數字為證:
高性能計算的應用當中,前十個當中九個都是在GPU上面來進行使用的。
前一百的超級計算機當中所有應用當中有70%計算周期,都是在GPU上面來進行的,其中也包括了所有主要的深度學習的這些應用。
或許是由于類腦芯片目前還是概念,Marc Hamilton沒有從架構層面對比類腦架構與GPU加速架構的優劣。他表示,目前關于深度學習的這種訓練,基本上100%都是用GPU來做的。FPGA受到的關注,跟最近英特爾花了170億重金收購一家FPGA公司的新聞有關。實際上在深度學習方面,通過FPGA技術運行的應用程序非常少,可能FPGA技術的應用更集中于解決分類和推斷的部分。
他談到了深度學習在醫療影像當中的一個應用例子,在美國加州眼科醫生協會,他們組織了一次比賽,這個比賽的背景是這樣的:在18-55歲的成年人當中,造成致盲最主要的因素是糖尿病所引起的并發癥,如果你定期進行眼科的檢查,你只需要用普通的相機拍一個靠近眼底的照片,就可以做出一些判斷,看一看到底是不是糖尿病的并發癥在你的眼睛當中出現了,但不是所有人都可以很方便地獲得眼科醫生的幫助,而且眼科醫生本身的判斷準確性也只有85%左右。最終總共有300多人提交了他們的成果,大部分使用的都是深度學習的一些技術,最后勝出的基本上都是基于GPU深度學習的技術,最終三個獲獎的技術都是能夠預測的糖尿病的并發癥,在眼底當中表現的準確性,高于人類的醫生能夠所達到85%的準確性,基于GPU深度學習的技術,帶來醫療影像上面很大的一些突破。
NVIDIA的GPU有幾條產品線,GeForce主要是針對于游戲的,但是對深度學習開發者來說也是非常好用的,相對而言它的價格比較低,很多計算機廠商都會使用這個GPU的產品,所以在市場上的可得性是非常好的,而且對于很多普通的開發者來說,這個是他們可以使用GPU最有成本效益的方式,這也是GeForce戰略當中很重要的一部分。
而要使更多的人使用GPU,就是通過云的方式,實際上在AWS里面提供GPU的服務已經有很多年了,在去年這一年當中,包括阿里云在內,還有包括微軟的Azure,也都宣布了在他們云服務當中,是可以提供GPU的。現在應該說GPU是目前云服務當中唯一可以獲得加速的技術。對于云服務提供商來說,他們肯定不會說是自己一定非要提供這個服務,肯定是對于這樣一種加速的技術有需求,才會在云端來提供GPU。
具體的選擇上,Marc Hamilton表示,在Tesla加速計算平臺的品牌下面,實際上也是有多種價位的GPU產品,對于大多數深度學習應用來說,最合適的GPU就是K40,不是因為它比K80要便宜,而是因為它的架構相對于目前深度學習的應用來說是最為合適的,以NVIDIA現在一些產品可能針對不同的客戶應用,是有一些相應的優化。所以針對于不同的應用,不同的品有各自的最好性價比。
Tesla K80雙GPU加速器是當前Tesla的最新旗艦,它擁有帶寬極高的24GB內存、高達8.74TFlops的單精度峰值浮點性能和高達2.91 TFlops的雙精度峰值浮點性能。IBM和微軟都是宣布了會在他們的云服務當中來提供K80的GPU,阿里云也是在進行相關的一些論證,可能在未來也會推出。這些都說明了K80的吸引力。NVIDIA認為,K80對于油氣行業這個應用程序來說是最優化的,也是最具有性價比,能夠有最大的價值。
對于缺乏專門定制化的加速芯片來提升深度學習系統性能的問題,Marc Hamilton認為,確實定制化的加速芯片速度會加快,但是它主要有兩個問題:
經濟性是一個非常需要考量的因素。現在的制程技術越來越高級,包括芯片的制造,設計等,整個費用會非常高,比如利用現在的10納米制程技術設計,再進行真的生產芯片,即便眼膜可能就需要一千萬美元。
芯片的變化是非常快的,可能很快就陳舊,如果是一個定制化的芯片,繼續更新可能只能再用一個新的芯片替換它,面對著像深度學習這樣一個快速迭代的技術,原來芯片剛剛生產出來的時候,它已經過時了。所以從整個技術發展速度和經營的角度考慮,做定制化的芯片,目前并不是一個最為合適的選擇。而通用的GPU,無論是用作游戲的用途,或者說用在自動駕駛汽車里面,或者深度學習,可能GPU都是差不多的,只是上面編程不一樣,所以可以用在不同的應用。
對于性能追逐者,一個好消息是,明年NVIDIA將要出貨的Pscal GPU,相比較現在的GPU預計將會有十倍的性能提升。只依靠摩爾定律,十倍性能提升是很難實現的。Pscal GPU的實現來自三個方面的原因:
摩爾定律本身確實貢獻了一部分的性能提升。
在架構上面的變化。NVIDIA將于明年面世的下一代GPU架構Pascal和NVLink高速互聯技術,將為數據中心和深度學習提供更加強大的加速動力。
在軟件方面實現性能提升。從現在到明年的Pscal GPU出貨的空間,通過cuDNN的軟件(cuDNN深度神經網絡庫,可以支持很多常用的函數和功能),還會再進一步實現性能的提升。NVIDIA希望每年都可以通過硬件和軟件的更新來實現更高的性能。例如在過去這一年當中,NVIDIA通過cuDNN3.0版本實現了性能的翻番。
生態構建
生態方面,Marc Hamilton強調了在OpenPOWER的進展,即將問世的NVLink高速GPU互聯技術將會支持OpenPOWER。他表示,IBM出貨帶有GPU加速的OpenPOWER8的系統已有一年多,在去年的HPC中國大會上,就推出了第一款企業級Power8的系統,在上個月也推出了一個相對來說成本比較低的,針對HPC進行了優化的一款平臺的產品,這個也是帶有GPU的Power8系統。
開發支持方面,現在有CUDA編程環境,為OpenPOWER系統提供了運行應用程序的基礎。不僅僅是IBM已經宣布了要支持在OpenPOWER關鍵的應用程序,包括像DB2的數據庫,而且還有一些第三方已經把他們相關一些應用程序移植到了OpenPOWER的平臺上,比如大數據領域新的內存內數據庫,還有一些是在GPU內存內的這種數據庫,在美國有一個叫做GPU DB,利用的是在GPU的內存,現在也都可以在OpenPOWER上面得到支持。
談到的另一個方面是ARM,Marc Hamilton表示,從戰略上來說,NVIDIA會去支持客戶有需求的所有CPU架構,而很多國家的客戶都提出了希望支持ARM架構的需求。
NVIDIA支持ARM的處理器廠商,以及系統的廠商等,比如AppliedMicro、Cavium等公司,明年估計也會有幾個中國的處理器合作伙伴公布,然后會有多家OEM廠商出貨相關的產品。此外,CUDA工具包已經支持ARM的架構,NVIDIA會繼續和整個的ARM社區保持合作。
中國市場的進展
Marc Hamilton對中國市場的進展很滿意。他表示,具體看亞太區深度學習的市場,毫無疑問中國是最領先的,從GPU銷售量來看,中國和美國把持前兩名的位置。現在所銷售的用于深度學習的GPU,大部分是用于教深度學習訓練的,因為你首先得要對深度學習的系統來進行訓練,然后才能部署到實際生產環境當中。
他認為,在未來,深度學習里面涉及到推斷和視頻處理方面,GPU的應用會有非常好的前景和增長。因為現在從視頻來說,有大量的視頻上傳和下載,增長速度超過了摩爾定律所能夠帶來的性能提升的速度,現在無論是做社交網絡公司還是搜索公司,他們的數據中心已經非常飽和,增加更多的機器也好,或者是CPU的更新換代也好,都很難趕得上推斷和視頻處理需要的速度。現在多數公司可能還是通過CPU來進行這些相關的這種推斷和視頻的處理,但是在未來會利用GPU進行加速。
具體而言,在互聯網上產生這些視頻所帶來的計算需求,可能有幾個方面,第一個就是視頻的編解碼,這個非常適合在GPU進行相關的完成;第二,很多的視頻可能都會上傳到一些社交網絡上面,包括微信,或者是其他的平臺上面,從深度學習的訓練來看,現在基本上大部分都是在GPU上來完成的。從圖片推斷來看,你可以在CPU上去完成,但是未來隨著這些圖片上傳的量越來越大,它涉及到的計算需求越來越多,完全靠CPU完成可能會變得非常地困難。那涉及到視頻方面,它所需要的計算工作,相比圖片就要大了很多很多,所以未來這方面的,可能更多會是通過GPU來進行處理。比如原來,視頻還可以上傳,然后儲存在那里,可能進行離線的處理,一兩天的時間沒有問題。但是現在很多應用,比如說一些視頻廣播的應用,沒有給你儲存視頻然后進行一個離線處理的時間,比如只有兩分鐘的時間來對于這些視頻進行轉代碼,然后還要來進行相應的推斷,然后才能夠基于這些數據向你推薦好友,或者是向你發有針對性的一些廣告等等,這所帶來計算的需求會非常非常巨大。
綜上,Marc Hamilton認為,未來很多計算可能都是在GPU應用上完成的,單視頻方面對于GPU的需求,這個市場空間就會非常大。
Ashok Pandey補充說,從技術交流和溝通方面來說,亞太區其他地方的貢獻確實是很多的,從高性能計算,從純科學計算來看,日本的貢獻程度是比中國要大。但畢竟還是中國的市場更大,相關的投資和創新,中國的聲音非常非常大。比如說NVIDIA每年三月舉辦的GTC,原來中國面孔很少見,但去年中國這邊的參會人數突然非常迅速地增長,已經超過了日本人數,今年NVIDIA的目標是中國人超過德國人數。
Ashok Pandey認為,在互聯網這方面,特別是深度學習新技術這一方面,中國絕對不落后于國外,特別是商業模式的這種創新方面,中國可能還超前于國外。中國人的學習能力比較強,還有在商業模式方面創新能力也非常強,不僅僅是BAT,包括眾多這種新興企業,利用新的技術應該不落后于全世界其他國家。
加速方案的選擇上,Ashok Pandey認為,中國公司是非常有智慧的,會針對他們的工作負荷來選擇當時最具有競爭力的產品,類似于阿里一樣其他的公司,現在也積極的在測試一些新的產品。針對這種企業級企業,可靠性、可用性、可維護性是非常重要的,并且他們的應用場景都是集群場景,在集群這種場景里面,Tesla這種數據中心的產品是比較適合的。這和大學、科研機構在單機做一個科研和測試是不一樣的。
此外,他表示,NVIDIA在中國生態系統做得非常好,高性能計算OEM,包括浪潮、曙光、聯想、華為等,都是NVIDIA的非常密切的合作伙伴,并且他們有一個新產品,NVIDIA馬上會去做認證方面的工作。比如現在曙光已經推出了XMachine深度學習一體機。