在今年硅谷的GTC上,NVIDIA發布了深度學習超級計算機DGX-1。黃仁勛稱它是“裝進機箱里的數據中心”。
DGX-1內置了8塊基于Pascal架構的Tesla P100加速器和4塊1.92TB的固態硬盤,使用比傳統PCIe快5 -12倍的NVLink技術連接CPU與GPU以及GPU之間的數據傳輸。在深度學習訓練上,它比一臺普通的Xeon E5 2697 v3的雙CPU服務器快75倍,整體性能相當于250臺普通x86服務器。單臺DGX-1的售價是12.9萬美金。
在GTC之后,黃仁勛親自將第一臺DGX-1送給了Elon Musk的人工智能項目OpenAI。NVIDIA還會將首批DGX-1優先發給近年對人工智能有突出貢獻的研究機構,這個名單里包含了Stanford、UC Berkeley、CMU、MIT、香港中文大學等等。而在中國大陸,已經公開的信息是7月份海康威視通過曙光簽下了國內第一單DGX-1;NVIDIA方面則告訴我們目前DGX-1在國內已有十來家客戶。
在10月份剛剛結束的HPC China 2016上,我們和NVIDIA的高層聊了聊他們在高性能計算上的看法以及他們為什么要造這臺超級計算機。
下一代程序大部分會由機器編寫
NVIDIA負責解決方案與工程架構的副總裁Marc Hamilton在HPC China 2016上表達了這么一個觀點,AI會催生一種新的計算模型,未來大部分程序不會是由人來編寫,而是通過深度學習網絡來編寫。
他舉了一個例子,過去編寫的程序比如通訊錄或者工資的發放,它們是非常規整的數字。而今天有大量更復雜的數據,比如圖像、聲音、視頻。哪怕把13億中國人都變成碼農,也不可能編出足夠多的軟件來處理一天所產生的大量數據。所以大部分程序會由深度神經網絡來編寫,而NVIDIA相信大部分深度神經網絡會運行在GPU上。
NVIDIA方面講了2個案例:在上海,他們有一家生物醫療行業的合作伙伴,在通過深度學習對核磁共振、CT影像做分析進行癌癥的審查和復核。而另一個在國內走得比較快的領域是安防,比如在視頻中去比對疑犯照片或者是尋找特定的物體。這方面典型的合作伙伴如海康威視,后者所采購的DGX-1也是用于視頻監控方面的深度學習研究。
DGX-1是一種傻瓜式的設計DGX-1的設計可以回溯到2015年的GTC,當時NVIDIA公布了最新一代的Pascal架構,這一新架構會把一些關鍵的深度學習應用提升10倍以上的速率。但這一新架構也帶來了新的問題:開發/研究人員可能要花數周甚至數月的時間配置這些GPU。所以在幾個月后,黃仁勛在內部提出了一個要求:希望在第二年的GTC之前,由NVIDIA的工程部門打造一臺基于Pascal架構的服務器,這樣研究機構和公司們只要按下機箱按鈕就能把8塊GPU用在深度學習上。
今天我們看到的DGX-1并不是8塊GPU捏在一起那么簡單。
Marc Hamilton告訴我們,DGX-1還囊括了3類軟件和服務的整合。
第一是對所有深度學習框架的支持。比如Caffe、TensorFlow、CNTK...DGX-1對現在流行的深度學習框架都進行了優化。
第二類是底層的庫,稱為cuDNN,可以理解成是CUDA融合了Deep Neural Network。
第三類是DGX的云服務,等于從云上給DGX服務器做一個鏡像。任何一家公司,他們未必知道如何去管理深度學習的系統軟件,但知道怎樣在云端管理一臺DGX-1服務器。
當下,對NVIDIA來說,最大的挑戰是如何快速普及深度學習,其中國區企業事業部總經理沈威說,深度學習是一個獨特的市場,NVIDIA自己造DGX-1則是這個背景下的新嘗試。Marc Hamilton告訴我們,要實現150個petaflop浮點計算的性能,如果基于多個GPU的話,需要3400個服務器,而如果使用傳統x86的解決方案,則需要10萬個服務器。對于程序員來說,維護這兩個數量級的服務器,其中的選擇是顯而易見的。