如今,人們大多聽說過人工智能系統,如IBM的沃森系統。六年前,谷歌公司的阿爾法狗(alphago)擊敗了圍棋世界冠軍;卡耐基-梅隆大學的libratus不久前擊敗一位世界頂級撲克選手。而全球各地的許多計算機科學家正在研究人工智能系統,但這些將不會出現在新聞中。
在過去五年左右的時間里,機器學習作為人工智能(AI)技術的一種得到了快速發展,如今已經開始滲透到技術的每一個角落。從自駕車到網絡廣播,網絡安全和視頻監控,企業正在培訓電腦替代人類做許多事情,并且做的更好,或者成本更低。
神經網絡是一種旨在模擬神經元在人類大腦中相互聯系的方式的計算機系統,被訓練為通過觀察,重復,試驗和錯誤,通過計算機科學家輔助來實現這些任務,這與父母培育嬰兒方式相似,雖然嬰兒要比其好得多。神經網絡學習和了解口語,例如通過聽很多錄音,比如電影對話等,還通過查看大量圖像來學習識別對象。當它發生錯誤時,該數據被反饋到網絡,這使得每個周期的錯誤越來越少。
培訓是機器學習開發過程中耗費資源最多的計算工作量。深度學習軟件開發(深度學習是最廣泛的機器學習技術)的爆炸式增長正在推動對專業計算基礎設施的日益增長的需求,面向訓練神經網絡所需的工作負載類型。這些計算機類似于科學家使用的高性能計算(HPC)系統,因此需要來自托管它們的數據中心的大量電力和制冷能力。
人工思維需要大量的電力
Cirrascale公司是美國加利福尼亞州的一家高性能硬件供應商和云服務提供商。該公司希望以這個趨勢為契機,其業務將轉向設計和托管深度學習計算基礎設施的廠商。除了銷售高性能的硬件之外,該公司還將其數據中心用于圣地亞哥以外的其他數據中心。
Cirrascale公司提供這種基礎架構即服務與亞馬遜網絡服務提供云服務器的方式有些類似,但有一些關鍵的差異。
該公司首席執行官兼創始人David Driggers在接受行業媒體采訪時說:“這些類型的盒子非常強大。因為他們有很多的計算硬件資源,并且非常耗電。這與提供虛擬服務器實例的AWS不同,Cirrascale的深度學習云是一種裸機云服務,用戶會獲得一個專門的高性能盒子(或幾個)來運行所需要的任何軟件。”
Driggers說,他的許多客戶從事的機器學習的開發工作是高性能計算世界的新手。設置,管理和清理HPC群集并不是一件小事,他們希望將這個問題讓理解它的工作人員解決。
Cirrascale公司的數據中心旨在提供每機架30kW以上的功率密度(普通的企業數據中心的功率密度為每機架3至5kW,很少超過10kW)。“這需要更多的電能,”Driggers說,“而這樣做很困難,我們沒有不會為此付出更大的代價。”
Cirrascale公司位于圣地亞哥數據中心的的裸機云平臺機柜
為了降低這種功率密度產生的熱量,數據中心采用Scale Matrix公司開發的專有液體冷卻系統進行冷卻,Scale Matrix公司擁有并經營Cirrascale數據中心。大多數數據中心冷卻IT系統的空氣都是從前面到后面流動,而在這個數據中心的冷卻,是從設備部到頂部以極高的速度推送空氣,排出服務器機柜頂部的暖空氣。每個柜子都是封閉的環境,擁有自己的供水和空氣循環系統,并確保相鄰的機柜不會影響彼此的溫度。
Cirrascale公司有著多年建設高性能計算系統的經驗,該公司的前身是Verari系統公司,該公司是2009年破產的一家HPC硬件和數據中心集裝箱供應商,Cirrascale公司兩年前進入的深度學習領域。Driggers說,“我們十多年前就已經做到每機柜功率達到30千瓦,所以我們希望推出更高性能的計算機。”
鏈接虛擬神經元
超級計算機系統和用于訓練深層神經網絡的系統構建的架構非常相似。Driggers認為,隨著后者成熟并開始規模化,其架構將越來越像前者。
這種架構中的主力是GPU,或者更準確地說,將一組GPU并聯在一起并行計算。用于深度學習的單個Cirrascale服務器由NVIDIA(目前是深度學習中的GPU行業領導者)最多部署8個TeslaGPU,并與英特爾至強CPU協同工作。其最強大的云計算系統有8個雙GPU加速器,實際上是一個16GPU服務器,用戶可以每月約7,500美元租用。
Cirrascale公司GX8/99系列服務器采用Nvidia公司8個Tesla GPU
Cirrascale公司的最重要的創新,也是其技術皇冠上的寶石,是在單一系統中互連GPU的特殊方式,稱之為PCIe Switch Riser,它使任何一個GPU能夠以最大的帶寬與主板上的任何其他GPU直接通話,從而有助于提高性能和可擴展性。
Driggers說,DGX-1是NVIDIA公司自己專門為了深度學習而設計的超級計算機,以類似的方式進行了配置。NVIDIA的GPU互連技術稱之為NVLink。他承認,如果用戶需要“絕對的尖端”技術,那么用戶應該采用NVIDIA公司的產品。但是,如果用戶可以忍受降低15%的性能,則可以支付的一半價格。Cirrascale公司也具有與同樣的NVIDI AP100 GPU性能相當的系統。而該公司也銷售NVIDIA公司的DGX-1產品。
NVIDIA公司用于深度學習的DGX-1超級計算機
啟動常識解決問題
雖然關于深度學習的知識越來越廣泛傳播,但很少有企業實際上在生產中使用該技術。像Google和Facebook這樣的超級云計算運營商正在將其應用于許多面向用戶的功能,但大多數在該領域工作的公司仍處于開發階段,對于大多數Cirrascale公司的云客戶來說,這些用戶正在編寫算法,學習擴展其深度學習應用程序來處理更大的數據集。
如今,一些客戶中在采用少量的節點,Driggers認為這些客戶將成為最終需要的一小部分。隨著他們的成長和應用的成熟,他預計首選的基礎架構是混合模式,將會是私有云和公共云的結合。
Twentybn是已經使用混合設備的一人客戶,該公司是一家總部在多倫多的研究實驗室在柏林創立的創業公司。他們認為,一些最有希望的應用程序(如自駕車)的顯性神經網絡訓練技術有缺陷,可能在成熟階段中斷。
代替使用靜態圖像來訓練神經網絡來識別對象,其主導方法是使用視頻。該公司首席科學家和聯合創始人之一羅蘭·梅西維奇在接受采訪時說:“我們的任務是教會機器來感知和理解世界。”梅西維奇是有一定影響力的蒙特利爾學習算法研究所的教授,也是人們所知道的深度學習發展的關鍵人物杰弗里·亨頓所教的博士生。
世界是三維的,重力,具有永久性特征的對象,A點只能通過移動到B點,人類在達到三點之前就要牢牢把握,這對于是機器來說,是非常困難的事情。Memisevic解釋說,但人們有強大的科學理由相信,通過視頻是獲得這種理解的唯一途徑。
Twentybn公司采用了一大批互聯網用戶為自己拍攝6萬多個視頻短片,這些視頻很簡單,例如就像投擲物體,丟棄物體或拾起物體,產生視頻,以反映人們想要網絡學習的東西。該公司正在使用這些和合成的視頻來訓練其神經網絡,目的是為自主車輛和視頻監控銷售自定義人工智能解決方案。
Twentybn公司使用Cirrascale公司的GPU封裝的裸機云服務器來訓練其神經網絡,但也在其多倫多實驗室內部保留自己的計算集群,以處理大量的合成視頻。
后GPU的未來?
Memisevic認為,隨著神經網絡的應用越來越廣泛,如云計算提供商Switch Riser公司需要改進GPU之間的通信的技術,這在未來將是不可或缺的。然而,目前尚不清楚利用大量GPU的最佳方法將是多久?以下有幾種方法。
因為人們正在目睹的只是預期推動下一次技術革命的開始,關于計算和數據中心基礎設施機器學習或其他類型的人工智能將最終需要的類型,仍然存在很多未知數。Memisevic說:“我們周圍的每一家公司,都必須找到一種利用GPU來訓練網絡的方法,而且我們一直在尋求使用這些GPU探索多個方向。”
使用混合云是一項戰略決策,是由于未來計算需求的不確定性而造成的。Memisevic說,即使GPU本身也可能最終被更好更有效地模擬神經網絡的東西所取代。通過部署更多GPU來使這些網絡更強大的方法并不是最理想的狀態。
事實上,他相信會有更好的選擇。畢竟,人腦比GPU集群強大得多,同時只使用了一小部分的能量,并只是集群的一小部分空間。“現在我們需要不斷縮小體積和電力消耗,這樣應用才會增長。”他說。“GPU的大功率計算的需求會不斷增長。與大腦相比,GPU耗電太多,以后今后可能會有更好的技術,可以使用更少的電能。”