世界上可能沒有人能夠比Rob Ober更了解人工智能計算機的了。作為Nvidia公司加速計算集團的頂尖技術執行官,他是特斯拉(Tesla)的首席平臺架構師,特斯拉是機器學習市場上功能最強大的GPU,也是當今應用最為廣泛的AI類型。
上圖:2017年2月,在倫敦科學博物館舉辦的科學博物館機器人展覽會的預覽上展示的世界首款安卓機器人新聞播報員Komoroid。
今天,GPU(或稱圖形處理單元)的應用程序已然遠遠超過了其本身。超級計算機設計人員們發現它們非常適合于從他們所建立的系統中的CPU卸載大量的工作負載;其也被證明是一種被稱為深度學習(Deep Learning)的機器學習方法的超高效處理器。這正是Google公司用來提供有針對性的廣告的AI類型,而亞馬遜的Alexa則可以用于即時回答語音查詢。
創建相應的算法,使得計算機能夠通過觀察和迭代來進行學習無疑是相當復雜的;同樣令人難以置信的是:設計計算機系統來執行這些指令,并借助數據中心的基礎設施來為這些系統供電和冷卻。 Ober在Nvidia公司的超大規模客戶數據中心系統中深入了解了這一深度學習。
他在接受Data Center Knowledge網站的記者采訪時表示說:“我們一直在大型數據中心處理大量超大規模(真正的超大規模)。 而建立一款用于深入學習培訓的GPU系統是一個非常浩大困難的工程問題。這真的非常非常難。即使像Facebook和微軟這樣的互聯網巨頭企業們也在努力。”
上圖:Facebook最新的AI服務器Big Basin。八個散熱器中的每一個都隱藏著GPU。 (照片來源:Facebook)
訓練一款AI需要花費大量功率能耗
培訓是深度學習中所涉及到的一種計算工作負載(或者說是一類工作負載,因為該領域正在發展,并且有幾種不同的培訓方法)。其目的是教授一款深層神經網絡——一個計算節點網絡,旨在模擬人腦中的神經元相互作用的方式——從現有數據中提取新功能。例如,一款神經網絡可以通過重復地“查看”多張其中含有狗的各種圖像來學習識別照片中的狗,圖像中的狗將被標記為狗。
其他類型的工作負載是推理,這是一款神經網絡將其知識應用于新數據的領域(例如,識別之前未見過的圖像中的狗)。
Nvidia公司為上述兩個類別的工作負載制作GPU。但是,在數據中心實施培訓可以說是特別困難的部分,因為用于培訓的硬件需要非常密集的GPU群集,或者每臺服務器具備多達可支持8個GPU的互連服務器。而這樣的一款機柜可以很容易地消耗掉30kW以上的功率密度,超級計算機領域之外的大多數數據中心都不是為這一大功率密度提供支持而設計的。即使這樣,在這個范圍的低端,大約20款這樣的機柜需要消耗與AT&T體育球場達拉斯牛仔隊的超大屏幕一樣多的功率,后者是世界上最大的1080p視頻顯示器,其中包含3000萬個燈泡。
“我們的確是給很多數據中心的基礎設施帶來了真正的壓力,”Ober在談到Nvidia公司的GPU時表示說。 “通過深度學習培訓,企業通常希望盡可能的能夠使得計算池盡可能密集,這樣就會消耗掉相當驚人的功率密度,這無疑是一大真正的挑戰。”另一個問題是如何控制這些集群中的電壓。 GPU計算本質上是在瞬變中產生大量的電力(電壓突然上升),而且這些都是難以應付處理的。”
互連節點是另一大挑戰難題。 Ober說:“根據您的培訓數據來源的不同,數據中心網絡的負擔可能是令人難以置信的。” “你企業可以創造一個真正火的熱點。”在他看來,電力密度和網絡可能是數據中心系統深度學習的兩大設計挑戰。
上圖: Tesla P100 是Nvidia公司功能最為強大的GPU(照片來源:Nvidia公司)
人工智能的冷卻
Ober說,像Facebook和微軟這樣的超大規模的數據中心運營商們主要是通過將他們的深度學習集群傳播到許多機架上來解決功率密度的挑戰,盡管會在液體冷卻或液體輔助冷卻方面面臨一定的“困惑”。液體冷卻是將冷凍水直接輸送到主板上的芯片(冷卻超級計算機的通用方法),而液體輔助冷卻則是將冷凍水帶到連接到IT機柜的熱交換器上,通過冷卻空氣來為服務器提供冷卻。
并不是每家需要支持高密度深度學習硬件的企業都擁有令人羨慕的數十萬平方英尺的數據中心空間,對于那些沒有如此規模的數據中心供應商,例如選擇專注于高密度的數據中心來說,已經選擇了采用液體輔助冷卻的路線。最近,市場對于這些供應商的服務需求已經出現了飆升,而這在很大程度上是受益于市場對于機器學習日益增長的興趣。
包括初創公司和大型公司正在積極的尋求各種方式來利用廣泛預測的技術來推動下一輪的技術創新浪潮,但其中的大多數公司并沒有必要的基礎設施支持這項開發工作。高密度數據中心供應商ScaleMatrix公司的聯合創始人克里斯·奧蘭多(Chris Orlando)在接受采訪時表示說:“現在, GPU支持的工作負載是我們所看到增長最大的工作負載,而這些工作負載絕對是來自企業部門。企業級別的數據中心并沒有這樣的裝備。”
曲棍球棒狀的增長
這方面需求增長的飆升是最近才剛剛開始的。奧蘭多說,他的公司在去年年中的某個時候發現了一個曲棍球棒狀的增長軌跡。而推動這一需求增長的其他應用程序則一直是生命科學和基因組學的計算(ScaleMatrix在圣地亞哥以外的旗艦數據中心的最大客戶之一,這種類型的研究的樞紐是基因組學研究的J.克雷格文特研究所),地理研究和大數據分析。在其位于休斯頓的第二處數據中心,大部分需求則來自石油和天然氣行業,其勘探工作需要一些高辛烷值的計算能力。
ScaleMatrix公司在圣地亞哥的另一家主要的客戶是Cirrascale公司,這是一家專門從事深度學習基礎設施的硬件制造商和云服務提供商。
上圖:ScaleMatrix圣地亞哥數據中心內部一覽(照片來源:ScaleMatrix公司)
ScaleMatrix圣地亞哥數據中心的每臺機柜均可以通過利用中央設備的冷卻水來冷卻完全封閉的機柜周圍的空氣,以支持高達52kW的機柜的冷卻需求。定制化設計的系統的冷卻水循環位于機柜的頂部,其中來自服務器的熱排出的空氣升高并被冷卻,進而推回到主板上。而伴隨著企業對高密度計算的需求的不斷增長,該公司最近已經開始在向那些有興趣在內部部署這項技術的企業銷售該技術了。
一家位于硅谷的數據中心供應商Colovore公司也在專注于高密度的托管服務。該公司正在使用更典型的后門熱交換器,在當前第一階段為每臺機架提供高達20kW的功率密度,在即將到來的第二階段將提供35kW的功率密度。至少已經有一家客戶對其超過35kW功率密度的機架表示了興趣,因此該公司正在探索將冷凍水直接送入類似超級計算機系統的主板的可能性。
今天,Colovore的數據中心容量處理能力的“很大一部分比例”是用于支持GPU集群進行的機器學習,該公司的聯合創始人兼總裁肖恩·霍茨克內西(Sean Holzknecht)在接受采訪時表示。與ScaleMatrix公司一樣,Colovore目前正處在其發展道路的一個很好的位置。硅谷是在機器學習、自動無人駕駛汽車、生物信息學等領域推動信息化的公司發展的最佳平臺,而且精品供應商的高密度數據中心空間也不乏需求。
上圖:Colovore公司數據中心地板下方一覽,該圖顯示了支持水冷卻門的基礎設施。 (照片來源:Colovore公司)
對AI硬件的需求激增
而市場對于由Colovore公司和ScaleMatrix公司所提供的基礎設施的需求可能會持續性的增長。機器學習目前還僅僅處在早期階段,而大型云平臺企業(包括諸如Google,Facebook,微軟和阿里巴巴等等幾家公司)正在使用該技術進行生產。當前,該領域的許多活動包括開發,但這項工作仍然需要消耗大量的GPU功率。
Nvidia公司表示,目前市場對于AI硬件的需求正在激增,其中絕大部分都是由像亞馬遜網絡服務(Amazon Web Services),谷歌云平臺(Google Cloud Platform)和微軟Azure這樣的企業級云巨頭所推動的,這些企業同時也提供機器學習,從而增強了云服務和原始的GPU功耗。市場對于最強大的云GPU實例的可用性極為渴求。Nvidia公司的Ober表示說:“目前,擁有GPU實例的云服務供應商們正在獲得令人難以置信的消費和關注度。” “這真的表明了當前的企業客戶正在轉移到采用他們所能夠獲得的最大的實例。”