11月12日-17日,全球超算大會SC17將在美國丹佛舉行,本屆大會的熱點議題可能會涵蓋E級計算、人工智能、HPC云等。
在ISC17上我們可能會看到,HPC在金融、物流、大型科學、石油和天然氣等領域的應用繼續擴展到傳統的企業計算方面,這些領域通常與大數據開發聯系在一起。很明顯,所有這些部分都在使用(或者計劃使用)機器學習和人工智能,產生類似于HPC的體系結構。
由于CPU、GPU和新興的神經芯片需要滿足HPC的集群加速計算需求,這些系統的物理實現需要更專注于熱捕捉和抑制。由此產生的熱量和對節點、機架和集群熱密度的影響,與英特爾的Knights Landing 、Knights Mill、Nividia的 P100 以及英特爾的 Skylake 處理器有關
瓦特數現在已經足夠高,在包含這些HPC的冷卻節點上,除了液體冷卻之外,沒有其他選擇,以保持合理的機架密度。如果不能在節點級使用液體冷卻,則需要進行地板空間的構建或數據中心擴展。更重要的是,減少節點和機架密度可以驅動所有類型的集群節點之間的互連距離的增加。
▲Asetek RackCDU D2C冷卻
事態的發展直接導致了瓦特數出現拐點,而不是簡單地延伸之前的趨勢。根據所采取的方法,機器學習和人工智能加劇了這一趨勢。在人工智能應用程序的培訓或學習階段(特別是在深度學習/神經網絡方法中使用),在GPU中體現出的熱功率問題是眾所周知的。那么在某些情況下,如果將GPU應用于此,這些問題也會繼續出現。
即使在訓練階段采用像Knight’s Mill這樣的quasi-GPU,這種問題仍然會出現。
由于分布式冷卻能夠在各種各樣的場景中解決站點的需求,因此可以認為,計算熱功率的拐點是HPC的站點和為服務于他們的原始設備制造商(OEM)在全球加速中采用Asetek液體冷卻的主要驅動要素。正如即將在sc17中呈現的那樣,OEM在液冷方面相當一部分會是針對機器學習。
考慮到集群的多樣性(特別是人工智能的加入),冷卻方法的適應性變得相當重要。Asetek分布式結構基于低壓、每個服務器節點的冗余泵和閉環冷卻液。這使得在熱捕捉和熱排斥方面具有很高的靈活性。
Asetek serverls是一個服務器級液體輔助空氣冷卻(LAAC)的解決方案。它可以作為液體冷卻的過渡階段,也可以作為一種工具,使高性能計算節點立即并入數據中心。它允許站點利用現有的HVAC、CRAC和CRAH單元,但不改變數據中心的冷卻。
ServerLSL取代了在服務器中使用冗余冷卻器(冷盤/泵)的效率較低的空氣冷卻器,并通過每臺服務器上的熱交換器(HEXs)將100%的熱空氣排放到數據中心。這使得高功率的服務器節點具有1U的外形尺寸,并保持較高的集群機架密度。在站點級別,熱量由現有的CRAC和chiller在不改變基礎設施的情況下進行處理。使用ServerLSL,可以將液體冷卻的節點與傳統的風冷節點混合在一起。
▲ Asetek serverlsl冷卻
雖然ServerLSL在每個服務器中隔離了系統,但Asetek RackCDU系統的重點是racklevel,這對數據中心整體的冷卻成本產生了更大的影響。RackCDU系統利用了與ServerLSL節點相同的泵和冷卻器。RackCDU目前使用的是使用Asetek液體冷卻的TOP500中的所有站點。
Asetek RackCDU在節點級和整個設備上都提供了方案。與ServerLSL一樣,RackCDU D2C(direct -to- chip)利用了服務器CPU和GPU上的冗余泵/冷板(以及其他類似于內存的高功率組件)。但收集到的熱量則通過密封的液體路徑將其移動到RackCDU的熱交換器中,以便將其輸送到設施水中。RackCDU D2C捕獲了60%到80%的熱量,降低了50%的數據中心冷卻成本,并允許數據中心服務器密度增加2.5-5倍。
在這種混合液體/空氣冷卻的方法中,現有的HVAC系統消除了數據中心空氣中的余熱。當有閑置的冷卻能力可用時,數據中心可以選擇來自RackCDU和現有的CRAC和冷卻塔的冷卻設施水。
在服務器、機架、集群以及由Asetek分布式提供的站點級別上,Asetek在處理冷卻方面具有很高的靈活性,但缺乏集中泵送的方法。
在SC17大會上,Asetek還將展示一種新的冷卻技術,在該技術中,服務器共享一個安裝了HEX的機架。
這一次的國際超算大會,備受矚目,人工智能與機器學習也必將是不可或缺的大熱,值得期待。