熱點問題是計算機房空調的一大隱痛,使一些數據中心實施熱源冷卻以及能跨服務器重新分配工作負載的軟件工具。
一些IT團隊將每平方英尺的機柜密度推向峰值效率,并為之建立冷卻結構。其他的數據中心每個機柜甚至沒有達到高功率密度,但IT部門陷入了熱點問題。
美國馬薩諸塞州綠色高性能計算中心MGHPCC關于計算的研究顯示,刀片服務器中包含PB內存、高速中央處理單元(CPU)和GPU,都通過高速互聯網絡連到一起。
哈佛大學的調查員James Cuff 說:“我們運行的系統不斷變熱,我們的目標是100%的效能。”
MGHPCC的機柜設計成每個機架負載為標準14KW,每個機架平均約10KW。然而每個機架能夠輕松承受20-25KM,理論上達到100KW的密度是可能的。
“當功率上升,液體冷卻無疑重新回到了數據中心,但是現在,空氣冷卻的性價比讓其更受歡迎。”
MGHPCC的IT技術領導James Culbert說:“MGHPCC使用熱通道遏制和行間冷卻,通過一個25到106華氏攝氏度的熱通道使服務器維持在81華氏攝氏度。”
計算流體動力學模型軟件和服務供應商Future Facilities公司的CEO Hassan Moezzi指出:“密集的機柜創造了復雜的空氣流類型,需要注意布局和嚴謹的冷卻。一個數據中心就像是俄羅斯方塊。”
Hassan Moezzi說:“當目標是100%塞滿機架,事實上,設計者們都會制造孔洞和洞隙,物理破碎破壞了能量效率。”一個Future Facilities客戶端最終因為超載45%的容量導致過熱的機架。
MGHPCC將機架進行了安排,使布線不在熱量流動的位置,但是由于高密度和混合使用的機架,他們仍然安排行間系統冷裝置冷卻熱點。其他的數據中心將冷卻設置在離熱源更近的地方。
MTS Systems公司IT服務經理Greg Tupper 說到:“機架冷卻可以節省很多的成本,有效地關閉交流電源,但是我們還沒有這么做。”
MTS淘汰了許多舊的服務器,所以他們需要重新部署機架以增加密集度。Tupper展望,在放置冷卻器之前每個機架至少有70%的空間是填滿的。機架冷卻供應商提供了自頂向下或者rear-door模型,以及多種多樣的配置選項。Tupper建議研究你的機架是否與冷卻系統供應商的產品兼容,并不是每一個機架都是相同的大小或者是相同的深度。
機架冷卻裝置是一個大型的一次性資本支出,需要相關的人力和設計成本。Tupper推薦在4-5家供應商之間做成本對比,同時加入你的機架密度、存在的問題和目標等已確定的信息。
Tupper 說:“例如,我喜歡OptiCool提供的散熱器單元模塊化產品,在遇到失敗情況時該產品是多重路徑,但Subzero的自頂向下設計在我們當前空間中的設置失效。” MGHPCC發現他們將最初的行間冷卻規格設置的有些過度了,能夠在每個安裝中拿走幾臺冷卻器而不會損失冷卻性能。
“這也是我們擔心的問題,塞滿了機架或者過度投資。” Tupper說。
然而,根據主機托管供應商RagingWire 數據中心SVP兼CTO William Dougherty指出,高密度機柜沒有像我們期望的那樣快速發展。 多數托管用戶和供應商為每個機架裝滿4-6KW的機柜,他說:“很少有用戶為一臺機柜分配10KW工作負載。”
Dougherty相信處理器能效的增加會使大多數的商業服務器和IT設備保持和先前版本一樣強大。
“用戶看不見更加密集的好處,所以增加密集度和應對專門的冷卻條件是毫無意義的。” 他說。
工作負載管理緩解熱點問題 系統管理軟件供應商TeamQuest 公司市場發展主管Dave Wagner指出,相反,數據中心IT員工可以通過重新分配工作負載來改善熱點問題。
Wagner說到:“在另一臺機架中也許有未充分利用的服務器可以接管熱機柜的工作負載。你需要知道哪里有剩余空間和哪里的芯片負擔過度。” 工作負載管理是“比構建CRAC更加便宜,”Wagner說。
典型企業的數據中心中有來自不同廠商的不同設計因素,可能每家廠商的產品也有不同版本,Wagner說,你必須建立熱量和電源之間的物理映射,同樣還有應用資源消耗的工作負載分配的映射。數據中心基礎設施管理工具能夠管理這些方面,他說。這些需要IT和設備團隊去經常查看映射。
畢竟,數據中心充滿了IT 設備,一個不變的操作是:改變。 Future Facilities公司Moezzi 說:“你認為你已經設計了最靈活的、只要智能電源在最大數量(例如兩百萬瓦特)內,可以做任何你想做的事,但是每個改變都在侵蝕你的容量和電源。”
任何改裝或者是建立新的數據中心的人都應該準確地測量每個機柜的電能是否接近低能效,防止過度冷卻或者未利用的冷卻裝置運行在上面。Wagner說,在高負載情況下,機柜也許承載了比標準負載情況多五倍的能源,所以你怎樣設計兩者?預留空間來轉移負載。
Dougherty說:“像PowerAssure的軟件定義電源的自動化和流程編排層,可以使數據中心在經營需求的基礎上轉移工作負載,當需求變化時,重要的是將服務器移來移去需要保持可靠性和一致性,這種做法就電源使用、延遲和管理上而言都會獲得回報。”