對于服務器來說熱點可不是好事情。在本文中,主要探討了它們如何發生,如何通過監控數據中心溫度和冷卻性能來預防其發生。
冷卻故障和服務器溫度過高造成的結果往往比絕大多數關鍵任務數據中心斷電還糟糕。好的持續的不間斷電力供給能夠在發電機啟動、恢復供電或有序關閉時仍能維持服務器正常運轉。然而在如今高密度硬件和一再升高的運行溫度情況下,一次制冷故障(即便是多余的空氣調節)也會導致服務器在幾秒內崩潰。如果數據中心熱點沒有被及時識別,早期會導致硬件故障,以及無法解釋的數據錯誤。
數據中心熱點是如何發生的?
熱點是非常邪惡的,它們悄悄接近你直至設備開始出現故障或是開始出現奇怪的數據異常。如果在沒有了解到機房里冷卻能力的情況下添加或移除設備,熱點就會發生。幾乎在每個數據中心中,冷卻能力都會因處在機房的不同位置以及機架的不同高度而有所不同。通常熱點發生緩慢,因而在事情惡化前很難被識別出來。
合理監控,找出數據中心熱點
找出數據中心熱點最簡單、最省錢的方法就是使用溫度指示消隱板(temperature-indicating blanking panel)。板上的多色彩帶是熱敏感的,能提供一個關于入口空氣溫度的可視化的指示。將它們安裝在每個機架的頂部、中部和底部,或至少在每個機架上都進行安裝。也可以在硬件前端安裝溫度探頭,靠近機架的頂部、中部和底部。如果你只能承擔得起每個機架安裝一個,那么將其置于最弱的硬件前端,一般來說該硬件都是機架中溫度最高的那臺服務器。
數據中心溫度和濕度探頭可作為智能機架配電單元的附加組件,也可以作為單獨的無線設備和一些數據中心基礎設施管理系統的一部分。上述三種方案都能對機房內溫度狀況做實時的圖像展示。最后,你應將這些讀數與計算流體動力學(CFD)空氣流動模型相結合,以在安裝新設備前驗證是否有足夠的冷卻能力。
很多數據中心對冗余冷卻單元進行了投資,然而事實上并不具備冗余的冷卻,有些設計的相當簡陋。一些機房空氣調節組對空氣是如何在數據中心中流動的并不具備足夠的了解,從而導致了更糟糕的冷卻狀況?,F代設計中,冗余配件和正常配件同時工作,不過速度相對較低,因而你往往意識不到增加的服務器正在消耗冗余的冷卻能力,直至故障發生,其被迫關閉用以維修。
所幸的是,服務器能夠忍受高溫運行幾天而幾乎沒有什么負面影響。ASHRAE的允許熱包絡在緊急情況下可上升至32攝氏度或華氏89.6度,不過邊緣冗余加之缺少計劃的增加計算硬件會在冷卻配件關閉后極短的時間內造成嚴重的過熱和熱關機。
預防數據中心冷卻故障
一些人認為在凸起的版面設計中于正常制冷器旁放置冗余制冷器是一個解決辦法,不過這不太可靠。當空氣來自不同的地方,在正?;蛉哂嗯浼蚨咄瑫r運行時的空氣流動模式會有不同。這看似細小的差異會導致數據中心溫度的變化,常導致明顯的熱點。
熱指標是良好的一個開始,不過每次硬件改變時都關閉冷卻配件來觀察哪里過熱是不現實的。解決問題最好的方法是以CFD建立冷卻模型,生成數據中心的一個3D模型,包括特定的冷卻系統和機架熱負荷,這對冗余設計來說特別適用。該程序使用這些信息以處理成千上萬復雜的偏微分方程,形成對空氣流動的分析。該模型提供彩色編碼的圖形和數據表以顯示機房每個點上的空氣量、速度、溫度和壓力,附加板下安裝。其很容易觀察出哪里有額外的冷卻能力,并在那里添加新設備。同時,在該模型下重新設計冷卻也是容易的,也能夠看出冗余設備運作情況如何。