通過人工智能和機器學習技術,數據中心可以采用與建筑管理系統(BMS)同時運行的軟件解決方案,以識別和管理熱失控風險。
2020年似乎成為10年來最熱的年份之一,歐洲今年夏季氣溫很快就達到去年夏季溫度的最高水平,這給當地數據中心的運營敲響了警鐘。高溫不可避免地為數據中心帶來了冷卻方面的挑戰,英國有記錄以來最熱的10年是從2002年開始的,數據中心冷卻策略顯然需要組織為夏季高溫帶來的任何問題做好準備。
鑒于冷卻問題仍占數據中心計劃外停機的近三分之一,因此,數據中心的風險規劃必須考慮到溫度升高的影響。不幸的是,大多數組織似乎仍然沒有意識到數據中心的過熱風險,這種風險會迅速使數據中心的運營處于危險之中。冷卻問題目前已成為數據中心服務中斷的第二大原因,對于組織而言,通過優化散熱性能來降低這種風險至關重要。
識別預警信號
熱失控問題在很短的時間就能產生,即使是經驗豐富的數據中心運營團隊也不會掉以輕心。冷卻設備故障很容易升級為熱失控情況,使全天候運行的數據中心面臨停機風險。
調查發現,其中一個主要原因是現有的解決方案(如BMS)在及時發現熱失控方面不是很有效。由于沒有嚴重違反服務等級協議(SLA)或發生故障,冷卻散熱和氣流問題通常不會過早地觸發建筑管理系統(BMS)警報。但是一旦觸發,則為時已晚,其結果是散熱問題可能會迅速升級,在數據中心運營團隊解決問題之前,將會產生影響整體性能的局部數據中心熱點。
不要等待警報,需要采取更主動的方法
組織需要預防潛在熱失控故障,通過人工智能和機器學習技術,現在可以采用與BMS系統并行工作的軟件解決方案,以識別和管理來自數據中心的熱失控風險。
借助這種實時熱監控技術,可以跟蹤冷卻輸出并提前識別出性能不佳的冷卻系統,以便及時進行改進。在這里,數據中心機架和精密空調監控對于發現典型的冷卻系統和BMS系統無法發現或隱藏的但易于修復的冷卻和氣流問題至關重要。
A公司開發了數據中心的關鍵監視系統,現在能夠完成對關鍵基礎設施的遠程熱失控風險預測分析。在最近的一個示例中,關鍵監視系統的軟件和分析功能用于遠程識別異常熱失控行為,遠程診斷問題并建議如何減輕熱失控影響。所有這些都是在BMS系統發現問題之前完成的。
A公司發布的視頻演示了基于預測性分析的方法如何為數據中心設置預防故障所需的預警功能。在這一示例中,由于精密空調發生故障,具有正常和穩定的冷卻負荷曲線的數據中心的溫度很快就變得不穩定。其時間軸如下:
•軟件分析解決方案利用精密空調中的EkkoAir冷卻負荷傳感器的性能數據來識別精密空調的異常行為。
•軟件分析解決方案可以識別單個冷卻效果不佳的精密空調。
•如果精密空調出現問題,軟件分析解決方案提供了局部熱點的預警。
•軟件分析解決方案還顯示,其他精密空調雖然仍在運行,但無法消除熱點。
•軟件分析解決方案建議關閉發生故障的精密空調,??以消除再循環的熱空氣。一旦采取行動,熱點問題立即得到解決。
•調查并解決了精密空調問題,恢復正常的冷卻運行,并通過軟件分析解決方案進行了確認。
在這個過程中,現有的BMS在任何時候都不會產生警報,因為沒有特定的組件故障或警報閾值被觸發。這個例子顯示了分析解決方案的早期風險檢測分析功能,如何能夠在最終失效之前識別和診斷性能不佳的冷卻設備,從而消除潛在的熱失控風險,并及時進行維修。它還說明了BMS系統缺乏警報生成,這意味著如果沒有額外的預測分析,數據中心團隊將不會意識到出現故障或查找出故障位置。通過對數據中心的整體觀察,關鍵分析軟件能夠捕捉到細微的變化,例如設定值的變化、閥門卡住或格柵移動等,這些變化可能會導致更廣泛的熱失控問題。
熱失控之前的預警
傳統的BMS方法僅在系統出現故障或超出閾值時才生成警報,A公司的高粒度感測和關鍵實時算法相結合,可以在潛在設備出現故障之前先對其進行突出顯示,以免影響數據中心服務的可用性。
只有從數據中心運營中消除100%的熱失控風險,并為后續的冷卻優化項目提供穩定的平臺,數據中心管理人員才能真正實現熱失控管理。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。