數據中心如今面臨著一個看起來幾乎無法解決的挑戰。雖然數據中心的運營從未如此繁忙,但作為企業碳減排目標的一部分,數據中心運營團隊面臨著減少能耗的壓力。而且,急劇上漲的電價正在給數據中心運營商帶來預算壓力。
隨著數據中心專注于支持人們越來越需要的工作和生活的基本技術服務,數據中心的運營如此繁重也就不足為奇了。在沒有放緩跡象的推動下,人們看到與視頻、存儲、計算需求、智能物聯網集成以及5G連接推出相關的數據使用量大幅增加。然而,盡管工作量不斷增加,但不幸的是,當今許多數據中心設施的運行效率都不夠高。
鑒于數據中心的平均工作壽命超過20年,這不足為奇。效率總是取決于數據中心設施的原始設計,并且基于早已被超越的預期IT負載。與此同時,變化是一個不變的因素,平臺、設備設計、拓撲、功率密度和冷卻要求都隨著新的應用的不斷發展而變化。其結果是經常發現全球各地的數據中心很難將當前和計劃的IT負載與其關鍵基礎設施相匹配。隨著數據中心需求的增加,這種情況只會加劇。根據分析師的預測,從現在到2025年,數據中心的工作負載量將以每年20%左右的速度繼續增長。
傳統的數據中心技術和方法難以滿足這些不斷升級的需求。對可用性進行優先級排序在很大程度上是以犧牲效率為代價的,太多的工作仍然依賴于運營人員的經驗,并且相信假設是正確的。不幸的是,有證據表明這種模式不再適用。遠程傳感器監控提供商EkkoSense公司的研究表明,數據中心中平均有15%的IT機架在ASHRAE的溫度和濕度指南規定的范圍之外運行,而由于效率低下甚至導致數據中心冷卻能耗高達60%。這是一個主要問題,根據Uptime Institute估計,由于冷卻和氣流管理效率低下,全球數據中心浪費的能源損失約為180億美元。這相當于浪費了大約1500億度電。
數據中心基礎設施使用的35%的能源用于冷卻,很明顯,傳統的性能優化方法錯過了實現效率提升的巨大機會。EkkoSense公司的調查表明,三分之一的計劃外數據中心中斷是由過熱問題引發的。因此需要找到不同的方法來管理這個問題,可以為數據中心運營團隊提供很好的方法來確保可用性和提高效率。
傳統監控技術的局限性
不幸的是,目前只有大約5%的運維團隊在每個機架上監控和報告他們的數據中心設備溫度。此外,DCIM和傳統監控解決方案可以提供趨勢數據,并設置成在出現故障時提供警報,但這些措施還不夠。它們缺乏分析能力,無法深入了解問題的原因,以及如何在未來解決和避免問題。
運營團隊認識到這種傳統監控技術有其局限性,但他們也知道根本沒有資源和時間來獲取他們擁有的數據,并從分析數據中獲得有意義的見解。好消息是,現在可以使用技術解決方案來幫助數據中心解決這個問題。
現在是讓數據中心與機器學習和人工智能相結合的時候了
機器學習和人工智能的應用在如何處理數據中心運營方面創造了一個新的模式。運營團隊現在可以利用機器學習來收集更細粒度的數據,而不是被過多的性能數據淹沒——這意味著他們可以開始實時訪問數據中心的運行情況。關鍵是使其易于訪問,使用智能3D可視化是一種很好的方法,可以讓數據中心團隊更輕松地在更深層次上解釋性能和數據:例如顯示更改和突出顯示異常。
下一階段是應用機器學習和人工智能分析來提供可行的見解。通過使用機器學習算法擴充測量數據集,數據中心團隊可以立即受益于易于理解的見解,以幫助支持他們的實時優化決策。每五分鐘進行一次實時粒度數據收集和人工智能/機器學習分析相結合,使運營人員不僅可以查看其數據中心設施中發生的情況,還可以找出原因,以及應該如何處理。
人工智能和機器學習支持的分析還可以揭示建議關鍵領域的可操作更改所需的洞察力,如最佳設定點、地板格柵布局、冷卻設施操作以及風扇速度調整等。熱量分析還將顯示安裝機架的最佳位置。而且,由于人工智能能夠實現實時可視化,數據中心團隊可以快速獲得任何已經執行更改的即時性能反饋。
人工智能和機器學習為數據中心運營提供幫助
鑒于減少碳排放量和盡量減少電價上漲影響的壓力,數據中心團隊如果要實現其可靠性和效率目標,就需要新的優化支持。
利用最新的機器學習和人工智能驅動的數據中心優化方法當然可以通過減少冷卻能源和使用來產生影響——在幾周內即可獲得立竿見影的結果。將細粒度數據置于優化計劃的最前沿,數據中心團隊不僅能夠消除過熱和電力故障風險,還能確保將冷卻能耗成本和碳排放量平均降低30%。很難忽視這種成本節省可能產生的影響,尤其是在電價快速上漲的時期。如今為優化而權衡風險和可用性的日子已經一去不復返了,人工智能和機器學習技術將應用在數據中心運營的最前沿。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。