通過與HPE公司合作,美國國家可再生能源實驗室(NREL)已在其能源系統集成設施(全球目前最高效的數據中心)中推出了AIOps。
為管理億級數據中心做好準備
HPE公司高性能網絡副總裁兼總經理Mike Vildibill為此表示,“我們為此組建了一個團隊,對構建億級系統所需的內容進行了非常深入的分析和設計,該系統在真實環境中真正可用并運行。
我們需要對數據中心進行管理和監控,必須從數據中心的服務器、存儲設備以及其他設備中收集大量數據。我們必須將這些數據放入數據庫中,然后進行分析,最后才能使用這些數據來管理、監視和控制數據中心。”
他們發現,一個億級系統的管理將需要運算速度達到大約200 petaflops超級計算機來運行。Vildibill說,“我們在探索的過程中偶然發現了一個實際問題。我們意識到,我們需要基于AIOps才能真正以自動化方式管理和控制大型億級系統。”
HPE公司與美國國家可再生能源實驗室(NREL)一起進行了為期三年的研究,在規模相對較小的超級計算機上測試AIOps,將運算速度為8petaflops的Eagle超級計算機作為美國國家可再生能源實驗室(NREL)的旗艦設備進行部署。
美國國家可再生能源實驗室(NREL)運營的數據中心電力容量的設計為10MW,當前系統負載為5MW,但通常只消耗了2MW的電力。
為了模擬1000臺petaflops級超級計算的使用體驗,這個研究團隊擴展了該站點產生的數據。Vildibill說,“例如,如果一個傳感器每秒提供一個數據點,我們想進入并對其進行調整,使其每秒提供100個數據點,并不是說我們每秒需要100個,而是在規劃構建未來的百億億次系統時,希望能夠測試所有基礎設施的可擴展性。”
美國國家可再生能源實驗室(NREL)采用的傳感器不僅可以測量IT設備的功耗,還可以測量有關網絡使用、存儲、各種系統組件(例如溫度、壓力、流量、閥狀態、風扇速度)以及外部環境條件的指標。其系統每分鐘可以記錄一百萬個指標。
在由美國能源部和HPE公司共同發布的一份研究報告中,美國國家可再生能源實驗室(NREL)詳細介紹了其能源系統集成設施第一年的運營情況。
報告指出:“如此龐大的數據量和速度要求系統能夠有效地處理數百萬個同時發生的數據流,同時還要能夠應對停機時間和網絡延遲。因此,在ESIF數據中心中用于數據收集的數據體系結構的設計考慮了數據源、數據頻率、數據移動以及數據的最終存儲和使用情況。數據收集架構的目標是提供適合于從多個異構數據源收集、管理和處理流數據的可擴展基礎設施。”
ESIF數據中心在去年6月開始使用這一數據進行異常檢測。報告指出:“為支持運營彈性,流數據和分析平臺最初部署了一條管道,用于使用Eagle超級計算機和ESIF數據中心的歷史和實時數據來檢測冷卻基礎設施中的異常情況。”
所有這些數據都使得儀表盤很難以人類處理的方式了解設施內發生的所有事情。該報告指出:“這源于需要監控的大量的同步數據流,以及對數據中心設施冷卻系統中每臺設備進行大量調整以實現最佳系統性能的多種影響,研究團隊還發現,設定點、警報和儀表板并不總是能夠識別系統中的異常情況。”
該站點以前的中斷和問題已經采用人工智能系統提供幫助,并強調了工作人員發現的一個問題。這個在冷卻分配單元出現的問題在幾個月的時間內都沒有引起注意,而有關錯誤信息的數據用于訓練AIOps系統。
研究人員說:“在2015年,一個導致系統關閉的三通閥發生故障,這似乎不是需要重點監測的項目,但卻導致美國國家可再生能源實驗室(NREL)在系統關閉過程中損失了2萬個節點小時。在這項工作的推動下,一個關鍵的優先事項是圍繞傳感器的監測和選擇的自動化。這是儀表盤構建和使用方式的根本轉變,使數據中心運營商能夠監控一切,并關注關鍵異常事件。”
除了異常檢測之外,數據流架構還使美國國家可再生能源實驗室(NREL)研究人員能夠研究Eagle超級計算機上單個作業的功率消耗及其相關的冷卻資源需求。
研究人員說,“作為AIOps項目的一部分,我們與HPE公司正在進行的研究旨在擴展用電量預測的用例,并構建原型。”
為了幫助其他企業開展類似的工作,美國國家可再生能源實驗室(NREL)發布了一個包含三個月工作數據的數據集,并提供了每個工作的節點級功耗指標。
到目前為止,AIOps系統尚未對數據中心能源使用效率產生重大影響,ESIF數據中心報告的PUE值為1.06,與通常報告的水平相一致,但低于2017年的最佳PUE值1.032。
預計美國國家可再生能源實驗室(NREL)在今年推出的AIOps軟件開始進行預測性維護和PUE優化。在未來兩年的更新中將會添加根本原因分析功能。利用該項目收集的數據,該實驗室還計劃開發一個模型,用于預測數據中心未來數周或數月的PUE值。
綜上所述,這些努力將為未來的超級計算機采購工作提供信息,其中包括所使用的資源類型、使用效率,以及NREL和 HPC公司如何改進其實踐,并幫助指導綠色節能的數據中心的設計和廣泛采用,顯著降低了超級計算機的碳排放,同時也降低維護成本,提高了系統可靠性。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。