有些人認為,人工智能(AI)理解和解決問題時近乎具有神秘的力量。而人工智能廣泛應用于人們日常生活的許多領域,因此,實現這一目標的硬件開始在數據中心中應用。
數據中心本身存在一系列復雜的問題,包括優化和預測。那么,如何采用人工智能這種神奇的技術來改善數據中心運營?
將人工智能應用在數據中心
機器學習(尤其是深度學習)可以檢查大量的數據集,并在其中找到不依賴于人類用來理解和預測數據的模型的模式。它還可以預測未來將重復出現的模式。
如今的數據中心設施越來越成熟和齊全,傳感器可以提供大量有關IT性能和環境因素的實時和歷史數據。2016年,為了提高效率,谷歌公司將人工智能應用到數據中心上,得到了業界關注。
谷歌公司使用其擁有的人工智能技術DeepMind來優化其數據中心的冷卻。2014年,該公司宣布其數據中心工程師Jim Gao正在使用人工智能技術來實現推薦引擎。
2016年,該項目利用神經網絡優化了谷歌公司在新加坡的數據中心的冷卻設施,這些神經網絡學習如何預測數據中心的溫度,并提供了積極應對的建議。
根據DeepMind的研究工程師Richard Evans的說法,該結果使該數據中心的冷卻費用減少了40%,而PUE(能源使用效率)減少了15%。他表示,“由于算法是理解復雜動態的通用框架,因此我們計劃將其應用于數據中心環境中的其他挑戰。”
該公司2018年宣布的下一步計劃是自動運行數據中心冷卻系統,人工智能系統在工作人員的監督下調整數據中心的運行設置。為了確保冷卻系統安全運行,運營團隊限制了其設置,因此只節省了30%的冷卻費用。
該系統每五分鐘用數千個傳感器對數據中心冷卻系統拍攝一次快照,并將其輸入云中的人工智能系統。這預測了潛在的行動將如何影響未來的能源消耗,并選擇了最佳的選擇。這將數據發送到數據中心,由本地控制系統驗證,然后實施。
項目團隊報告系統已經開始產生出乎意料的優化效果。Dan Fuenffinger來自谷歌公司的一家數據中心運營商,他采用該系統工作了很長時間,他說:“我們看到人工智能學會利用冬季的低溫條件,產生比正常溫度更低的冷卻水,這真是令人驚訝,因為這樣可以減少數據中心內冷卻所需的電能。”
Jim Gao表示,這個成功案例證明了該系統可以安全有效地運作。其決策將受到安全規則的審查,運營人員可以隨時接管。
在這個階段,谷歌公司的人工智能優化只有一個客戶,那就是其自身。但這一想法得到了學術界的大力支持。
穩定性很重要
加拿大安大略省麥克馬斯特大學計算基礎設施研究中心(CIRC)負責人Suvojit Ghosh表示,人類和簡單的基于規則的系統可以對任何情況做出反應,但是當環境發生變化時,它們的反應并不相同,而人工智能可以做得更好,因為它能夠預測變化。
Ghosh說,“我們知道運行的服務器過熱將會導致宕機。但如果有溫度波動,這種情況顯然會更糟。簡單的規則使數據中心迅速達到最佳穩態位置,但在此過程中,它們會使溫度突然發生階段性變化,結果發現這會浪費很多能量。如果溫度條件經常變化,那么其能耗可能抵消收益。如果環境溫度已經達到21℃~27℃,然后再下調的話,將會浪費電能。”
一些數據中心服務商為此做出了回應。數據中心基礎設施管理(DCIM)服務商已經采用了人工智能技術,而一些已經在進行預測分析的公司已經采用了機器學習技術。
分析機構Romonet公司聯合創始人Zahl Limbuwala說,“當前機器學習的各個方面都處于平臺的初始數據處理階段,在將傳感器和儀表的原始數據輸入預測建模引擎之前,對其進行標準化、清理、驗證和標記。”
電力和冷卻方面的智能化措施有不同的名稱。例如華為公司的電力、冷卻和DCIM智能化技術名稱分別稱之為iPower、iCooling和iManager。
與谷歌和其他公司一樣,華為公司從簡單的實際步驟開始,例如使用模式匹配來控制溫度并發現制冷劑泄漏的證據。在電力系統中,它致力于使用人工智能識別和隔離設備故障。
該公司高級營銷經理Zou Xiaoteng表示,在擁有1,540個機架的廊坊數據中心,華為公司大幅降低了使用iCooling技術的PUE值。該數據中心設施的功率密度約為每機架6kW,IT負載率為43%。
DCIM供應商Nlyte公司在2018年將其工具與世界上最知名的人工智能項目之一IBM公司的Watson集成之后,將其應用在DCIM產品中。
Nlyte公司首席執行官Doug Sabella當時預測,人工智能技術增強DCIM將帶來偉大的成就。
他說,“簡單的事情就是預防性維護。但是,除了預測性事物之外,工作人員借助DCIM更好地管理工作負載。在應用程序性能管理方面需要考慮一些問題:可以根據有限的數據集選擇要放置工作負載的位置,那么將它放在公共云中還是私有云中?有助于確定位置和基礎設施的屬性是什么?
這一決定中并沒有包含整體關鍵信息,但從人工智能的角度來看,可以幫助數據中心實際減少工作負載和優化工作負載,并降低工作負載失敗的風險。我們看到人工智能對數據中心的運營將產生巨大的影響。”
IBM Watson公司物聯網北美市場營銷負責人Amy Benett看到了另一個實用的方面。他說,“人工智能作為數據中心團隊的新成員可以一直工作卻不會感到疲倦。”
據報道,Watson技術在醫療保健等要求更高的領域并沒有像承諾的那樣達到預期效果,這讓Watson的表現有些黯然失色。但應用在數據中心可能是其恢復良好聲譽的舞臺。數據中心的關鍵設施的管理要比人體健康簡單得多。
下一階段的發展
Ghosh說,“現在是人工智能解決更大問題的時候了。”這與Sabella的觀點相呼應。在最初的應用之后,提高功率和冷卻??效率的努力最終實現了收益。在這一點上,人工智能可以開始管理加載的內容。
Ghosh 表示,“使用計算歷史記錄的成本進行智能負載平衡或容器編排,可以降低特定應用程序的能源成本。這可能會節省一半的IT能源成本。只需使用人工智能來安排工作,而這不會考慮關閉閑置服務器或其他類似的事情。”
除此之外,Ghosh還在數據中心進行設備運行聲音的人工智能分析。他說,“經驗豐富的員工會根據設備運行的聲音知道出了什么問題。”
華為公司高級經理Zou Xiaoteng說,“如果變壓器出現問題,其噪聲模式會發生變化。通過學習變壓器的噪聲模式,人工智能可以使用聲學技術來監控變壓器的運行狀態。”
Ghosh說,“這種方法允許人工智能超越專家具有的知識和經驗,并了解人類認知永遠無法理解的東西。在接下來的10年,我們將能夠在故障發生之前對其進行預測。我希望能夠創建一種能夠完全消除預防性維護需求的算法。”
華為公司高級經理Zou Xiaoteng認為還有一些好處是,人工智能可以將資源利用率再提高20%,同時減少人為錯誤。
他對人工智能的應用進行了分級。零級數據中心是一個完全采用人工管理的數據中心;第一級數據中心的基本功能是采用傳感器可視化數據中心設施;第二級數據中心可以為工作員提供一些幫助,實現無人值守部分功能,人工智能技術將向工程師報告情況,工程師將做出適當的響應;第三級數據中心可以提供根本原因分析和虛擬幫助來解決問題。華為公司的數據中心已經到達了這個階段。
他說:“在未來,我相信可以使用人工智能來預測是否存在任何問題,并使用人工智能實現數據中心的自我恢復。”
他預測,在這個階段,DCIM系統甚至可以從專門的人工智能處理器中獲益。華為公司已經在嘗試使用其Ascend系列人工智能處理器,在云計算和邊緣方面采用DCIM進行管理。
大多數用戶目前仍然處于早期階段,但有些用戶顯然對此持樂觀態度。富國銀行任務關鍵設施現場經理Eric Fussenegger表示,“如今,我們使用人工智能來監控設定點,采用DCIM加強了數據中心設施的控制措施。”
Fussenegger表示,人工智能在未來可以進一步發揮作用,智能設備可以在數據中心的日常實際維護和操作中發揮更大作用。
他說,“總有一天,機器人可以接管數據中心清潔工作或維護IT設備,并且工作人員不必在冷熱通道區域進行維護。但我認為其工作還是需要工作人員的監督。”