在互聯網的初期,數據中心的規模很小、很簡易。大型的電子商務服務數據中心僅用幾個19英寸的機架就可以部署所有需要的服務器、存儲及網絡設備。現如今數據中心,占地面積很大,成千上萬英畝,在這些數據中心上矗立著成千上萬的機架,上面部署著成千上萬的網絡設備。由于規模越來越大,設計理念的變遷,這些超大型的數據中心多數已經建立距離市區較遠的地區或建立在工業電價便宜的偏遠地區。
隨著數據中心運營的自動化,像亞馬遜(Amazon Web Services)或微軟公共云(Microsoft Azure)這樣的公司未來會越來越少的雇傭高技術數據中心工程師,通常是安全人員和從事體力勞動的低技能工人要比數據中心高級工程師多,,他們通常高級工程師工作量大,處理更多的工作,比如人工處理硬件交付等。
用越來越少的工作人員管理更多的網絡設備,就意味著對于數據中心的電力和冷卻基礎設施的監控,需要更多地通過傳感器來進行實時監控,這樣的狀況,我們現在將之稱為物聯網。雖然物聯網在一定程度上有助于識別故障,但在很多情況下,具備豐富經驗的工程自身積累的多年經驗是很難用傳感器代替的。比如,經驗豐富的工程師可以通過設備發出的聲響,分辨設備運行狀況,有些聲音代表風扇出現故障,通過滴水聲音,能夠判斷漏水位置。
數據中心管理人員需要更多的傳感器來監控現代數據中心的基礎設施,新一代的應用程序旨在通過將機器學習應用到IOT,以此彌補差距。這個想法就是通過將操作人員的經驗轉變成電腦規則,以此來分析通過傳感器得到音頻和視頻,例如,自動為日益增加的數據中心添加新的管理層。
451Research(一家研究機構)公司的分析師Rhonda Ascierto表示:”這項服務目標旨在——預測并防止數據中心基礎設施的事件與故障的發生, 更快地恢復故障、更快的擁有更多有效的容量意味著可以降低數據中心的風險。”
·預測分析和寬泛的數據多樣性
第一步是利用數據中心基礎設施管理(即DCIM)軟件的預測分析。例如,位于加利福尼亞州奧克蘭市的一家名為“Vigilent”的公司出品的軟件,該軟件的“控制系統是基于機器學習軟件,用于確定變量之間的關系,如機架溫度,冷卻單元設置,冷卻能力,冷卻冗余,功率使用和故障風險。 它通過打開和關閉單元來調節冷卻單元,包括變頻器(VFD),上下調節變頻器,以及調整單元的溫度設定值。“,該軟件使用無線溫度傳感器,并預測如果操作員采取某些措施會發生什么,例如關閉冷卻單元或提高溫度設定值。
另外一個例子,在英國的Oneserve公司推出的“預測性現場服務管理”軟件,其目的是預測維護需求,避免故障,并將停機時間降至最低。 Oneserve首席執行官克里斯·普羅克特(Chris Proctor)說:“通過應用這些技術,應該也可以同時處理規劃和采購策略,并能夠更準確有效地管理數據中心資產和資源。” (目前,據我們所知,這種功能尚未在任何數據中心內使用。)
Oneserve致力于解決數據中心中運維領域的問題,該公司軟件可以將數據中心的運行方式、內部運營、第三方承包商合作。該軟件其中的一項工具的可用于跟蹤曾經維護過的控制面板,使用戶能夠詳細了解什么地方可能出現故障,或者那些地方已經出現故障多次。如今,這還是需要人工完成數據歸類、分析,未來這種數據將會通過機器學習后,由設備完成。
·利用人類經驗
San Jose(圣何塞-美國加州西部城市)的LitBit公司推出的產品是將傳感器收集的數據與操作人員具有的經驗結合在一起。
Scott Noteboom(LitBit公司創始人兼首席執行官),, LitBit的數據中心AI(人工智能),或DAC(數字模擬轉換器)曾為雅虎、蘋果公司提供數據中心戰略,使運營商能夠使用機器構建,培訓和調整自己的“同事” 學習技巧 這些可以響應數據中心的事件,提醒運營商或最終自動執行操作。 LitBit的方法關鍵在于輔助學習的一種形式,其中系統在檢測到新的異常事件時向運營商發出警報,然后運營商為將來對此類事件做出反應而制定一套規則。 為了收集數據,LitBit有一個移動應用程序,它接受視頻,然后可以將其轉換成數千個圖像進行培訓。
Startup公司提供托管云服務,這將允許它利用許多用戶的匿名數據來構建更復雜和更準確的模型; 而有些客戶會選擇將他們訓練有素的模型保密,而另外一些客戶則可以將其作為額外的收入來源銷售。 正如Ascierto所指出的那樣,“數據中心管理數據的價值在大規模聚合和分析時會倍增。 通過將算法應用于許多客戶聚集的大型數據集,包括不同類型的數據中心和不同的位置,例如,供應商可以預測何時設備故障,以及何時會出現冷卻閾值。
·不能完全依賴AI
在運行過程中有很多隱含的知識,將其顯露出來作為規則有助于識別問題并更快地進行響應,特別是具有豐富經驗的運維人員不在現場時。即使不是從地理位置上來看獨立的數據中心,你仍然希望能夠在非高峰時間或員工生病期間有效地應對出現的問題。數據中心AI目前還不能完全替代操作人員,但它可以成為一種工具,增強現有技術,并幫助操作人員解決運維問題。
目前,這一領域還不是很成熟,但發展很快。使用傳感器數據的機器學習應用程序正在迅速擴展,廣泛應用于各種行業。微軟研究部門一直在與Sierra Systems(塞拉系統是塞拉集團公司的一部分,它是北美最大的獨立IT服務公司之一)公司合作,開發基于機器學習的油氣管道缺陷音頻分析,利用其認知工具包來幫助對異常進行分類。 在規模的另一端,用于超大規模云的機器學習模型和工具被縮減,壓縮的神經網絡使用量化權重運行在諸如Raspberry Pi(Raspberry Pi是一款針對電腦業余愛好者、教師、小學生以及小型企業等用戶的迷你電腦,預裝Linux系統,體積僅信用卡大小,搭載ARM架構處理器,運算性能和智能手機相仿。)的低容量設備上。
由于人工智能的數據中心管理服務是新興技術,目前還在不斷的開發中,而且還需要進行大量的實踐培訓,因此,不要期望實施基于AI的數據中心管理服務能夠很快看到效果,他們還需要大量的培訓、實踐。實施人工智能可能需要比 DCIM軟件安裝還多的傳感器。“如果你想要利用人工智能實現冷卻器端到端,冷水機組到機柜的目標,那還需要一些聲學和振動傳感器設備,以及環境傳感器和電力儀表等設備。如果目標是優化和實現冷卻單元的設定溫度,那么每個機架(上、中、下)可能需要多個環境傳感器。”
通過傳感器,建立起基礎數據模型,但是它們也必須針對您的特定設備、您的特定工作負載,以及最重要的,對您站點的特性進行優化。培訓一個人工智能支持系統需要時間,就像給一個新的人工操作系統安裝一樣,但是在時間上,類似的機器學習工具將會幫助運行你的數據中心。