該公司早年一直專注于冷卻優(yōu)化,正在擴(kuò)大其功能范圍,承諾從電源、冷卻和硬件收集數(shù)據(jù)的系統(tǒng),關(guān)聯(lián)所有各種信息,以全面優(yōu)化效率、排除故障、發(fā)出事件警報(bào),并通過識(shí)別異常來防止設(shè)備故障。
AdeptDC預(yù)計(jì)將在下個(gè)月推出其數(shù)據(jù)中心運(yùn)營商的AI助手,首席執(zhí)行官拉亞戈什在接受采訪時(shí)說道。它使用相同的機(jī)器學(xué)習(xí)技術(shù)和相同簡單的安裝方法,通過Docker容器,不需要硬件傳感器。
該公司了解到,它必須解決的不僅僅是飛行員對潛在客戶的冷卻。
戈什說:“我們一直在美國和海外運(yùn)營著幾個(gè)數(shù)據(jù)中心的飛行員,而我們所學(xué)到的是降低冷卻成本和提高相對效率是很好的,但不是運(yùn)營商主要關(guān)心的事情。”
運(yùn)營商主要擔(dān)心避免故障,這通常是由于冷卻問題和相關(guān)硬件問題而導(dǎo)致的。(上個(gè)月災(zāi)難性的微軟Azure停電只是最近一個(gè)備受矚目的例子。)應(yīng)用其技術(shù)來幫助解決這種問題是AdeptDC的新目標(biāo)。他說:“我們使用相同的機(jī)器學(xué)習(xí)技術(shù),但我們使用它來確保硬件運(yùn)行正常并預(yù)測性能問題,而不只是電源和冷卻優(yōu)化。”
這意味著從服務(wù)器電源和風(fēng)扇收集運(yùn)營數(shù)據(jù),據(jù)他稱,其故障是數(shù)據(jù)中心運(yùn)營中的主要問題。“CPU已經(jīng)在硬件架構(gòu)中得到了解決,但電源系統(tǒng)和服務(wù)器風(fēng)扇始終處于故障狀態(tài)。”
AdeptDC的角度是將硬件數(shù)據(jù)與設(shè)施冷卻系統(tǒng)狀態(tài)數(shù)據(jù)相關(guān)聯(lián)。
戈什說:“像谷歌這樣的公司使用環(huán)境數(shù)據(jù)來代表數(shù)據(jù)中心生態(tài)系統(tǒng)和性能的總體健康狀況。”他建議,環(huán)境數(shù)據(jù)(溫度和濕度)是整個(gè)系統(tǒng)健康狀況的一部分,但電壓監(jiān)測也很關(guān)鍵。電壓是整個(gè)數(shù)據(jù)中心健康狀況的主要指標(biāo);如果電壓表現(xiàn)得很奇怪,那么就會(huì)出現(xiàn)各種各樣的問題。
安裝后大約需要一周的時(shí)間來收集足夠的數(shù)據(jù)以獲得基線并開始生成準(zhǔn)確的相關(guān)性。
當(dāng)存在事故并對冷卻系統(tǒng)進(jìn)行微調(diào)時(shí),相關(guān)性對于生成修正建議很有用,但最重要的是,它們對于檢測正常操作期間的異常非常有用。一旦AdeptDC標(biāo)記異常,其儀表板將顯示其所在的邏輯層:IT、網(wǎng)絡(luò)或電源和冷卻。
“我們希望捕捉到作為預(yù)警的癥狀。”戈什說。
相關(guān)性也有助于排除故障。該系統(tǒng)包括用于分類事件的清單,以幫助員工,這可能在停電期間恐慌或在錯(cuò)誤的地方尋找問題。“當(dāng)數(shù)據(jù)中心出現(xiàn)故障時(shí),大部分團(tuán)隊(duì)都會(huì)跑到服務(wù)器機(jī)房,但服務(wù)器問題可能與冷卻問題有關(guān)。”戈什說。
有多個(gè)故障排除級別:
第一級是簡單的事情。例如,如果服務(wù)器指示燈未亮起,則電源或冷卻系統(tǒng)可能存在問題。下一級稍微復(fù)雜一些,例如設(shè)備內(nèi)部的電壓問題。更復(fù)雜的水平處理氣流數(shù)據(jù)等事情。
如果系統(tǒng)通過較低級別并且無法識(shí)別問題,則機(jī)器學(xué)習(xí)功能會(huì)啟動(dòng)以查找根本原因與可能導(dǎo)致問題的各種其他來源之間的關(guān)聯(lián)。
使用機(jī)器學(xué)習(xí)來處理事件可以幫助彌補(bǔ)熟練數(shù)據(jù)中心工作人員的減少。“存在巨大的人才短缺,數(shù)據(jù)中心運(yùn)營管理方面沒有大學(xué)課程,因此這將成為未來的一個(gè)大問題。”Ghosh指出。“部分工作可以通過人工智能以更系統(tǒng)的方式完成,我非常希望下一代人工智能可以幫助彌合供需之間的差距。”