回顧互聯網發展的初期,彼時的數據中心的規??赡芊浅P《乙埠芎唵?。一家大型電子商務服務企業僅僅依靠幾臺19英寸的機架就足以配合所有必要的服務器、存儲和網絡設備的運行。而到了今天,超大規模數據中心的占地面積可達數千公頃,其中有著安置了成千上萬款的硬件設備的數千臺機架上。隨著數據中心設計的變化,這些大型服務器群組(Server Farms)已經被建立在新的、偏遠的地區,同時又靠近人口集中、電力價格便宜的地區。
隨著數據中心運營的自動化,諸如亞馬遜網絡服務(Amazon Web Services)或微軟Azure這樣的公共云服務開始聘用越來越少的高技能的數據中心工程師,這類數據中心工程師的數量通常比安全工作人員和執行人工手工勞動的低技術工人(比如:處理硬件交付)要多。更多的服務器交由更少的員工實施管理意味著電力和冷卻基礎設施的監控需要更多的依賴傳感器。現在,我們可以將這些傳感器稱為物聯網硬件。這些傳感器物聯網硬件有助于在一定程度上幫助數據中心操作運營管理人員識別某些問題,但在很多情況下,經驗豐富的設施工程師的經驗是非常難以用傳感器來代替的。例如,某些經驗豐富的設施工程師可以通過聲音的識別,來判斷機箱風扇的運行即將發生鼓掌運行失敗;或通過聽到的水滴的聲音來定位何處發生了泄漏。
由Tensor處理單元(TPUs)提供支持的服務器機架,谷歌的定制化機器學習處理器(照片來源:谷歌母公司Alphabet公司)
您企業將需要更多的傳感器來監控現代數據中心的基礎設施,而新一代的應用程序旨在通過將機器學習應用于IoT傳感器網絡來彌補這方面的差距。這一理念是通過捕獲運營商的知識,并將其變成規則來幫助解釋相關的聲音和視頻,例如,為越來越多的空數據中心增加一個新的自動化管理層。來自市場調研機構 451 Research的Rhonda Ascierto表示說:“這些服務承諾將能夠預測和防止數據中心基礎架構出現事故和故障,并帶來更快的平均恢復時間和更有效的容量配置,也有助于進一步降低風險。”
預測分析和更廣泛的數據類型
這方面的第一步是數據中心基礎架構管理或DCIM軟件中的預測分析。其中一個例子是位于加利福尼亞州奧克蘭的一家名叫Vigilent的公司的軟件。“其控制系統是基于機器學習的軟件,用于確定變量之間的關系,如機架溫度、冷卻單元設置、冷卻容量能力、冷卻冗余、功率使用和故障風險。其通過打開和關閉單元來控制冷卻單元(包括變頻器,VFD)、調節變頻器,以及調整單元的溫度設定值。”Ascierto說。其使用無線溫度傳感器,并預測如果操作人員采取某些措施會發生什么狀況——例如:關閉冷卻單元或增加設定點溫度。
另一個不同的例子是Oneserve公司的Infinite軟件產品,該軟件將傳感器與更廣泛的數據點相結合。例如:使用天氣條件數據,為位于英格蘭埃克塞特地區的企業客戶提供 “預測性現場服務管理”。其目的旨在滿足預測性維護要求,避免發生故障,并將停機時間降至最低。Oneserve公司的首席執行官克里斯·普羅克特(Chris Proctor)表示說,通過應用這些技術,使得企業客戶處理戰略規劃和采購成為了可能。他說:“數據中心能夠更準確、更有效地管理資產和資源。” (據我們所知,這種功能目前尚未在任何數據中心內使用。)
Oneserve公司專注于更廣泛的維護問題,但該方法與數據中心的操作運營方式配合良好,能夠順暢的與數據中心內部運營團隊和第三方承包商合作。其工具的一個有用的方面是具備跟蹤過去維護的問題的儀表板,允許企業用戶詳細的了解到訪問可能存在困難的地方,或者何處是曾經多次發生問題的地方。今天,這仍然是一個非常依賴于人工手動的方法,但是您企業未來將需要這種數據來訓練機器學習系統。
汲取操作人員的知識
將傳感器數據與數據中心操作運營人員的知識進行了很好的結合的一家企業的例子是來自圣荷西的LitBit公司。據該公司創始人兼首席執行官,在過去曾先后供職于雅虎和蘋果公司數據中心戰略部門的Scott Noteboom介紹說,LitBit數據中心的AI或DAC,使數據中心的操作運營人員們能夠使用機器學習技術來構建、培訓和調整自己的“同事”。這些可以跨數據中心對事件進行響應,提醒運營人員,甚至最終自動執行操作。LitBit公司的方法的核心關鍵是一種輔助學習的形式,其中系統在檢測到新的異常事件時向操作運營人員發出警報,然后操作運營人員為將來如何對此類事件做出反應而制定一套規則。為了收集數據,LitBit公司采用了一款移動應用程序,可以進行視頻拍攝,然后可以將視頻轉換成數千個圖像進行培訓。
該初創企業提供了一款托管云服務,這將允許該公司能夠充分利用許多用戶的匿名數據來構建更復雜和更準確的模型;而有些客戶會選擇將他們的培訓模型保密,而另外一些企業客戶則可以將其培訓模型作為額外的收入來源進行銷售。正如Ascierto所指出的那樣,“數據中心管理數據的價值在大規模聚合和分析時實現其價值的倍增。通過將算法應用于許多客戶聚集的大型數據集,包括不同類型的數據中心和不同的位置,例如,供應商可以預測設備何時會出現故障,以及何時會出現冷卻閾值。
在操作運營過程中有很多隱含的知識,而將這些知識整理規范制定成規則則可以幫助識別問題并更快速的做出響應,特別是當具有知識經驗的操作運營人員不在身邊時。即使您企業經營的不是大型的地理位置隔離的數據中心,您仍然希望能夠在非工作時間或員工生病請假期間確保有效的回應。一款數據中心AI可能無法完全替代您數據中心經驗豐富的操作運營人員,但其可以成為增強現有技能,并幫助將豐富的經驗技能教給給其他團隊成員的工具。
這個領域目前還不成熟,但發展速度很快。使用傳感器數據的機器學習應用正在迅速發展,并被廣泛應用于各行各業。微軟研究部門一直在與Sierra Systems合作,開發基于機器學習的音頻分析,以便檢測油氣管道的缺陷,利用其認知工具包來幫助對異常狀況進行分類。另一方面,用于超大規模云的機器學習模型和工具的規模正在縮減,壓縮的神經網絡使用量化權重,運行在諸如Raspberry Pi的低容量設備上。
不要指望部署了基于AI的數據中心管理服務就能夠為您提供即時的結果;該技術目前還很新,服務還在發展中,他們需要大量的培訓。Ascierto指出,較之您數據中心可能已經擁有的DCIM軟件,您需要更多的傳感器。 “如果您想利用AI制定終端到終端的冷卻器到機架的決策,那么一些設備以及環境傳感器和功率計將需要聲學和振動傳感器。如果目標是優化和自動化冷卻單元的設定點溫度,則可能需要每臺機架(頂部、中間、底部)部署多個環境傳感器。
基礎數據模型可能是存在的,但也必須針對您企業數據中心的特定設備、特定工作負載進行調整,最重要的是您企業數據中心站點的特性。培訓一款AI支持系統將需要時間,就像在培訓新機器的操作人員一樣,但是隨著時間的推移,類似的機器學習工具將可以幫助您企業更好的運營數據中心。