根據世界經濟論壇的估計,到2025年,全球每天將產生463EB的數據。為了應對不斷增加的數據洪流,數據中心運營商正在尋找新方法來實現四個關鍵目標:最大限度地延長正常運行時間、優化能源使用、檢測潛在風險以及防御網絡攻擊。利用機器學習(ML)技術是一個重要的潛在解決方案。
采用機器學習和人工智能可能看起來很簡單,但企業高管有理由謹慎行事。其面臨的挑戰包括投資回報的不確定性、圍繞數據共享的復雜政策以及缺乏高層管理人員的意識和支持。然而,考慮到企業對數據的依賴程度,技術領導者不能忽視機器學習和其他人工智能應用程序的重要性,尤其是在保持正常運行時間方面。
企業為停機時間付出高昂的代價
數據中心計劃外停機帶來的損失范圍很廣,從每小時14萬美元到54萬美元不等,這取決于企業的規模和所在的行業。英國航空公司在2017年遭遇一次重大數據中心故障,導致該公司損失7500多萬美元。由于機器學習和更智能的基礎設施的進步,當今的數據中心能夠極大地簡化正常運行時間的操作。
據市場研究機構International DataCorp公司的預測,到2022年,數據中心中超過50%的技術可以使用嵌入式人工智能和機器學習功能自主運行。以下是機器學習可用于加強數據中心運營的四種方式:
(1)最大限度地提高能源效率
全球數據中心的能耗占到全球能源使用量的1%。這聽起來可能是一個很小的數字,但即使是運營效率的適度提高,也會節約顯著的成本,并阻止數以百萬噸計的二氧化碳排放到大氣中。好消息是能源管理是最容易實施機器學習的領域之一。例如,谷歌公司使用DeepMind節省了約30%的能源,顯著減少了管理費用。
(2)準確的容量規劃
為了滿足日益增長的工作量,數據中心管理人員必須提前準確預測對計算資源的需求。這些預測需要實時更新,以反映環境條件的任何變化。使用高級機器學習算法構建的預測模型可以處理PB級的大量數據,并智能地預測容量和性能利用率。這一規劃有助于數據中心避免任何可能導致停機和影響運營的資源短缺。
(3)更快的風險分析
機器學習可以被訓練成比人類更快更準確地檢測異常。數據中心工作人員可能會花費很長時間來發現某些東西,更糟糕的情況是完全忽略了異常情況。例如,一些數據中心管理即服務(DMaaS)程序可以分析來自關鍵數據中心設備(如電源管理和冷卻系統)的性能數據,并預測它們何時可能發生故障。通過提前通知數據中心設備管理人員即將發生的故障,機器學習技術可以將停機時間降至最低。
(4)抵御網絡攻擊的能力
防御分布式拒絕服務(DDoS)攻擊需要快速檢測和低誤報率。這些檢測方法大致分為兩類:基于特征的和基于異常的。基于特征的檢測在一般流量中具有已知特征,并被廣泛實施和使用。基于異常的檢測超出正常流量模式。機器學習回歸模型可用于識別流量異常的類型,有助于最大程度地減少誤報。
克服挑戰
一些數據中心正在開展人工智能和機器學習試點項目,但有些數據中心難以全面部署。這是因為試點項目將使用較小的數據集并在實驗室條件下運行。例如,在現實世界中,可能需要在幾分鐘內處理幾TB的數據。因此,將人工智能從實驗室擴展到現場是數據中心必須克服的重大挑戰。其他挑戰包括難以訪問高質量數據來訓練模型、實現準確性的實施時間長,以及遵守有關數據共享的復雜法律政策。
那么,數據中心如何克服這些挑戰呢?并沒有一個萬能的解決方案。企業需要從人工智能路線圖開始。這似乎令人驚訝,但許多企業忽略了這一步。企業需要創建一個全面的數據策略,重點關注數據的可用性和獲取以及數據的準確標記。
接下來,使用具有企業級性能的機器學習模型,以便機器學習易于擴展。使用數據中心基礎設施進行自動化和容器化的算法訓練。同樣,這變得易于擴展。關注數據質量并建立卓越的測試中心或為人工智能試點建立類似的結構。這需要考慮企業的相關技術技能、專業知識和能力。幫助將試點擴展到更廣泛的應用程序將會產生更大的影響。
數據中心需要重新規劃如何在不斷變化的環境中運行。在當今互聯的社會中,數據中心將需要不斷突破機器學習的界限,以避免在競爭中落后或不堪重負。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。