隨著人們向基于服務的基礎設施部署和自動化程度的提高,存儲管理員的角色正在發生變化。智能運維(AIOps)提供了一個框架,既可以減輕資源管理中繁瑣任務的負擔,同時也解決了通過擴展人力資源無法解決的挑戰。以下將探討AIOps的內容以及供應商如何滿足客戶的需求。
背景
AIOps是調研機構Gartner公司在2016年創造的一個術語。它描述了三個學科(自動化、性能管理和服務管理)組成一個框架來改進基礎設施管理員的能力,其實現由多個層組成。
•第1層–數據源。實現自動化以及管理員執行的典型任務需要配置和使用數據。這包括來自系統的遙測和應用程序。
•第2層–實時處理。這意味著實時收集和處理遙測數據,以獲取即時價值。
•第3層-規則/模式。需要使用已經確定的規則和模式來分析數據。供應商已經在開發算法,這些算法可以使用PB級的遙測分析,并將其轉換為諸如異常檢測和故障診斷之類的工具。
•第4層–域算法。其中包括特定于站點的知識,以了解本地化的使用模式和要求。
•第5層–自動化。使用應用程序接口(API)??和命令行界面(CLI)來驅動諸如供應和退役(面向客戶)之類的任務。這還包括自動化性能管理,例如在可用基礎設施中重新平衡工作負載。
跨越所有這些層的是使用機器學習來觀察和檢測遙測數據中的趨勢,異常,這對于工作人員而言是不切實際或無法計算的。因此需要了解人工智能/機器學習如何協助提供更有效的數據和存儲管理。
人為因素
為什么企業需要在存儲管理中引入諸如AIOps之類的工具?雖然全球創建的信息量繼續呈指數級增長,但企業中生成的數據(更重要的是存儲在企業中的數據)也呈指數級增長。以前被丟棄甚至沒有創建的數據如今被視為具有某種可感知的未來價值。企業越來越多地使用機器學習和人工智能,從越來越多的機器生成的數據獲取信息。企業現在正在存儲數PB字節的信息,并希望對此進行實際操作。
敏捷性
業務流程正在推動對數據存儲容量的更大需求,但這只是IT組織所面臨挑戰的一方面。平均修復時間(MTTR)對于確保基礎設施可用性水平接近100%變得至關重要。IT組織通常希望在問題發生之前就識別并解決問題,而不是等待嚴重的失敗。
•存儲和數據保護中對API的需求;
•存儲的智慧;
•存儲管理和DevOps。
減少或管理硬件干預措施還有其他積極方面。IT部門希望將工程師在數據中心更換故障設備的時間降到最低。任何數據中心干預都是一種風險。眾所周知,工程師會因更換而拔出錯誤的硬件,或者意外地碰到設備并造成意外的停機或重啟。
隨著企業之間的競爭,從數據分析中獲取價值的時間越來越短。這意味著開發人員希望在更短的周期內訪問存儲設備,最好是自動化和按需訪問。隨著資源的創建、使用和返回到數據池中,人們預計其配置越來越靈活,這是任何存儲管理員都無法有效跟蹤的。
第1層-指標
為了實現有效的AIOps,系統需要測量存儲操作信息的元數據和度量。這些端點從存儲系統的物理和邏輯方面收集數據。例如,單個HDD硬盤或SSD硬盤操作的數據提供了有關溫度、永久性和瞬態介質故障、吞吐量、性能和設備正常運行時間的信息。此集合擴展到存儲機箱,記錄有關前端端口活動、處理器和內存負載、服務器溫度和室溫的統計信息。
數據收集不僅限于硬件。存儲軟件非常復雜,許多供應商已將其設計模塊化。軟件端點可以跟蹤內部應用程序崩潰、過度使用內存、硬件驅動程序中的錯誤以及甚至用于驅動軟件的命令的使用。最后一點看起來似乎是一個不尋常的指標,但是,查看最終用戶是否在充分利用可用的命令功能或配置正確的最佳實踐選項集可能會很有用。
第2、3和4層–實時處理
如果無法實時進行整理和分析,那么所有這些信息都將毫無用處。通常,人們看到兩層分析方法。首先,供應商將數據整理到大型的中央存儲庫或數據倉庫中,這些存儲庫或數據倉庫代表了整個客戶安裝群中數以萬億計的各個端點數據。
這些數據集合提供了足夠的信息,可以對硬盤故障或可能影響整個客戶群的配置問題進行統計分析。作為信息的長期存檔,供應商使用這些數據來修復硬盤固件中的錯誤或主動替換易發生故障的介質。這個數據源還可用于驗證存儲操作系統軟件的質量。
最終,這種類型的數據收集對供應商有利,因為它有助于提高系統可用性并減少由字段引發的支持調用的數量。不過,客戶也看到了好處。通過代碼更新可能引入的錯誤或其他問題可以避免或減輕。向管理員提供信息以做出明智的決策,而不是遇到其他客戶已經遇到的問題。
異常現象
整理大量單個客戶數據的第二個好處是能夠使用機器學習和人工智能技術,突出配置中的異常或問題。這些場景可能包括確定性能熱點、容量或吞吐量的意外增長,或基礎設施的其他組件(如主機或虛擬機監控程序層)中的配置數據問題。
供應商越來越多地提供識別勒索軟件,在多個硬件配置之間重新平衡工作負載,并為將來的升級或硬件更換提供建議的功能。最后一個選項特別有用,因為它允許管理員建立一個模型,該模型選擇最有效的新硬件配置進行升級和替換。
人工智能/機器學習
在討論過程中,都提到了機器學習和人工智能的使用。為什么這一點作為現代基礎設施管理的特征變得如此重要?在存儲領域,管理員將認識到許多問題很容易消耗數小時或數天的工作時間。
一些良好的例子包括確定性能熱點(并加以解決)、跨系統(前端或后端)平衡I/O活動以及跨多個存儲平臺管理容量增長。幸運的是,通過設計、現代存儲解決方案可以自動解決許多挑戰,從而節省管理員數小時的時間來處理更有價值的任務,從而為他們的客戶增加價值。
盡管在設計上取得了這些進步,但是仍然出現了人類難以識別的異常現象(勒索軟件就是一個很好的例子)。人工智能提供了自動分析大量數據并創建經過訓練的模型的功能,然后可以對活躍系統進行實時分析。
新工具
人們需要新的管理工具才能利用AIOps的優勢。存儲供應商已經開始從基于GUI的系統轉移到管理界面,現在提供命令行界面(CLI)和應用程序接口(API)??。命令行界面(CLI)提供了將命令集成到腳本和自動構建過程中的能力。應用程序接口(API)??提供了更高級的交互級別,尤其是在提取報告或遙測數據時。
這并不意味著圖形界面就此終結。實際上,更加精明的存儲供應商已經轉向使用GUI作為顯示系統狀態,顯示增長和性能趨勢的儀表板,并且通常轉向基于異常的系統基礎設施可視化。
評估供應商
人們應該如何在供應商AIOps解決方案之間進行選擇?這是選擇產品時要遵循的一些指示。
•供應商是否正在收集并積極使用遙測數據?
•如何將問題反饋給存儲管理員(警報、電子郵件、儀表板)?
•從存儲平臺外部收集了多少信息?
•數據如何匿名和保護?
最后一點,因為許多IT組織將關注共享存儲庫中存儲的數據的安全性。存儲供應商應該能夠準確說明如何存儲和管理數據,包括隨著時間的推移顛覆非必要數據的過程。
架構師的觀點
盡管自動化永遠無法完全取代存儲管理員,但是諸如使用AIOps實現的功能可以提高存儲團隊的效率,并使管理員騰出更多精力從事更有價值的任務,例如與企業緊密合作以應對未來需求。企業中數據的增長速度意味著企業必須找到提高單個團隊成員效率的方法。如果沒有AIOps之類的解決方案,企業將難以與競爭對手進行競爭,并可能無法充分利用數據資產。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。