AIOps(用于IT運營的人工智能)是一個相對較新的行業術語,越來越多地與新一代IT管理供應商聯系在一起。但是,幾乎所有AIOps公司從一開始就沒有從完全成熟的人工智能功能開始,而它們都是從網絡監控、應用程序監控、服務臺或基礎設施監控發展而來的。
打破神話
要了解AIOps如何在IT環境中發揮作用及其真正價值,必須首先澄清誤解和區別。很多企業在人工智能方面進行了營銷和炒作。與云計算的情況一樣,人工智能和機器學習技術在2018年被推廣為IT的下一個法寶,但一些企業很快意識到人工智能不是一夜之間的解決方案,而是為取代現有系統而開發的。實際上,實施人工智能行為的機器學習(基本上檢查和比較指標和日志數據,尋找通用模式)是獲得人工智能好處的關鍵。
為了成功實現機器學習,必須處理大量數據集,這需要花費大量時間(數年的數據收集、模擬和場景收集),以允許實際學習發生。這正是潛在客戶應該正確驗證在其營銷策略中聲稱具有相應能力的供應商的原因。
自動化數據中心的未來
對于那些聲稱具有基于機器學習這一能力的廠商來說,在實際生產的過程中,其行業發展前景是廣闊的。當今世界上人工智能提供價值的最好例子之一是通過在數據中心內采用AIOps。數字化轉型對很多企業來說是一個夢想,但現實是由新系統組成的,這些新系統通常是在傳統體系結構之上分層,從而導致混合IT基礎設施環境中的復雜性增加,因此許多組織都在努力實施。在利用新技術升級和改造組織運營和流程的過程中,很明顯AIOps是全面管理和關聯大量移動和相互依賴元素的性能的最有效方式。AIOps是實現自動化數據中心的基礎。
AIOps的價值
當人工智能應用于數據中心內的IT運營時,它可以在所有基礎設施管理工具中提供共享場景,揭示應用程序及其基礎資源的趨勢和行為。AIOps的價值在于,它能夠在許多不相連的系統之間充當核心和大腦,收集、關聯、同步大量信息,將自我學習結合起來形成有意義的模式和聯系。隨著時間的推移,通過機器學習獲得的這種智能可以提供對基礎設施性能的準確實時的洞察,其中包括健康、利用率、可用性。
如今的混合IT環境非常復雜。隨著系統和組件的互連、新采購和過度供應的不斷發生,不斷出現不良影響或噪音鄰接效應,而這將影響整體基礎設施性能,并影響最終用戶的體驗。在成本昂貴的新系統中獲得的預期收益可能取決于互操作性問題,實際上適得其反,在IT基礎設施生態系統中將會產生性能問題。然后,首席信息官如何證明在未按預期執行的新部署上獲得投資回報?更糟糕的是,當被問及原因時,IT團隊所在的一些場景并沒有更接近問題的根源。IT管理員和運營團隊都有自己的工作,他們很難隨時掌握最新情況。隨著停機事件屢見不鮮,表明清晰地了解基礎設施內部正在發生的事情不再是一件簡單的事情。
AIOps的真正好處
根據調研機構Gartner 公司的調查,這個新領域的核心有兩個主要組成部分:大數據和機器學習。這些系統涉及監控、服務臺、自動化等技術,可以持續深入了解IT系統的性能,并為業務提供數據和報告。AIOps的前提是讓管理層了解IT如何支持業務。
該領域中的管理產品雖然重疊但不一定相互沖突。它們可以一起部署和集成,以便為用戶、應用程序、IT基礎設施提供可見性和控制,以實現自動化。
就目前而言,大多數大型企業通常使用數十種管理和監控工具,例如應用程序性能監控(APM)、網絡性能監控(NPM),以及大量特定于存儲器的基礎設施監控工具的組合。在大多數情況下,服務管理和變更管理工具運行良好,但監控方面是一個主要問題,因為這些工具之間并不相關,而且基本上不兼容。一些組織已經實施了專用的AIOps工具,只需收集和分析警報或分析來自其他產品的日志。這些警報和日志聚合工具有助于故障排除,但它們都是“事后”解決方案,不能用于實時性能監控或主動預防問題。大多數監控工具也是特定于孤島的,沒有進行集成,不提供跨孤島的關聯,并且缺乏對應用程序的理解或場景。這意味著它們主要是反應性工具。換句話說,它們能更快地發現事件現場,但不能阻止事件的發生。
應用程序的歷程:基礎設施性能優化的關鍵
為了真正受益于AIOps,需要一種新的、非孤立的、以應用程序為中心的方法。AIOps平臺不應獨立地查看用戶、應用程序和基礎設施,而應該遵循應用程序從最終用戶到IT基礎設施的過程,然后再次退出。企業對部署的技術(向云平臺的遷移證明了這一點)不感興趣,他們想知道的是,運行其業務的一個或多個應用程序是否正在按預期運行。
最近發生了許多關鍵應用程序無法使用并且損害業務及其聲譽的事件。2019年4月,美國一家主要的航空公司發生系統性故障,造成航班延誤。今年3月,谷歌公司的Gmail和云端硬盤遭遇全球中斷,影響了澳大利亞、美國、歐洲和亞洲的用戶;而Facebook公司經歷了被稱為“史詩般的中斷”,導致其在美國和歐洲的服務中斷超過14小時。這些事件不僅影響大量用戶,還影響廣告廠商在Facebook公司平臺上花費大量資金對于潛在客戶發布的廣告。
Gartner 公司指出,“用于IT運營的人工智能(AIOps)平臺是結合大數據和人工智能或機器學習功能的軟件系統,以增強和部分取代廣泛的IT運營流程和任務,包括可用性和性能監控、事件關聯和分析、IT服務管理和自動化。”
這個領域的所有參與者似乎都提供端到端的可視性和實時和單一的視圖。現實情況非常不同,取決于所部署的技術。有些技術整理日志文件,并從歷史角度來查看基礎設施的運行情況。大多數技術收集來自多個來源的數據,并整理成一個整體視圖,但這些數據來自代理,并且由于它們將負載放在實時系統上,因此僅限于幾分鐘內的結果。在經歷數字化轉型的網絡世界中,這還不夠準確。人們需要的是一個來自應用程序、虛擬機、主機、結構和存儲的實時報告,這實際上是一個實時、端到端、單一的整體視圖。
AIOps的關鍵要素是:
(1)自動發現:自動識別已安裝的基礎設施設備,并映射IT基礎設施的拓撲結構,以對應用程序使用的元素、共享資源的位置和可能存在爭用的位置進行單一視圖的呈現。
(2)數據攝取:數據實時從應用程序性能監視器、服務管理工具和IT基礎設施內的所有元素中攝取。處理的數據的容量和粒度對于真實驗證應用程序及其支持的基礎設施的性能至關重要。
(3)關聯性:將IT基礎設施和機器數據與服務臺和應用程序性能監視器結合在一起,生成一個單一的、易于識別的實時報告。
(4)應用智能:利用經驗建議如何通過建議的行動方案優化IT基礎設施,以確保和提高應用程序性能。
(5)基于人工智能的機器學習:了解應用程序活動的正常模式,確保只有當應用程序使用的元素超出其正常活動范圍時才會發出警報。它還將建議采取什么行動。
(6)可視化:提供易于理解的應用程序和基礎設施視圖,可根據管理者的要求進行定制,從簡單的紅色、黃色、綠色管理儀表盤到組件、IO度量和容量的全面深入分析。
真正的AIOps是一種實時、端到端的視圖,組織可以通過其了解運營業務的關鍵應用程序的運行情況,以及如何優化支持它們的不斷增長的IT基礎設施。