如今,IT運營團隊通常側重于采用監控方式監控多種基礎設施,如設備,網絡,服務器,應用和存儲,這意味著整體等于其部分的總和。根據2015年度應用程序的績效監測調查,65%的受訪公司擁有10多種不同的監控工具。
盡管監控儀器的功能和收集的數據量都在增加,但企業幾乎沒有使用更大的數據集來通過根本原因分析和事件預測來提高可用性和性能過程的有效性。W.Cappelli在調研機構Gartner公司2015年10月發布的一份報告中強調,“盡管過去10年的可用性和性能數據量已經增加了一個數量級,但企業發現他們擁有的數據沒有足夠的可操作性,診斷其性能問題的根本原因的時間平均為7天,而2005年為8天;2015年僅有3%的事件被預測,而2005年為2%。其關鍵問題是企業如何理解這些數據?”
這基本上是一個很大的數據問題:大量的數據采用儀器技術能夠收集監控環境的細節;實時收集數據;來自半結構化日志數據的數據類型,可在變更/事件票據中找到的非結構化人類自然語言以及出現在APM事件中的結構化數據;以及由于未清理,不可信或缺少測量而導致的數據真實性。作為回應,行業廠商正在推出IT操作分析(ITOA)解決方案,作為對IT系統行為的洞察力的一種方法:
·知道什么時候有問題影響用戶
·根據業務影響對問題進行優先排序
·避免追查不存在的問題,或者不影響用戶的優先級
·使用與性能指標匹配的問題定義進行故障排除
·知道什么時候(或如果)真的解決了一個問題
來自Gartner公司的ITOA市場見解講述一個有趣的故事:ITOA解決方案2014年的支出與2013年相比翻了一番,達到16億美元,而估計表明目前只有10%的企業使用ITOA解決方案。
收集數據的意義
相關的交叉倉庫數據不是一個新問題。在過去,一個稱為事件關聯引擎的常見相關技術處理事件過濾,聚合和屏蔽。根據統計分析和信號處理的下一個方法,比較了使用相關,互相關和卷積的相關活動時的不同時間序列檢測。最近,基于聚類的新一輪機器學習算法應用了一種能夠識別事件風暴的智能過濾技術。
雖然這些技術是有用的,并且通過減少進入調查的事件的數量使生活更容易,但他們并沒有回答目前的關鍵問題:“問題的根本原因是什么?
了解兩個時間序列如何相關聯并不意味著哪一個引起另一個時間序列的尖峰,這種分析并不意味著導致因果關系。為了超越這一點,人們需要了解數據源之間的因果關系。
有效的根本原因分析的關鍵在于建立可用數據源之間的因果關系。了解哪些數據源包含會影響環境的觸發器,觸發器的實際結果,以及環境如何響應這些更改至關重要。
連接點與機器學習
關鍵的障礙是建立收集的數據源之間的基本關系。主要任務是使用因果關系關聯事件,票據,警報和更改,例如將更改請求鏈接到環境中的實際更改,將APM警報鏈接到特定環境,以及將日志錯誤鏈接到特定的Web服務等。在處理各種級別的非結構化數據時,鏈接過程(或相關性)并不明顯。這是機器學習的完美任務,因為它可以創建不同數據源之間的一般規則,確定如何將它們鏈接到環境,以及何時可以這樣做。
機器學習是研究如何設計可以通過觀察數據學習的算法的領域。機器學習傳統上被用于發現數據的新見解,開發可以自動適應和自定義自己的系統,以及設計系統,這些系統太復雜/太昂貴,無法實現所有可能的情況,例如自主駕駛汽車。隨著機器學習理論,算法和計算資源的需求日益增長,人們在ITOA解決方案中看到越來越多的機器學習應用程序并不奇怪。
還可以利用機器學習來構建基于環境拓撲,組件依賴關系,配置依賴關系的環境依賴模型。一方面,可以利用這樣的環境依賴關系模型來通過抑制從報告問題的環境中不能訪問的元素的根本原因來應用基于拓撲的相關性。
另一方面,這種依賴圖可以用概率貝葉斯網絡建模,這可能會增加模型的誤差傳播概率,缺陷溢出和影響。建立這樣一個模型實際上是不可行的,因為即使沒有解決不斷發展的環境結構,它也需要指定許多環境組件之間的影響概率。然而,通過利用機器學習和大量描述歷史性能的數據,可以構建一個自動估算所有必需概率并即時更新的模型。
結論
由機器學習的ITOA解決方案處理的收集的數據的分析現在獲得了全新的視角??梢酝瑫r分析由分離的監控解決方案收集的數據,從而產生語義上注釋的事件序列。通過應用概率匹配,模糊邏輯,語言相關性和頻繁模式挖掘,可以大大減少可能根本原因的簡短列表。最后,通過自動推斷執行的最可能的根本原因的推理,現在考慮到環境依賴結構以及以前的事件。