至少在IT領域還沒有出現鞋匠的孩子沒有鞋穿的現象。
在過去的幾十年當中,IT運維團隊一直使用大量先進工具。即便如此,許多IT管理挑戰似乎仍然十分難以解決。但是這些問題的“最后防線”已經被新一代工具所攻破,這些工具采用更加復雜的分析算法來描述問題并且提出解決方案。
“許多廠商在大數據和數據分析領域推出了多種新的工具,能夠幫助企業解決內部運營、高可用性以及用戶體驗方面存在的問題,”IDC企業系統管理軟件部門副主席Tim Grieser表示,“其中的創新在于從大數據和數據分析的角度考慮來自于不同源的超大規模數據。”
這些數據一部分來源于廠商自己的工具,還有一部分來自于更為廣泛的數據類型,特別是“線路數據”,其中包含了大多數通過線纜或者傳輸協議、穿越計算機和遠程通訊網絡的數據。使用這些工具的最終目的在于采用一種全新方式來評估系統性能、可用性和用戶體驗,理解、分析、最終解決這些問題。
“理想情況下,這種全新方式能夠比過去取得更好的效果,未來,用戶可以預測并且防止問題的發生,”Grieser表示。這是關于服務可靠性和用戶體驗的問題。現在,分析工具能夠收集各種信息,從終端用戶到IT基礎架構的運營數據以及業務方面提供的各種信息,他進一步解釋道。
企業已經發現這些最新出現的智能工具能夠為其帶來很大好處。“最佳使用場景是排錯,”他說。企業能夠擺脫過去的“救火隊員”的角色,從危機應對逐漸轉為日常管理。
“通過分析來自于各個方面的數據,企業IT部門也許能夠安靜下來,找到基礎架構和應用程序當中所出現問題的合理解決方案,”他還注意到,可以采用SaaS(軟件即服務)或本地等各種方式進行部署。比如,作為智能IT工具的典型代表之一,Splunk提供了基于云的SaaS以及傳統的企業內部智能運營平臺。企業通常選擇使用云環境以避免計算和存儲大量數據所產生的高昂開銷。另一方面,選擇在本地進行部署的企業大多數是由于數據隱私和數據安全方面的限制。
“在過去的許多年當中,這些應用程序都能夠幫助我們應對這些IT挑戰,而現在ExtraHop和BMC等公司的產品提供了額外的大數據分析和機器學習功能,”ESG集團的分析師Dan Conde表示。
更加高效的IT部門
和其他業務功能不同的是,大數據的使用方式更加開放,IT部門只需要針對幾種具體情況進行分析。這些分析結果可以被用來提升IT部門的工作效率,發現問題,提升安全性并且加快響應速度。已經發生的變化是大數據允許企業存儲比以往更多的信息,網絡排錯軟件和設備可能產生超大規模數據。
“大數據技術的興起為整個行業帶來了新的活力,我們可以看到越來越多的傳統廠商對曾經發生問題的基礎架構和工程方法從更深的角度進行理解并且做出改進,”ESG分析師Nik Rouda表示。
這種勞動密集型、效率低下的工作方式必須從根本上進行改變。IT部門當中的很多系統都會產生日志和數據,這些數據當中包含了系統的運行情況(以及錯誤),這是一個分析的絕佳機會。由于這些數據當中的絕大部分都是非結構性的,因此非常適合于使用大數據技術進行分析。數據來源非常清晰,可以通過定義“閥值”進行監控,但是通常大數據工具能夠發現一些隱藏的數據類型——或者至少對人類來說不那么明顯的特征。
不只是IT部門產生的數據,現在所有的數據都能夠被分析。
“現在,包括Gartner在內的大多數企業中都能夠看到‘線路數據’——其被視為實現IT性能和可用性管理的最重要來源;甚至比基于設備或者主機的數據來源更加重要,”ExtraHop公司市場和業務部高級副總裁Erik Giesa解釋說,這家公司專注于交付IT智能和業務運營方面的虛擬報告和數據分析。
以ExtraHop需要分析的一組數據為例,其中包含了針對250個數據包所進行的實時預處理、測量和計算,需要使用不同協議和數據負載,在四個系統之間相互交換。“如果我們僅僅將上面的數字乘以十,真實環境當中也許是成百上千,那么通過了解實時系統分析每秒鐘所需要處理的事務數量,你就能夠體會其智能程度和規模大小了,”Giesa表示。
這種不斷進化的能力是非常重要的,他解釋道,因為如果使用針對單一事務的抓包和網絡工具,即便是十幾個人都無法完成這些測量和計算任務,更不用說每秒鐘幾千個事務了。針對頁面加載時間、帶寬使用情況、事務規模、訂單ID和盈利情況等提取相關數據之后進行分析,同時確保數據庫事務能夠正確運行,“已經超過了傳統IT運維監控工具的能力范圍,因此需要使用APM(應用程序性能管理)、NPM(網絡性能管理)和日志聚合產品”他還說到。原因是這些信息當中只有非常小的一部分是由應用程序或者設備記錄的,因此使用代理來收集和分析這些數據是不切實際的,特別是在大規模情況下。“設想現在loT(物聯網)、SDN(軟件定義網絡)、容器以及微服務等這些趨勢,企業不能使用代理或者自助報告日志等方式來管理這些傳感器、網絡或者微服務。唯一能夠分析這些活動和行為的方式就是使用線路數據,”Giesa表示。
“這種大數據分析技術能夠起到很大幫助作用,比如,對于安全問題來說。一個經常被錯誤報告的偶然SQL注入問題可能不會引起管理員的注意,但是大數據分析能夠迅速發現其為異常行為,”Rouda表示。
在這種情況下,管理員能夠更加迅速地發現問題,并且鍛煉解決復雜問題的能力——比如資源利用率問題——也就不足為怪了,他解釋道。
這個領域非常適合投資,因為其在IT部門自己的控制范圍之內,需要遵守內部操作流程。“其使用一項技術來改進另外一項技術——這就是其被廣泛接受的原因,”他說。這種趨勢已經促進一些全新廠商的出現,其中最知名的就是Splunk。同時還有許多“服務等級管理工具廠商”比如BMC,以及其他一些網絡公司。
未來發展趨勢
Splunk的核心平臺——Enterprise 6.4——能夠研究、監控和分析來源于多種不同環境的機器數據,從用戶訪問頁面和事務處理情況到安全事件以及網絡活動。其使用一系列的研究、分析、虛擬化和預封裝的實際案例,幫助IT部門發現問題和分享觀點。根據公司提供的資料,這些案例包括應用程序交付、IT運維、安全和合規、業務分析以及物聯網等方面。超過1000個Splunk應用和插件還能夠交付預封裝的視圖、dashboard以及工作流。
與其類似的是,BMC的SaaS平臺TrueSight Intelligence使用REST API來獲取IT運維和業務數據,自動學習這些系統的行為。之后將這些信息輸出到圖形界面,這樣用戶就能夠查看應用程序的健康狀態和性能表現以及一些關鍵的性能指標了。
CloudPhysics同樣能夠收集用戶數據中心的多種數據,之后從容量、性能的角度對數據中心的整體風險和健康程度進行深入分析。此外,CloudPhysics還能夠將每個客戶的數據集和自己的全局數據集進行比較——這個一個包含全部匿名用戶相關數據的集合。通過這種方式用戶能夠以其他組織的數據為基準對自己的情況進行對比分析。這種分析能夠幫助用戶決定是否購買新的服務器、資源的使用效率是否偏低,甚至是決定哪種應用程序最適合運行在云當中。
應用程序的重要性
核心分析對于IT部門來說一直非常重要。“我們必須監控對業務至關重要的任何數字服務,”BMC公司性能和可用性部門總裁Bill Berutti表示。
特別是最近,隨著應用程序的逐漸普及以及用戶體驗重要性的不斷增強,應用程序市場的發展帶動了數據分析需求的增加。日志分析也變得十分重要,Bill Berutti再次表示像BMC這樣的公司已經能夠成功使用日志來分析是否存在問題以及這些問題位于應用程序或者基礎架構的哪一層。
最近,隨著互聯網服務的大規模興起,數據分析變得比以往更加重要。“那些大型顛覆性的公司,比如Airbnb和Uber,就是打破行業數據分析傳統的極端案例,我打賭IT分析一定是這些公司業務的重要組成部分,”Berutt說到,“對于這些企業來說,如果應用程序不能正常工作,那么業務也就不復存在了。”
但是IT分析不僅局限于這些互聯網業務。“零售商和金融機構也開始面臨著相同的情況,”他說。
比如,過去銀行的競爭優勢在于ATM機數量;現在移動設備上的App使得24小時銀行變為可能,其能夠輕松、快速和方便地查詢賬戶余額并且處理支票儲蓄,而實現這些功能需要強大的分析能力。
一些企業的IT部門嘗試使用大數據技術幫助自己完成相關功能,但是“在數據科學和機器學習方面遇到很多挑戰,因為大多數傳統IT部門并不具有相關技能,”他說。
前景分析
除了分析如何“修復”問題之外,另外一個主要關注點是預測性分析。過去企業能夠針對這個領域當中的某個方面實現自己的目標,但是現在主流的機器學習算法已經能夠從多個角度進行根本原因分析,因此能夠應對大量問題,Berutti說。
機器學習能夠很好地應對IT部門所面臨的各種挑戰,ESG公司的Rouda也同意這種觀點。“使用機器學習技術企業能夠查看各種網絡活動,真正開始學習到底發生了哪些事情,”他還說到。
一個大型芯片制造商的案例印證了這種說法,這家公司的報告顯示其每天需要面對800億到1000億個網絡事件,因此雇傭了數十個安全專家來嘗試理解系統相關動態。然而,正如Rouda所說,這種挑戰是無論多少人都無法應對的。
另一方面,使用機器學習技術“我們能夠將這些數據進行分組,輸入不同的集群當中,而員工可以監控整個流程并且進行改進,”Rouda說,“不能使用機器完成所有工作,因為機器不可能理解所有數據的含義,但是其非常善于在不同數據之間建立聯系。并且事實上,這就是真正需要進行變化的地方。”
他預測市場的首要增長點將會是廠商向其現有客戶群體推銷機器學習和大數據分析技術,之后進一步擴展市場規模。“每個IT員工需要負責的應用數量和數據規模一直在不斷增加,但是IT預算卻趨于平緩,因此這種創新能夠讓管理流程更加高效,”Rouda最后表示。