IT運(yùn)營(yíng)分析(ITOA)如今已經(jīng)成為可以幫助技術(shù)管理人員提高效率的一種具有價(jià)值的實(shí)踐。它使用數(shù)據(jù)科學(xué)原理來執(zhí)行從底層基礎(chǔ)設(shè)施和應(yīng)用程序收集的數(shù)據(jù)的模式發(fā)現(xiàn)、相關(guān)性、異常檢測(cè)和根本原因分析。
更簡(jiǎn)單地說,ITOA提供了一種檢索、分析和報(bào)告數(shù)據(jù)的方法,以改善IT運(yùn)營(yíng)的結(jié)果。如今,沒有一個(gè)產(chǎn)品或供應(yīng)商能夠成為一種萬能的解決方案。相反。ITOA是一項(xiàng)總體活動(dòng),它使IT團(tuán)隊(duì)成為其組織的洞察引擎,可能導(dǎo)致更高的預(yù)算和更大的影響力。
ITOA依靠機(jī)器學(xué)習(xí)來了解行為、發(fā)現(xiàn)模式、為事件關(guān)聯(lián)和異常檢測(cè)提供具有監(jiān)督和無監(jiān)督的學(xué)習(xí),并執(zhí)行根本原因分析。這種方法創(chuàng)建了一種預(yù)測(cè)可能對(duì)IT服務(wù)性能產(chǎn)生負(fù)面影響的最終狀態(tài)的方法。
例如,Trace3公司已經(jīng)發(fā)展了ITOA的概念,以應(yīng)用于所有IT運(yùn)營(yíng)。這個(gè)舉措歸功于“操作系統(tǒng)”,它將IT操作分成六個(gè)主要區(qū)域或組件層,如下圖所示。
ITOA系統(tǒng)的組成
以下是每個(gè)區(qū)域的描述:
·監(jiān)測(cè)生態(tài)系統(tǒng)。這個(gè)堆棧的基礎(chǔ)層是整個(gè)ITOA框架的基礎(chǔ)。監(jiān)控生態(tài)系統(tǒng)收集有關(guān)IT系統(tǒng)實(shí)時(shí)發(fā)生的事件的遙測(cè)信息。正在進(jìn)行的活動(dòng)涉及記錄和傳輸來自數(shù)據(jù)中心和網(wǎng)絡(luò)設(shè)備的讀數(shù),使得基礎(chǔ)層更加嘈雜,大量的數(shù)據(jù)不斷滲透。
·自動(dòng)化系統(tǒng)。這種自動(dòng)化編排片段允許團(tuán)隊(duì)在各種聯(lián)網(wǎng)系統(tǒng)中實(shí)施更改。可以部署DevOps自動(dòng)化工具(例如Puppet或Chef)來識(shí)別特定事件。當(dāng)某個(gè)事件發(fā)生時(shí),自動(dòng)化系統(tǒng)可以觸發(fā)正確的響應(yīng),并通過自我修復(fù)來糾正任何問題行為。
·參與系統(tǒng)。這個(gè)事件管理層可以被認(rèn)為是“管理者的管理者”,因?yàn)樗芾韥碜哉麄€(gè)組織的事件。參與系統(tǒng)可以作為硬件故障和軟件崩潰等事件的窗口,然后向更高層報(bào)告。
·數(shù)據(jù)管理。這一部分與參與系統(tǒng)一起收集和存儲(chǔ)數(shù)據(jù)的時(shí)間較長(zhǎng)。通過匯總這些更大的數(shù)據(jù)集,管理人員可以進(jìn)行取證分析,梳理出有意義的模式并識(shí)別性能異常情況。將數(shù)據(jù)管理視為追蹤IT運(yùn)營(yíng)背景歷史的機(jī)構(gòu)記憶。所以,如果一臺(tái)路由器在早上8點(diǎn)宕機(jī)關(guān)閉,那么它會(huì)被參與系統(tǒng)標(biāo)記出來。但是,如果同一臺(tái)路由器每天早上8點(diǎn)定期關(guān)閉,那么數(shù)據(jù)管理部分會(huì)發(fā)出哪些相關(guān)組件或問題可能導(dǎo)致故障模式的信號(hào)。
·記錄系統(tǒng)。這部分是為運(yùn)營(yíng)團(tuán)隊(duì)生成客戶服務(wù)級(jí)別記錄的票務(wù)平臺(tái)。記錄系統(tǒng)可以為任何故障創(chuàng)建票證,還可以顯示網(wǎng)絡(luò)配置和軟件設(shè)置,以豐富參與系統(tǒng)。另一方面向最終客戶提供有關(guān)其服務(wù)發(fā)生情況的反饋,以及有關(guān)停機(jī)狀態(tài)的更新。
·可視化。可視化層提供了提取所有基礎(chǔ)組件的能力,以報(bào)告諸如停電、消費(fèi)模型、總成本和月度比較等重要指標(biāo)。可視化層通常是一個(gè)可通過Web瀏覽器訪問的儀表板,數(shù)據(jù)是基于每個(gè)最終用戶的角色呈現(xiàn)的。例如,公用事業(yè)公司的技術(shù)人員可能會(huì)收到關(guān)于全系統(tǒng)性能和停機(jī)的更新信息,而消費(fèi)者會(huì)看到有關(guān)家庭電能使用情況的指標(biāo)。
綜上所述,IT運(yùn)營(yíng)分析需要人員、流程和技術(shù)的編排互動(dòng)。在很多情況下,最薄弱的環(huán)節(jié)是人員。為了取得成功,他們必須具備適當(dāng)?shù)募夹g(shù)技能。但同樣重要的是,人們需要認(rèn)識(shí)到舒適度和變化是相互排斥的。在不再工作后,不能繼續(xù)以相同的方式做同樣的事情。拒絕改變的IT管理人員將會(huì)變得落后過時(shí),并被他們的更加靈活的對(duì)手超越。
所有ITOA流程必須在IT服務(wù)管理水平、測(cè)量類型和總體責(zé)任方面進(jìn)行明確定義。在很多方面,該技術(shù)成為最簡(jiǎn)單的部分。雖然成千上萬的硬件和軟件產(chǎn)品可供使用,但可以根據(jù)客戶的IT環(huán)境和業(yè)務(wù)目標(biāo)輕松選擇合適的工具。技術(shù)處于所有ITOA計(jì)劃的中心,被各種人員和流程所包圍。
隨著越來越多的可量化指標(biāo)圍繞IT運(yùn)營(yíng),ITOA的好處變得越來越清晰。
將ITOA應(yīng)用到客戶環(huán)境中,可以讓IT管理人員提前解決即將出現(xiàn)的問題,甚至可以預(yù)測(cè)何時(shí)會(huì)出現(xiàn)此類問題,從而大大提高了IT管理人員的工作質(zhì)量,而無需等待最終用戶再次報(bào)告出現(xiàn)問題。通過這種方式,IT團(tuán)隊(duì)可以加快發(fā)現(xiàn)中斷故障的平均時(shí)間以及恢復(fù)故障系統(tǒng)的平均時(shí)間,從而提高客戶滿意度,并提高其組織的競(jìng)爭(zhēng)優(yōu)勢(shì)。