如果按照字面意思,AIOps即Artificial Intelligence for IT Operations,不過Gartner對(duì)它的解釋是AlgorithmicIT Operations,也就是基于AI算法去解決IT運(yùn)維流程中的問題,例如性能監(jiān)控、可用性分析、關(guān)聯(lián)事件、自動(dòng)化,以及日志、應(yīng)用狀態(tài)等運(yùn)維數(shù)據(jù)信息。這一過程中,并不涉及人為的干擾因素。
調(diào)查顯示,全球有超過3000名CIO將數(shù)字化業(yè)務(wù)列為工作重點(diǎn),預(yù)計(jì)AIOps的全球部署率會(huì)從2017年的10%升至2020年的50%,所覆蓋的行業(yè)將涉及金融、電力、醫(yī)療、航天、通信、HPC等領(lǐng)域。其背后的挑戰(zhàn)可以從幾個(gè)方面來看,首先是規(guī)模倍增,設(shè)備端可能有數(shù)十萬臺(tái)主機(jī)需要監(jiān)控至少數(shù)千個(gè)運(yùn)行狀態(tài),所處理的數(shù)據(jù)量日均也是T4B級(jí),而且還是實(shí)時(shí)的。
其次,IT運(yùn)維對(duì)連續(xù)性的高要求使得持續(xù)的交付、集成、調(diào)度成為首選,再加上海量的數(shù)據(jù),對(duì)已有的運(yùn)維成本存在較大挑戰(zhàn),例如當(dāng)前IT業(yè)務(wù)中充斥著公私混的云環(huán)境,以及第三方的SaaS類應(yīng)用,傳統(tǒng)的管理辦法再?gòu)椥原h(huán)境中難以適應(yīng),而借助人工去監(jiān)督、統(tǒng)計(jì)、追蹤、分析是很大的工作量,情況只會(huì)越來越糟。
此外,更多的感知行為正在向網(wǎng)絡(luò)邊緣移動(dòng),使得云基礎(chǔ)架構(gòu)成為了IT解決方案部署的首選平臺(tái),從而讓開發(fā)人員獲得了較以往更大的權(quán)力,IT人員還要在IT Ops的層面承擔(dān)更多責(zé)任,例如了解業(yè)務(wù)是如何在服務(wù)和底層架構(gòu)之間進(jìn)行交互的。
從腳本運(yùn)維到工具運(yùn)維,再到智能運(yùn)維,特點(diǎn)可以體現(xiàn)以下方面:數(shù)據(jù)源搜集、大數(shù)據(jù)分析、規(guī)則及模式識(shí)別、域算法、AI算法、自動(dòng)化。需要注意的是,AIOps并沒有改變AI應(yīng)用本身,而是強(qiáng)調(diào)對(duì)流程、規(guī)則的AI化。例如,AIOps可以從無到有先對(duì)單點(diǎn)進(jìn)行擊破,然后形成局部方案以此類推到面,由多個(gè)單點(diǎn)模塊組成完整的AIOps流程。其優(yōu)勢(shì)是,可知悉、可重用、可升級(jí)。
與此同時(shí),運(yùn)維團(tuán)隊(duì)的角色也在轉(zhuǎn)變,要加入數(shù)據(jù)工程師、開發(fā)工程師甚至是AI工程師,除了繼續(xù)承擔(dān)質(zhì)量、成本、效率方面的工作,還要在AIOps的實(shí)施過程中變身為需求的發(fā)起方和結(jié)果收驗(yàn)方。其中,運(yùn)維AI工程師也要學(xué)會(huì)利用機(jī)器學(xué)習(xí)對(duì)運(yùn)維產(chǎn)生的數(shù)據(jù)、經(jīng)驗(yàn)進(jìn)行整理和分析,最終讓數(shù)據(jù)發(fā)揮應(yīng)用的價(jià)值。
當(dāng)然要想具備運(yùn)維AI的技能并不容易,對(duì)TensorFlow、Caffe、CUDA這些框架要有基礎(chǔ),還要對(duì)交叉驗(yàn)證、驗(yàn)證曲線等模型評(píng)估有基本的判斷。要知道在基礎(chǔ)運(yùn)維平臺(tái)中,除了在運(yùn)維時(shí)要提供標(biāo)準(zhǔn)化的運(yùn)維數(shù)據(jù)和操作,在AIOps時(shí)的一些接口仍需要同時(shí)支持人工和自動(dòng)數(shù)據(jù)獲取和運(yùn)維操作。
無論多么智能,AIOps的核心還是Ops,這就決定了其會(huì)是跨領(lǐng)域的技術(shù)理念,因此在企業(yè)內(nèi)部開發(fā)者智能運(yùn)維的時(shí)候,要結(jié)合業(yè)務(wù)特點(diǎn)來制定AI機(jī)制,不排除做二次開發(fā)的可能。如果運(yùn)維不能AI化,那數(shù)據(jù)中心再怎么智能也只會(huì)停留在表層。