AIOps最近在數據中心圈里常被人所提及,AIOps是何方神物?AIOps的英文全名叫Artificial Intelligence for IT Operations,即智能化運維,目標是基于已有運維數據(日志、監控信息、應用信息等),通過機器學習方式來進一步解決自動化運維所未能解決的問題,提高系統預判能力、穩定性、降低運維成本,提高數據中心競爭力。AIOps是AI、運維和自動化三者的結合體。簡單說:AIOps = AI+運維數據+ 自動化處理= AI+Devops,其實就是將AI技術運用到數據中心運維中去,解放人力,這將給數據中心帶來翻天覆地的變化,同時也將產生新的崗位需求。數據中心運維一旦插上了AI的翅膀,會飛得越來越高。當然,前提是要掌握飛行的要領。如何迅速成長為一名優秀智能化運維的技術專家,本文將揭開AIOps大神的成長之路。
要想成為一名AIOps技術大神,對AIOps成長史必須是要了解的。AIOps最開始并不叫AIOps,從最原始的人工運維開始,這時主要是利用單獨腳本或者一些簡單工具,完成數據中心設備的運維;接著不斷引入一些工具,通過大量運維工具,提高了運維效率;然后是引入了自動化,將工具交給計算機,由計算機按照既定程度來運行,這比人工方式效率提升很多,往往一次要是通過人手工完成可能需要幾個小時,而通過自動化工具和腳本,幾秒鐘就可以完成,這個階段叫做Devops,也是目前最為主流的運維方式;緊接著隨著AI技術的火爆,AIOps開始出現,AIOps是通過機器的自我學習、自行分析決策和自動化去執行腳本。
AIOps首先要有AI,這是和以往運維最大的區別,AI就是機器學習,這是一門非常復雜的多門類交叉學科,核心是各種各樣的技術算法,這些算法可以讓機器對輸入的數據進行學習和判斷,最終形成自己的理解,讓機器像人一樣去思考遇到的各種問題。AI技術有很多算法,比如分類算法、線性回歸、邏輯回歸、決策樹、關聯規則、深度學習等等。數據中心每天產生設備日志、故障表項、配置管理等海量數據,這些都是AI學習的基礎數據,這些數據能否學好,AI的算法最為關鍵,已有的AI算法并不適用于所有數據中心,這就需要在AI學習數據中心運維數據的過程中不斷調整算法,所以AIOps大神需要懂AI,最好是AI專業走出的高材生,并愿意走入數據中心運維的崗位中來。數據中心的海量數據各種都有,需要根據不同的數據特征設計算法,達到學習的目的。比如數據中心的所有設備端口流量,通過歷史流量模型,可以預測下一次的流量洪峰到來的時間,以便做好預防和保護工作,還可以根據流量模型的異常變化,提前發現網絡故障,甚至可通過AI自動地化解危險。AIOps大神要懂得如何將這些AI技術運用到數據中心的運維工作中去,并起到作用。
光有AI顯然不夠,其次還需要腳本語言。自動化腳本已是數據中心運維不可缺少的重要部分,大量運維的工作都需要通過自動化腳本來監控、操作和變更等,大型數據中心擁有海量設備,單靠人海戰術是行不通的。腳本語言比如Python、SQL、TCL等等,這些語言簡單易懂,好上手,不會寫腳本的運維不算是真正的運維專家,這也是提升運維效率的直接武器,必須要掌握。自動化腳本會被應用到數據中心的各種數據和設備監控中去,有些也可以用于變更操作、網絡切換、信息采集甚至故障定位。現在市場上對Python腳本技術人員缺口很大,這類人員的收入也比較高。AIOps也需要腳本,用腳本來采集信息和執行動作,所以腳本語言必須掌握。
不管是AI還是自動化腳本終究都是為運維服務的,最關鍵的還是必須要搞清運維的工作內容,懂得哪些工作適合用AIOps,哪些工作不適合,不能什么工作都寄希望于AI。在做數據中心運維時,要知道各種指標如何去監控,知道異常檢測的方法,知道故障如何去發現,知道性能如何調優等,對數據中心運維的工作了如指掌。數據中心里有很多IT設備,功能各不相同,有搞服務器的,有搞網絡的,還有搞安全的等等,網絡架構各不相同,這些都需要長時間的接觸和沉淀,逐漸找到針對一個數據中心的運維方法。數據中心的運維內容非常龐雜,性能分析、流量監控、設備運行狀態采集、故障感知、變更擴容等等,都是運維的工作內容,在數據中心運維的過程中也輸出了運維的管理理念和技術辦法,部分運維內容還形成了行業標準,運維的工作伴隨著數據中心出現就開始了,儼然已經發展成了一門技術學科。數據中心運維不僅是要確保業務長期平穩運行,還要考慮數據中心的經濟效益,如果數據中心的業務增長,運維支出也隨之增長,那數據中心依然獲得不到利潤增長,這就要對運維內容做深入剖析,AIOps面對的就是這些運維工作,所以要對運維內容研究透,AIOps才能有的放矢。要想成為AIOps大神,提前必須是一位出色的數據中心運維的技術專家。
這些年,數據中心規模已經變得非常龐大,承載的業務也越來越多和復雜,這都給運維的工作帶來了巨大挑戰,數據中心運維的工作內容越來越龐雜,也在不斷變化,運維成本和壓力越來越大,只有引入AIOps才有可能緩解,充分釋放人力。看看這兩年全球數據中心運維的技術大會內容,基本上講的都是AIOps,AIOps技術火了,自然對AIOps技術人才需求也多了,趁著AIOps還未普及,趕緊學習,練好AI、腳本和運維三大斧,就離成為AIOps技術大神不遠了。