當前網絡運維的常態想必大家都經歷過,每一天IT運維團隊 helpdesk 基本上會接到兩類幫助呼叫:
1.我根本連不上網;
從這些問題的模糊表象描述追溯到問題的根源往往層次眾多。是應用本身的問題?還是服務器、虛擬化出了毛病?真的是網絡本身有問題嗎?
一般來講 IT運維人員此時能做的是通過事件日志和手工收集運維數據并憑借個人經驗來判斷問題。對于嚴重影響用戶體驗的問題,故障排查往往需要花費大量的人力物力,采用昂貴的工具,很多還要蹲守在現場等待故障重現。
這是當今典型的被動反應性(Reaction)運維,然而付出這些努力并不能保證一定可以解決問題!或者說快速找出問題的根本原因,更談不上提供修復所需的手段。
最后,用戶往往不勝其煩,自己關閉case并抱怨IT部門。甚至很多人還會想,我家孩子在家都能搞定這些,為啥你們不行?
總之是IT運維背鍋。
不知大家有沒有深刻的體會,當前的網絡運維正在從以網絡為中心向以用戶為中心轉變。用戶體驗比網絡本身更有意義。而眾所周知網絡體驗是一個極度復雜的、端到端的問題。
比如說一個用戶反應無線網絡上互聯網緩慢,僅僅收集無線網絡的運維數據并不能幫助他們找到原因。因為這條線路上涉及的潛在故障點實在太多了!至少要拿到無線網絡介質狀態數據,無線網絡協議層面的互通數據,無線網絡設備狀態數據,無線和有線互聯數據,網絡服務的數據……
困擾IT運維的網絡運維三大難題亟待解決!這三個問題中最難得就是出了什么問題,只有找到并定位問題,您才可以提出解決方案。
然而,在海量數據面前,能否找到問題的根源其實取決于對這些數據進行分析處理的人或人們。他們是否具備相關領域的知識?是否有處理相關問題的經驗?對于運維工具(軟件和硬件)是否熟悉并熟練使用?
一項第三方調查機構的數據顯示:2016年,全球 IT 運營開銷(包括內部開銷和外包開銷)已超過 600 億美元。這其中有75%的運行維護成本用于網絡變更和故障排查。雖然用戶已經花費了這么多金錢在網絡運維上面,但是卻沒有見到成效。
之所以產生這樣的問題,歸根結底是因為傳統的網絡管理方式和工具現在已經無法應對新的運維挑戰,我們在試圖用以前的方式方法和工具來解決現在面臨的新問題!其效率和成果可想而知。
說到這里,有人會問有沒有什么先進的黑科技來幫助我們?人工智能可以嗎?
人工智能也許是目前最火熱的話題,從圍棋到醫療保健、從人臉識別到智能音響、從無人機到無人駕駛汽車。那么它對網絡的影響將會如何改變我們的傳統觀念呢?
讓我們先來看看業界趨勢分析公司的一些預測:
◆ IDC認為未來幾年網絡行業的趨勢是:有線網絡和無線網絡深度融合,網絡將引入機器學習和人工智能。
◆ Gartner 則認為:到2020年,每一個 IT 產品都會或多或少的以某種形式引入一定程度的人工智能。
思科認為:這不僅是簡單的市場口號,We take it seriously !
思科全數字化網絡架構(DNA)從誕生的那一天起就是為了讓用戶從網絡的建設階段,例如設計、部署就享受到最佳的用戶體驗,例如基于軟件定義訪問(SDA)架構的即插即用、控制和轉發解耦、端到端分段隔離,安全策略與用戶隨行、全圖形化拖拽操作等等。
然而建設只是企業網絡的可見部分,就像冰山在水上的部分雖然顯而易見,但是水下不可見的那部分卻是可見部分的幾倍甚至十幾倍!而這一部分就是網絡的日常運維和故障排查!
任何人忽視這一部分工作都會面臨極大的挑戰!
盡管現在市場上有一些可視化工具可以在一定程度上幫助用戶。但都是頭痛醫頭腳痛醫腳,治標不治本。
◆ 這些工具只能收集網絡某個層面的數據,并且無法把他們有機的關聯起來。太多的工具拿到太多的零散數據,等于沒有數據,因為他們都是片面的。還會造成被管理設備過載。
◆ 問題發生的時候才會做出反應,而此時問題也許消失了,有助運維的數據也無法全面收集。
◆ 故障排查時不同的人看到的視角不同,有時還會彼此矛盾,無法為解決問題做出依據
思科全智慧網絡將以前沿創新幫助用戶提升網絡體驗!也只有思科全數字化網絡架構智能運維解決方案可以幫助您深刻洞察網絡,將IT徹底的從繁瑣重復的日常勞動中解放出來。
思科全數字化網絡架構智能運維解決方案通過三步實現:
1. 首先,交付用戶體驗的前提是獲得精準實時的全面的網絡工作狀態、網絡服務(AAA,DHCP)工作狀態,用戶終端設備和用戶自身以及應用的狀態,我們可以通過包括傳統方式在內的多種手段收集全場景數據。
眾所周知,我們傳統網管依賴的SNMP協議早在1988年就制定了第一個版本,30年來的演進現在已經發展到第三個版本,盡管如此,我們知道SNMP對于網絡設備的資源消耗是非常可觀的,尤其是需要實時運維數據的時候。快速的獲取實時運維數據將造成被管理設備的CPU、內存等資源捉襟見肘,甚至會影響數據的轉發。
思科在這里的創新是采用了基于先進的流式遙感遙測(Telemetry)方式從網絡設備收集海量運維數據。關于遙感遙測和傳統方法的比較請見下圖,本文不做過多贅述。
2. 第二步是引入機器學習和深度學習將人工智能應用于海量運維數據的情境化關聯,這一點至關重要。IT運維不再是管中窺豹,可見一斑,而是實時情境化。
那么問題來了,什么是情境關聯?
從定義上說,情境關聯使得我們可以知道在什么樣的環境中如何對某件事情作出何種反應。它將不同層面的信息以有意義的方式連接起來,發掘這些信息之間的關系,從而形成最終的元數據,驅動我們能夠采取正確的應對措施。
舉例來講,在現實世界中,您的孩子可能會告訴您他頭痛。如果我們能將這一信息和他最近在學校運動中和其他孩子有過頭對頭的碰撞這個背景聯系起來的話,就有助于我們做出判斷采取正確的就醫措施。
又或者,如果我們開車在路上行駛,遇到雨雪天氣,我們知道應該放慢速度,特別是如果此時您知道自己很久沒有保養汽車。
俗話說得好,一個人走路走的多了,他就會知道這路上哪里有坑,哪里可以通過,哪里不行。其實這也是一種情境關聯!
在網絡中,情境關聯意味著要通過機器將各個層面的拿到信息進行自我學習并關聯,以便獲得最具情境的運維數據。既包括發生了什么還包括如何解決!同時預測網絡將會發生什么?
基于人工智能,利用機器學習,情境關聯是我們智能運維最最核心的創新。這也是因為思科具備業界體量最大的網絡用戶群體,最大的網絡專家群體和最大的網絡知識庫。以往我們的優勢是具備情境關聯能力的一個一個的個體,例如CCIE。隨著網絡越來越復雜,變化越來越快。僅憑個人之力是無法應對的
現在利用人工智能,我們把所有網絡專家的智能都集中到了智能運維系統里為用戶服務。智能運維將充分利用思科30 年的專業知識和最佳實踐,為用戶網絡提供最具情境的數據和有效的問題修復方案
因此交付用戶體驗的前提是獲得精準實時的網絡工作狀態,相互關聯,基于情境。思科智能運維解決方案要實現的目標是通過AI將運行中的網絡設備、客戶端終端、用戶、設備產生的數據以及時間、地點進行情境化關聯。通過時間機器記錄運維歷史情境數據,實時進行故障排查,預測網絡運行趨勢。 告訴運維人員用戶端到端交付的應用體驗是什么樣的?而不是簡單的告訴他這個無線接入點的狀態是UP!
3. 最后是為運維人員提供切實可行的解決問題的方法。我們的目標不再是僅僅管理網絡設備本身而是最終管理用戶體驗。
總結
如今,網絡尤其是無線網絡對于支撐企業關鍵業務的重要性已經不用質疑,但是很多運維人員對于網絡的了解卻還不夠深入,IT人員往往站在運維的一線而深受責備,當用戶應用體驗變差的時候,無線網絡往往是第一個被則難的目標,而此時故障的可能原因紛繁復雜,也許并不是網絡造成的。
IT運維人員要從被動反應(Reaction)向主動出擊(Proactive)轉變,結合云、大數據、人工智能/機器學習/深度學習這些最新技術,我們現在可以收集和分析與網絡相關的海量運維數據,從而提高業務運營效率并提供前所未有的用戶體驗。這使我們能夠自動執行以前需要手動操作的任務,如數據包捕獲,事件情境化關聯和根本原因分析,以便消除手動配置和故障排除帶來的問題。此外,機器學習還可以提供實時預測建議,在員工和客戶遇到問題之前就為IT部門提供預警并解決問題。
想象一下,以往我們對網絡的運維往往是在出了問題后才去排查和解決問題,人工智能/機器學習/深度學習可以幫助我們基于日常的網絡運維數據發覺共性和典型問題,量化客戶體驗指數,在將要發生問題前就提前預警,給出問題發生的原因,提出解決問題的方法,乃至無需人工干預而自行解決。這是業界又一次重大的革命!
隨著每天新的應用程序涌現,我們處于機器/人類互動的新時代的前沿,這將徹底改變互聯網以及我們的生活,工作和娛樂方式。雖然我們還遠遠沒有達到機器替代IT管理維護人員的程度,但是結合即時信息系統的虛擬無線助理現在已經成為現實。通過人工智能,你的網絡將比以前更“聰明”!