每一個人遇到的特定企業基礎架構設計在測量和實質上都有區別——唯一例外可能是你之前設計的網絡加入了現在的公司;這些也是特殊的網絡,當然不像當前的環境那樣特別。
就這一點而言,網絡監控最佳實踐、通用技術和標準方法都無法適用,或者至少它們需要經過很大的修改,才能滿足你的IT架構的特殊需求。
我發現這一點最貼切的莫過于系統監控工具。過去30年里,我遇到了無數的組織機構,它們有各種不同的服務器、應用程序、網絡設備等,而且與別人完全不同。
同時,他們的監控平臺都是采用內部定制的技術而開發出來的,其中集成了許多復雜的軟件和硬件。它要求特殊的處理方法,需要由經過特殊培訓的系統管理員才能掌控,這些管理員都是Linux領域的技術高手。
供應商不會提供幫助可是,許多系統監控供應商對于這一方面并不會提供太多的幫助——每一個供應商都在增加問題、不確定性和疑問,還有不斷地推銷各種“特殊API”和“與上下文相關的命令集”,以此構成網絡監控最佳實踐的基礎。所有這些說辭都像來自于魔法學校的各種復雜技能、工具和認證。
我覺得這就是:胡話!夢話!
在我30多年的IT從業經歷里,幾乎有20年都在關注監控領域——用過從1998年以來市場中每一個重要的監控平臺,支持環境小到幾臺服務器,大到包含全世界5,000個場所共250,000個系統。我可以負責任地告訴你一些中間親身遇到的事情。
真的嗎?是的,監控很簡單。
成功的監控是標準化的,但是它很有挑戰是的,實現好的系統監控很簡單——監控要足夠穩定,能夠收集你需要的統計數據,同時不會產生偏差;監控要能夠提供有意義、可操作的警報,而不是產生噪聲;監控要能夠采取措施自動響應監控動作。它并不是什么神秘術。它就像子網技術一樣標準化。然而,它并不輕松。監控是一項復雜任務,絕不輕松。 使監控變得復雜的其中一個因素是自動化。許多IT人員(甚至是專家)會說,自動化確實最好放在服務器和應用程序領域里?;蛘哒f,在網絡領域實現自動化的唯一可行方法是勇于進入未知的SDN領域。
真相往往是最難得到的。
首先,我們可以這樣分析:監控并不是一張單據、一個頁面或一個屏幕而已。網絡監控最佳實踐就是持續、定期和統一地從一系列設備收集各種指標。只要你做完了第一個部分,其他的東西——報表、警報、單據甚至自動化,都是唾手可得的副產品。 也就是說,好的自動化是源于好的監控(因果關系)。例如,如果你部署了很穩定的監控,那么下面的任務就很輕松了: 定期收集網絡設備配置。 接收配置變化信息。 從剛剛發出信息的設備上收集配置。 對比“上一次正常”配置與剛剛收集的配置。 如果確實出現差別,則強制回退到舊的配置,并且發出警報。 通過這種方式,未經正確變更控制而修改的設備會強制回退回前一個狀態,直到新的修改是認可的。隨便看一份數據報告,你就可以知道這一類問題是40%-80%企業網絡故障發生的根源。
它很簡潔、簡單,而且最重要的是它不是手工操作。它是自動化的,而且是合理的自動化。
網絡設備自動化還有其他一些例子,我以前也寫過一些,但是大多數公司實現監控的最大障礙并不是用錯工具或技能。主要問題是想法錯了——他們思維定勢地認為監控和自動很復雜、很難,認為這些事情一般人是做不好的。 最后,網絡監控最佳實踐和自動化只是受到你想象力的限制,要突破思想束縛去實現一個好的監控工具,而不要把精力浪費在一些無謂的事情上。