通常做網絡維護工作有兩大塊,一是日常的檢查,發現隱患及時消除;二是故障處理,出現故障能夠及時恢復業務,同時還能定位出原因,避免相同的故障再出。日常的檢查比較簡單,就算應付了事也能過關。不過有句成語叫“千里之提,潰于蟻穴”,很多故障正是因為平時的疏忽,對各種小的隱患不重視,最終患釀成大事故。干網路維護進行故障處理,是比較有含金量的工作,也正是這樣,網絡故障排查專家非常受人歡迎。想要成為一名資深的網絡維護專家,需要在故障分析和診斷上有手段。大多數的網絡維護人員都是通過查設備、查線路、抓包、找故障點,累得煩死、掉大把頭發還不能解決各種網絡故障問題,這是因為沒有找到這其中的門道。做網絡維護要做網路設備監測、網絡設備定位和故障定位報警、網絡流量分析三點,這里稱為三把斧。用好這三把斧頭可以在網絡技術世界里披荊斬棘,所向無敵。
第一把斧:網絡流量分析
數據中心網絡并不關心應用層的內容,只完成數據流量的交互,這樣對流量的走向分析尤為重要。要對整個數據中心網絡里所有鏈路流量進行監測,當故障發生時,能夠迅速鎖定故障范圍和位置,這些故障最早在流量圖上就可以反映出來,所以流量分析軟件,對于數據中心網絡維護必不可少。選擇一兩款使用廣泛的流量分析軟件部署到數據中心網絡中,靈活啟動不同層面(接入層、匯聚層、核心層)的網絡設備進行流量信息采集,不需要改動現有的網絡結構,實現對數據中心網絡流量信息統計和分析功能,能夠及時了解各種網絡應用占用的網絡帶寬,各種業務消耗的網絡資源,可以幫助網絡維護人員及時發現網絡瓶頸,防范網絡病毒的攻擊,并提供豐富的網絡流量分析報表。學會從網絡流量圖中發現問題并解決問題,是網絡維護的基本技能,必須要掌握。
第二把斧:網絡監測分析
數據中心網絡只要確保流量送達目的設備,就完成了自己的使命,這個運送過程是否有問題,需要通過監測手段來確定。一般我們判斷一個網絡是否有問題,往往需要借用一些探測工具,比如:PING、TRACERT、SNMP、SYSLOG等工具。通過PING和TRACERT可以快速確認故障位置和設備,以便對故障設備進行深入分析。通過SNMP和SYSLOG可以獲取到故障設備運行的基本信息,很多時候通過設備報出的SYSLOG信息就可以確認設備故障的原因。很多數據中心將這些工具都固化到網絡監測軟件中,這樣可以有效地預防或發現故障,警報將通過聲音、短信、微信等方式顯示報警框、發送Mail等方式及時發送相關人員,或自動運行相應的程序進行故障處理,提供全方位的告警監測、統計分析和報警定位。
第三把斧:網絡故障分析
當用了前兩把斧,故障分析依然沒有頭緒,就需要用上這第三把斧,對故障進行深入分析。這時還是要借助于從以上兩點獲得的網絡基本情況,對故障表現有了基本了解。網絡故障表現反映到PING業務上無非三個現象:不通、丟包、延遲大。三個現象衍生出來各種各樣的網絡問題,根據三個故障現象接著分析。首先,不通那一定是轉發表項或者數據通路上出了問題,要沿路檢查二三層轉發表項、端口、VLAN、鏈路這些設備信息,看是否有設置錯誤的地方,再有就是不通也可能是連接設備直連的鏈路出現了斷路,這個不僅指設備外部之間連接的鏈路、模塊,也包括設備內部的連接,有的框式設備內部流量要經過很多塊板卡,內部互連出了問題也會影響到轉發,有的盒式設備,流量進入設備后,還沒有處理就在端口的連接器上將報文丟棄掉了,這些都會造成不通;其次,丟包一定是轉發表項不穩定或者數據通路上不穩定造成的問題,還是要將轉發表項和數據通路都檢查一遍,但是更加關注的是轉發表項的穩定性,是否有變化,數據通路上更加關注是否有錯包、MAC地址遷移、STP切換等故障表現;第三,延遲大那一定是數據通路上出現了擁塞,數據流量超過了網絡通路上能提供的最大帶寬,這時要沿路查轉發通道,看是否有擁塞丟包,端口流量是否有超線速、限速情況,這些故障會導致業務層面延遲大,延遲大對應用業務傷害蠻大的,訪問體驗感超級差,尤其是視頻業務,會導致畫面不流暢,觀賞性變差。
做數據中心網絡維護要用好這三把斧。這三把斧頭說起來簡單,可用起來就有很多門道,不同的人對此都有不同的理解,表現出來的就是每個人的網絡技術水平。真正對這三把斧都理解透徹,往往需要大量時間經驗積累。將每一把斧頭展開談的話,都會涉及到很多的網絡技術,這需要在網絡維護工作中不斷地消化理解,慢慢地認識到,掌握了這三把斧,就可成為數據中心網絡維護的專家。