企業網D1Net 11月27日 在數據中心運行過程中,不可避免會出現各種各樣的問題。若網絡發生信息不通、網頁不能瀏覽等連通性故障時,這類故障現象的故障點很容易檢查和定位,解決起來并不困難。但是網絡如果是通的,而網速變慢。遇到這種“軟”故障,就比較令人頭痛,有的人往往就會束手無策。一旦遇到這類問題時,需要有一個定位問題的基本思路,這樣就能幫助我們在日常維護中有條不紊地找到問題的真實原因。
第一:檢查設備CPU占用率。數據中心里的設備少則數百,多則上萬,不可能都去依依檢查CPU。需要先明確哪個業務慢,了解這個業務在數據中心里需要經過哪些設備,然后檢查這些設備的CPU占用率。當然如果有網管軟件,通過設定CPU閾值,可以監控所有設備的CPU占用率,則可以很快發現CPU異常的設備。一般如果設備CPU占用率在40%以下,則可以跳過這項,直接檢查第二步,如果在60%以上的話,建議您最好看一下。一般是設備受到了網絡攻擊。有的時候網絡攻擊不僅影響網速慢,甚至會中斷業務。網管可以監控可疑的端口,網絡流量異常的這一段時間,通過網絡流量變化會看到突起突落,明顯的人為痕跡。根據對以上可疑現象的分析,初步定位網絡業務中斷事故是人為攻擊造成,采集了網絡流量急劇上升時的異常流量,證明的確是有網絡攻擊。針對網絡攻擊也有進一步的排查方法,在此不一一詳述。
第二:日志信息和其它異常信息。現在的電子設備可維護性都比較好,運行出現異常時都會有一些信息打印,以便提示用戶設備出了問題,便于用戶采取解決問題的措施。設備日志、異常記錄等對于診斷問題愿意非常有用,一些比如端口DOWN、配置錯誤、硬件問題等簡單故障,通過打印出來的信息就可以明確。對于廣播流量較多的數據中心,要注意設備的端口流量是否有異常,是否可能出現了網絡環路,網絡環路是在數據中心經常發生的網絡故障。主要是由于設備故障、STP/RRPP等二層環路協議失效、人為錯誤配置所致。這類問題通過觀察端口的流量很好排除。因此,要檢查這些設備的日志和異常信息記錄。
第三:利用PING來檢驗業務是否正常。PING是用來診斷網絡故障最簡單明了的手段,現在網絡上流行的Xping、Multiping、網管軟件等都是基本PING功能實現的,通過PING業務沿路的各個設備就可以迅速判定故障設備。一般PING的結果基本會顯示出哪個設備可能存在網絡問題。
第四:檢查端口雙工的狀態。服務器的網卡、網絡設備端口、防火墻端口等設備的工作方式可以為全雙工或半雙工。當服務器、交換機的工作狀態不匹配,如服務器、工作站網卡被設置為全雙狀態,而交換機等都工作在半雙工時,就會產生大量碰撞幀和一些FCS校驗錯誤幀,訪問速度將變得非常慢。從服務器上拷貝一個100Mb的文件可能需要30分鐘,所以網速變慢也要檢查下設備端口雙工是否存在不一致的問題。
第五:檢查網線、光纖、光模塊這些互連器件的問題。網線的制作方式對網絡傳輸速度的影響是非常大的,如果不按照正規的標準制作網線,那么來自網線自身的背景噪音以及內部串擾就會降低網絡傳輸速度。還有光纖和光模塊如果質量不佳,容易產品大量的錯包,影響網速。還要的光模塊收發功率不穩定,導致傳輸的數據出現問題,這些故障都是容易影響網速慢的最常見的原因。在數據中心里,幾乎天天都會有更換網線、光纖或光模塊的工作。這些都是易消耗的器件。
第六:端口UP/DOWN問題。如果出現了端口的UP/DOWN,自然會引起業務時斷時續,網速就慢。造成端口出現UP/DOWN的原因也可能是多方面的。比如:光纖架、跳線架有問題,鏈路質量不好;網線,光纖出了問題;設備兩端配置速率雙工不一致等等都會造成端口的UP/DOWN,一般的設備端口出現了UP/DOWN都會有記錄,或者在網管上有記錄,這樣用戶就可以通過檢查記錄,迅速排除掉故障。
第七:對比測試。通過業務測試。比如玩傳奇游戲卡,玩其它游戲沒有問題,那一般是傳奇服務器的問題。另外為何明確故障問題,還可以在上游設備上的一個業務端口下FTP本地網絡的一個大文件,在本地設備上的一個業務口下同時FTP同一網站的同一電影文件,比較下載速度,立刻可以知道本地設備有沒有問題。
第八:檢查是否應用服務器是否有病毒。蠕蟲、紅色代碼、藍色代碼、尼姆達等病毒,可使計算機運行變慢,造成網絡堵塞。如蠕蟲病毒對網絡速度的影響嚴重,危害性極大。這種病毒導致被感染的用戶只要一上網就不停地往外發郵件,成百上千的這種垃圾郵件有的排著隊往外發送,有的又成批成批地被退回來堆在服務器上,造成服務器繁忙或者數據中心網路擁塞,網速變慢。所以需要在數據中心內部署防火墻設備,在服務器上安裝殺毒軟件,并保持實時更新。周期性地檢查服務器是否有中病毒的情況。
網速慢是一個比較復雜問題,隨著網絡規模的不斷擴大和應用的復雜,網絡安全問題越來越多,這類問題也越來越不好分析。對于出現網速變慢的故障時,可以采用以上的八個步驟去逐一排查,在絕大多數情況下,都可以解決問題。如果通過這些步驟仍找不出異常的地方,那就需要專業的技術人員深入分析了,可能需要資深的網絡專家或者設備廠家的工程師進一步深入排查。總之,只要是問題總會露出一些蛛絲馬跡,我們這些數據中心的工程師不是在時刻準備著解決問題,就是在解決問題的路上。