路由器故障1: 不堪重負,路由器外網口關閉
1、網絡環境
某單位使用的是Cisco路由器,租用電信30MB做本地接入和l0MB教育網雙線路上網,兩年來網絡運行穩定,路由器也沒有發生故障。隨著網絡用戶數量增加,原來電信30MB已不能滿足需要,于是決定租用電信1OOMB來解決帶寬問題。電信采用光纖接入到單位機房后,使用百兆光電轉換器經轉換后通過雙絞線接到路由器外網口上面,該路由器使用是千兆電口作為外網口,由于光電轉換器只有1O0MB,該端口連接后速度顯示100MB。
2、外網端口流量為零
經過幾天的運行,管理員發現每天當路由器外網口流量超過50Mbps/s后,該端口就會出現“Receive Errors” ,流量超大,錯誤信息很多。突然有一天,出現外網不能上了,Telnet到路由器上面,發現電信對應的外網口沒有流量,顯示狀態為UP,路由器上其他端口工作正常。第一反映是電信的那邊出現問題了,是電話通知電信那邊查檢一下,對方很快回應說沒有什么問題,并詢問是否光電轉換器死機了。于是管理員將光電轉換器重啟后,故障依然。沒有辦法,只好將路由器重啟一下,故障排除。誰知,過了不到一個小時,故障又重現。Telnet到路由器后將該外網口執行shutdown和undo shutdown后,故障排除。誰知,將所有有關病毒的安全策略應用到該端口,將tcp mss修改為2048(廠商默認1460),故障依然出現。
3、故障分析
管理員發現在故障發生時,CPU顯示23%,Memory為33%,不算太高,關鍵是其他接口都正常工作,看樣子問題還是出現在這個端口上面。可這個端口已用了兩年了,升級擴容以前沒有出現端口不能正常通訊的情況, 端口硬件應該是有什么問題。通過網管軟件對端口關閉前的流量檢測,發現該端口關閉前有很大的流量通過(超過80Mbps/s) ,顯示端口的錯誤信息也比較多。通過分析得知應該是網絡流量太大,利用率過高所致。流量超過80%后,造成端口不能正常。如果該端口能工作千兆模式下,100MB帶寬僅利用該端口10%,這樣端口可以輕松處理。
4、解決方案
在找到癥結后,推薦的解決方案是購買千兆光電轉換器代替原來的百兆設備,而且價格也比較便宜。但為了保證網絡運行的穩定性,該單位決定直接購買一個千兆光口路由模塊,直接利用光纖進行通訊,減少網絡延時。電信則通過端口限速來控制保證提供百兆帶寬。通過一段時間運行,發現該端口除了有少量錯誤信息外,再沒有出現過端口無故關閉情況。
路由器故障2: 路由器為何發包失敗
在路由器的配置過程中,經常會碰到這樣的問題:網絡通信正常,路由器可以成功路由數據包到目標網絡,但是從路由器發的數據包卻傳送失敗,故障表現為路由器ping目標網絡失敗,下面就是一個典型的案例。
(1).現象描述
某單位的網絡配置完成后,管理員在測試網絡連通性時發現:從PC機(6.159.245.195) 向目標網絡(6.159.245.65/26)發送Ping時,路由器R1可以成功轉發數據包,然而從R1向目標網絡(6.159.245.65/26) 發送ping時,出現ping失敗。
(2).排錯過程
首先,跟蹤ping所經過的路徑。檢查R1的路由表,目標地址6.159.245.65可以與路由表中0.0.0.0/0相匹配。檢查R2、R3、 R4的路由表,均可以發現與目標地址匹配的路由表項。
然后,跟蹤ICMP回應應答數據包所經過的路徑。為完成這一步驟,要明確回應數據包的源地址,PC發送ping時,回應應答數據包的目標地址就是 6.159.245.195。而路由器R1發送ping時,回應應答數據包的目標地址就是71.170.0.146。對照R4的路由表,發現與 6.159.245.195匹配的路由表項,而未發現與目標地址71.170.0.146相匹配的路由表項。看來,ICMP的回應應答數據包在R4處理時被丟棄了,所以從R1向目標網絡R4(6.159.245.65/26) 發送ping時,出現pmg失敗。
解決辦法是:在路由器R4上增加一條指向71.170.0.144/30的靜態路由,下一跳的地址為71.170.0.214。完成后,在R1向 R4發送ping時,發現一切正常了。
路由器故障解決經驗總結:此類網絡故障盡管不會影響網絡的正常通信,排除的過程也很簡單,但在網絡故障的分析與排除時,我們要考慮完整的通信過程。