路由器故障1: 不堪重負(fù),路由器外網(wǎng)口關(guān)閉
1、網(wǎng)絡(luò)環(huán)境
某單位使用的是Cisco路由器,租用電信30MB做本地接入和l0MB教育網(wǎng)雙線路上網(wǎng),兩年來網(wǎng)絡(luò)運(yùn)行穩(wěn)定,路由器也沒有發(fā)生故障。隨著網(wǎng)絡(luò)用戶數(shù)量增加,原來電信30MB已不能滿足需要,于是決定租用電信1OOMB來解決帶寬問題。電信采用光纖接入到單位機(jī)房后,使用百兆光電轉(zhuǎn)換器經(jīng)轉(zhuǎn)換后通過雙絞線接到路由器外網(wǎng)口上面,該路由器使用是千兆電口作為外網(wǎng)口,由于光電轉(zhuǎn)換器只有1O0MB,該端口連接后速度顯示100MB。
2、外網(wǎng)端口流量為零
經(jīng)過幾天的運(yùn)行,管理員發(fā)現(xiàn)每天當(dāng)路由器外網(wǎng)口流量超過50Mbps/s后,該端口就會(huì)出現(xiàn)“Receive Errors” ,流量超大,錯(cuò)誤信息很多。突然有一天,出現(xiàn)外網(wǎng)不能上了,Telnet到路由器上面,發(fā)現(xiàn)電信對(duì)應(yīng)的外網(wǎng)口沒有流量,顯示狀態(tài)為UP,路由器上其他端口工作正常。第一反映是電信的那邊出現(xiàn)問題了,是電話通知電信那邊查檢一下,對(duì)方很快回應(yīng)說沒有什么問題,并詢問是否光電轉(zhuǎn)換器死機(jī)了。于是管理員將光電轉(zhuǎn)換器重啟后,故障依然。沒有辦法,只好將路由器重啟一下,故障排除。誰知,過了不到一個(gè)小時(shí),故障又重現(xiàn)。Telnet到路由器后將該外網(wǎng)口執(zhí)行shutdown和undo shutdown后,故障排除。誰知,將所有有關(guān)病毒的安全策略應(yīng)用到該端口,將tcp mss修改為2048(廠商默認(rèn)1460),故障依然出現(xiàn)。
3、故障分析
管理員發(fā)現(xiàn)在故障發(fā)生時(shí),CPU顯示23%,Memory為33%,不算太高,關(guān)鍵是其他接口都正常工作,看樣子問題還是出現(xiàn)在這個(gè)端口上面。可這個(gè)端口已用了兩年了,升級(jí)擴(kuò)容以前沒有出現(xiàn)端口不能正常通訊的情況, 端口硬件應(yīng)該是有什么問題。通過網(wǎng)管軟件對(duì)端口關(guān)閉前的流量檢測(cè),發(fā)現(xiàn)該端口關(guān)閉前有很大的流量通過(超過80Mbps/s) ,顯示端口的錯(cuò)誤信息也比較多。通過分析得知應(yīng)該是網(wǎng)絡(luò)流量太大,利用率過高所致。流量超過80%后,造成端口不能正常。如果該端口能工作千兆模式下,100MB帶寬僅利用該端口10%,這樣端口可以輕松處理。
4、解決方案
在找到癥結(jié)后,推薦的解決方案是購買千兆光電轉(zhuǎn)換器代替原來的百兆設(shè)備,而且價(jià)格也比較便宜。但為了保證網(wǎng)絡(luò)運(yùn)行的穩(wěn)定性,該單位決定直接購買一個(gè)千兆光口路由模塊,直接利用光纖進(jìn)行通訊,減少網(wǎng)絡(luò)延時(shí)。電信則通過端口限速來控制保證提供百兆帶寬。通過一段時(shí)間運(yùn)行,發(fā)現(xiàn)該端口除了有少量錯(cuò)誤信息外,再?zèng)]有出現(xiàn)過端口無故關(guān)閉情況。
路由器故障2: 路由器為何發(fā)包失敗
在路由器的配置過程中,經(jīng)常會(huì)碰到這樣的問題:網(wǎng)絡(luò)通信正常,路由器可以成功路由數(shù)據(jù)包到目標(biāo)網(wǎng)絡(luò),但是從路由器發(fā)的數(shù)據(jù)包卻傳送失敗,故障表現(xiàn)為路由器ping目標(biāo)網(wǎng)絡(luò)失敗,下面就是一個(gè)典型的案例。
(1).現(xiàn)象描述
某單位的網(wǎng)絡(luò)配置完成后,管理員在測(cè)試網(wǎng)絡(luò)連通性時(shí)發(fā)現(xiàn):從PC機(jī)(6.159.245.195) 向目標(biāo)網(wǎng)絡(luò)(6.159.245.65/26)發(fā)送Ping時(shí),路由器R1可以成功轉(zhuǎn)發(fā)數(shù)據(jù)包,然而從R1向目標(biāo)網(wǎng)絡(luò)(6.159.245.65/26) 發(fā)送ping時(shí),出現(xiàn)ping失敗。
(2).排錯(cuò)過程
首先,跟蹤ping所經(jīng)過的路徑。檢查R1的路由表,目標(biāo)地址6.159.245.65可以與路由表中0.0.0.0/0相匹配。檢查R2、R3、 R4的路由表,均可以發(fā)現(xiàn)與目標(biāo)地址匹配的路由表項(xiàng)。
然后,跟蹤ICMP回應(yīng)應(yīng)答數(shù)據(jù)包所經(jīng)過的路徑。為完成這一步驟,要明確回應(yīng)數(shù)據(jù)包的源地址,PC發(fā)送ping時(shí),回應(yīng)應(yīng)答數(shù)據(jù)包的目標(biāo)地址就是 6.159.245.195。而路由器R1發(fā)送ping時(shí),回應(yīng)應(yīng)答數(shù)據(jù)包的目標(biāo)地址就是71.170.0.146。對(duì)照R4的路由表,發(fā)現(xiàn)與 6.159.245.195匹配的路由表項(xiàng),而未發(fā)現(xiàn)與目標(biāo)地址71.170.0.146相匹配的路由表項(xiàng)。看來,ICMP的回應(yīng)應(yīng)答數(shù)據(jù)包在R4處理時(shí)被丟棄了,所以從R1向目標(biāo)網(wǎng)絡(luò)R4(6.159.245.65/26) 發(fā)送ping時(shí),出現(xiàn)pmg失敗。
解決辦法是:在路由器R4上增加一條指向71.170.0.144/30的靜態(tài)路由,下一跳的地址為71.170.0.214。完成后,在R1向 R4發(fā)送ping時(shí),發(fā)現(xiàn)一切正常了。
路由器故障解決經(jīng)驗(yàn)總結(jié):此類網(wǎng)絡(luò)故障盡管不會(huì)影響網(wǎng)絡(luò)的正常通信,排除的過程也很簡單,但在網(wǎng)絡(luò)故障的分析與排除時(shí),我們要考慮完整的通信過程。