1年前,一場針對域名系統服務提供商Dyn公司的DDoS攻擊,導致大半個美國互聯網連接斷絕。11月6日,全國范圍內的一系列斷網事件重現。不過,原因卻更令人無語:互聯網骨干網公司兼企業互聯網服務提供商(ISP) Level 3 的一個錯誤配置。網絡分析師稱,該錯誤配置,是會造成漣漪效應的一個路由問題,給康卡斯特、Spectrum、威瑞森、Cox和RCN之類的公司帶來了麻煩。
最近剛被CenturyLink收購的Level 3,在給媒體的聲明中稱,該公司已在90分鐘內解決了此問題:
我們的網絡經歷了一次服務中斷,影響到一些基于IP服務的客戶。該中斷由一個配置錯誤導致。
Level 3 網絡中斷時,康卡斯特用戶就已開始報告了,但該公司稱其正在監測“某外部網絡問題”,而不是該公司自身基礎設施上的問題。RCN證實,6號時因 Level 3 而遭遇了同樣的網絡問題。該公司稱,已通過重路由流量到另一家骨干網,而恢復了RCN服務。
DDoS及網絡安全公司Arbor Networks首席工程師羅蘭德·多賓斯稱,該錯誤配置是“路由泄露”。
ISP采用“自治系統”(AS)跟蹤IP地址所處網絡,并在其間路由數據包。他們使用邊界網關協議(BGP)來建立并溝通路由。比如說,數據包可在網絡A和網絡B之間路由,但網絡A還能通過網絡B,將數據包路由到網絡C。這就是ISP間交互操作讓你得以瀏覽整個互聯網的機制,互聯網用戶并不僅僅局限在瀏覽自家ISP所擁有的IP地址上。
而在“路由泄漏”中,自治系統會發布其網絡上不正確的IP地址信息,導致原始ISP和其他試圖通過路由流量失敗或低效進行。這就像是保持交通導向正確方向的路標被標錯了一樣,各種各樣的混亂就隨之而來了。
路由泄漏有可能是惡意的,有時候被稱為“路由劫持”或“BGP劫持”,但6號的事件似乎是低級失誤發酵出全國性影響的案例。意外路由泄露導致大規模掉線的情況以前也出現過。
多賓斯稱:“人們想要調整路由策略,然后犯了錯。”問題可能源自CenturyLink試圖集成進 Level 3 網絡,或者源于典型的流量工程和效率工作。
路由泄漏導致的各種規模斷網,數十年來一直沒停過。ISP試圖通過“路由過濾器”——檢查ISP和客戶收發數據包的IP路由,來最小化路由泄漏導致的斷網,并捕獲任何有問題的規劃。但面對當今如此之大的互聯網規模,這些過濾器非常難以維護,也會出現其自身的錯誤。
6號的斷網,再一次凸顯出連接有多岌岌可危,也表現出互聯網架構的某些特定方面——靈活性及易用性,會給這一重要服務帶來的不穩定性。