檢測(cè)、發(fā)現(xiàn)和糾正網(wǎng)絡(luò)故障從來都不是容易的事情。過去是客戶端服務(wù)器“統(tǒng)治”、應(yīng)用運(yùn)行在指定服務(wù)器、最終用戶通過以太網(wǎng)、租用WAN鏈路或其他服務(wù)連接的時(shí)代,彼時(shí)網(wǎng)絡(luò)故障管理已經(jīng)比較麻煩了,而現(xiàn)在大型數(shù)據(jù)中心和云網(wǎng)絡(luò)讓網(wǎng)絡(luò)故障管理更具挑戰(zhàn)性。
技術(shù)在變化,但最終結(jié)果是最重要的。這里的問題是:用戶是否在接受所需的服務(wù)質(zhì)量?答案取決于應(yīng)用和網(wǎng)絡(luò)性能。現(xiàn)在的應(yīng)用通常在公共、私有或混合云上運(yùn)行,應(yīng)用作為負(fù)載轉(zhuǎn)移在服務(wù)器之間遷移。服務(wù)器和數(shù)據(jù)存儲(chǔ)之間的吞吐量取決于其他應(yīng)用放在共享鏈路的負(fù)載。
網(wǎng)絡(luò)性能取決于連接用戶到應(yīng)用的網(wǎng)絡(luò)的類型和容量。本地用戶可能通過以太網(wǎng)或無(wú)線網(wǎng)絡(luò)連接,遠(yuǎn)程用戶則通過各種WAN技術(shù)連接,包括公共互聯(lián)網(wǎng)或蜂窩網(wǎng)絡(luò)等。每種連接都需要專門的方法來維持所需的性能。任何這些位置(應(yīng)用或網(wǎng)絡(luò))的故障都可能降低客戶滿意度。
云故障檢測(cè)
很多拓?fù)浣Y(jié)構(gòu)和設(shè)計(jì)(其中包括虛擬化服務(wù)器、多個(gè)虛擬局域網(wǎng)和覆蓋網(wǎng)絡(luò))讓云故障檢測(cè)和網(wǎng)絡(luò)故障管理變得更加復(fù)雜。一個(gè)租戶的應(yīng)用出現(xiàn)性能問題可能與影響另一個(gè)租戶的問題并沒有什么關(guān)聯(lián),但它們可能來自同一來源。每個(gè)租戶的應(yīng)用可能在相同超載或配置錯(cuò)誤的服務(wù)器上執(zhí)行,或者兩個(gè)租戶的覆蓋網(wǎng)絡(luò)通過相同超載或故障鏈接來路由。
海量的服務(wù)器、網(wǎng)絡(luò)組件和鏈接是故障的一大來源。現(xiàn)代硬件極為可靠,盡管每個(gè)組件有多年故障平均時(shí)間,但對(duì)于數(shù)千獨(dú)立的設(shè)備來說,依舊會(huì)有硬件故障發(fā)生。
配置錯(cuò)誤是另一個(gè)問題來源,該問題可由網(wǎng)絡(luò)故障管理進(jìn)行跟蹤。服務(wù)器和網(wǎng)絡(luò)設(shè)備不斷添加、升級(jí)或取代。大型云計(jì)算通常包括來自不同供應(yīng)商的組件,甚至來自同一供應(yīng)商的相同組件也可能運(yùn)行著不同的軟件版本。在這種環(huán)境中,任何變更都可能導(dǎo)致錯(cuò)誤的出現(xiàn),同時(shí),對(duì)一個(gè)組件的改變還可能影響到其他組件。
簡(jiǎn)單地檢測(cè)和報(bào)告錯(cuò)誤已經(jīng)不夠,每個(gè)錯(cuò)誤可能導(dǎo)致幾十份錯(cuò)誤報(bào)告。鏈路故障會(huì)在鏈路兩端的交換機(jī)生成硬件故障指示,并且每次鏈路故障和恢復(fù)時(shí)都會(huì)發(fā)出新報(bào)告。2層和3層網(wǎng)絡(luò)協(xié)議路由會(huì)改變,在備用路由流量水平接近最大數(shù)值時(shí)鏈路流量監(jiān)控也會(huì)變化。同時(shí),應(yīng)用性能監(jiān)控器會(huì)從通過該鏈路路由流量的每個(gè)應(yīng)用報(bào)告問題。
故障相關(guān)性及其在網(wǎng)絡(luò)中的作用
沒有哪個(gè)網(wǎng)絡(luò)管理員能夠整理完單一故障生成的海量報(bào)告,并快速發(fā)現(xiàn)其根本原因。對(duì)此,故障相關(guān)性軟件很重要,這是每個(gè)主流系統(tǒng)供應(yīng)商網(wǎng)絡(luò)管理產(chǎn)品的重要組成部分。
故障相關(guān)性產(chǎn)品利用各種機(jī)制來發(fā)現(xiàn)問題,其中包括SNMP trap、TL1消息、應(yīng)用日志和SYSLOG條目。SNMP和特定產(chǎn)品輪詢監(jiān)控器運(yùn)行在服務(wù)器、交換機(jī)和鏈路。相關(guān)性工具還可監(jiān)控設(shè)備問題、電源電壓和磁盤可用空間來預(yù)測(cè)未來的問題。
網(wǎng)絡(luò)故障管理軟件必須提供對(duì)網(wǎng)絡(luò)準(zhǔn)確的且最新的視圖。該軟件必須保持更新(無(wú)論是通過手動(dòng)或者通過網(wǎng)絡(luò)映射),以追蹤添加的、移除的或更新的組件。它必須維護(hù)每種組件的內(nèi)部型號(hào),介紹其配置和功能,并包含網(wǎng)絡(luò)運(yùn)營(yíng)政策的描述。當(dāng)添加應(yīng)用時(shí),還必須更新服務(wù)水平協(xié)議(SLA)等信息。
此外,故障相關(guān)性軟件必須與云編排軟件來交互,追蹤正在運(yùn)行的應(yīng)用、它們?cè)谀男┓?wù)器運(yùn)行和VLAN以及與每個(gè)租戶相關(guān)的覆蓋網(wǎng)絡(luò)。網(wǎng)絡(luò)故障管理軟件還必須不斷根據(jù)SLAN監(jiān)控應(yīng)用性能水平。
當(dāng)出現(xiàn)問題時(shí),相關(guān)性軟件會(huì)獲取所有接收到的故障指示,并利用有關(guān)的網(wǎng)絡(luò)拓?fù)湟约霸诠收铣霈F(xiàn)前數(shù)據(jù)如何移動(dòng)的信息來確定根本原因,并為網(wǎng)絡(luò)管理人員提供簡(jiǎn)要的報(bào)告。
SDN網(wǎng)絡(luò)
云計(jì)算與SDN技術(shù)管理的數(shù)據(jù)中心面臨著與依靠傳統(tǒng)技術(shù)的數(shù)據(jù)中心相同的潛在問題。它們都需要故障相關(guān)性軟件,但SDN架構(gòu)需要將相關(guān)性軟件內(nèi)置到網(wǎng)絡(luò)控制器或與其緊密連接。
這種差異的原因是Spanning Tree和Open Shortest Path First等傳統(tǒng)協(xié)議在網(wǎng)絡(luò)設(shè)備內(nèi)部部署。它們?cè)阪溌坊蚨丝趩栴}阻止流量時(shí)根據(jù)需要重新路由流量。通過SDN,所有路由都由控制器來確定,故障相關(guān)性軟件必須告知控制器問題的類型,以便它能夠確定備用路由。
OpenFlow兼容的白盒交換機(jī)支持各種供應(yīng)商的操作系統(tǒng),每個(gè)都有自己的檢測(cè)和故障報(bào)告方法。Big Switch和Pica8的操作系統(tǒng)都支持SNMP,但Big Switch的控制器和交換機(jī)操作系統(tǒng)利用OpenFlow消息來與設(shè)備進(jìn)行通信。相關(guān)性軟件通過接口與控制器通信,從設(shè)備處接收消息,并輪詢其狀態(tài)。
無(wú)線網(wǎng)絡(luò)和廣域網(wǎng)
Wi-Fi依靠一組專門的工具來診斷問題。Wi-Fi連接可受到很多問題的影響,例如信號(hào)干擾、墻壁或阻止信號(hào)的固態(tài)物體,以及安全漏洞。現(xiàn)在有各種故障排除產(chǎn)品,包括免費(fèi)軟件和專業(yè)的軟件產(chǎn)品。還需要專門的硬件產(chǎn)品來診斷某些類型的問題。
在網(wǎng)絡(luò)服務(wù)提供商擁有和管理的WAN連接的情況下,關(guān)鍵參數(shù)是吞吐量和往返時(shí)間,這方面也有免費(fèi)和專業(yè)產(chǎn)品可供選擇。
滿足最終用戶性能要求需要應(yīng)用性能的各方面都正常運(yùn)行。在出現(xiàn)問題時(shí),網(wǎng)絡(luò)故障管理和故障檢測(cè)產(chǎn)品必須能夠查明原因,使它們可快速被修復(fù)以及恢復(fù)正常運(yùn)作。