數(shù)據(jù)中心是由大量電子設備搭建起來的復雜信息系統(tǒng),這些電子設備出現(xiàn)各種各樣的故障是不可避免的,尤其是網(wǎng)絡設備,就算是谷歌、臉譜、亞馬遜等這些互聯(lián)網(wǎng)巨頭的數(shù)據(jù)中心也難免會發(fā)生不少故障。一旦網(wǎng)絡設備出現(xiàn)故障,往往大面積的業(yè)務就會受到影響。一方面我們要增加網(wǎng)絡設計的健壯性,關鍵節(jié)點部署冗余備份;另一方面要優(yōu)化處理網(wǎng)絡故障的手段,當出現(xiàn)網(wǎng)絡故障時,如何快速恢復、并定位問題,消除隱患都需要諸多專業(yè)技術知識和豐富的網(wǎng)絡經(jīng)驗,同時制定完善的故障處理流程,這樣能大大縮短故障恢復的時間,同時還能有效找到故障原因,避免類似問題下次出現(xiàn)。數(shù)據(jù)中心網(wǎng)絡出了故障并不可怕,可怕的是故障后長時間無法恢復,可怕的是故障恢復后,依然不知道產(chǎn)生故障的原因,這樣數(shù)據(jù)中心網(wǎng)絡在不采取任何防護措施的情況下,繼續(xù)運行可能出現(xiàn)二次故障,所以制定詳細的網(wǎng)絡故障維護策略非常重要。一旦發(fā)生網(wǎng)絡故障,迅速找到故障原因,快速恢復業(yè)務。
俗話說“養(yǎng)兵千日,用兵一時”,平時不做足功課,出了故障必然處理起來毛手毛腳。在數(shù)據(jù)中心網(wǎng)絡日常管理中,要熟悉網(wǎng)絡運行情況,并定期、準確、迅速、簡單概括評估其運行狀況,建立完善的檢修報告制度。維護人員要多學習,多總結,對網(wǎng)絡運行的細節(jié)了如指掌。維護人員要對網(wǎng)絡設備的端口互連、組網(wǎng)配置、業(yè)務特點牢記,當出現(xiàn)故障時,腦海里即刻就能浮現(xiàn)出網(wǎng)絡拓撲,故障的位置,這可為搶修故障爭取寶貴時間。如果遇到故障時,還在確認網(wǎng)絡設備端口互連關系,說明對網(wǎng)絡認識還不夠深刻,這必然加長故障恢復的時間。同時,維護人員要對網(wǎng)絡設備進行周期性巡檢,并做詳細記錄,發(fā)現(xiàn)隱患及時修復,避免故障影響面擴大。維護人員需強化保養(yǎng)與監(jiān)測,降低故障發(fā)生風險,確保網(wǎng)絡能夠正常運行。
也許數(shù)據(jù)中心日常網(wǎng)絡管理和維護工作開展都是非常規(guī)范的,但依然難免可能會發(fā)生網(wǎng)絡故障。出了故障,不要慌亂,要冷靜思考。仔細觀察故障現(xiàn)象,詳細了解故障相關情況,明確出錯信息細節(jié),確定故障癥狀。明確故障發(fā)生前是否有人操作了網(wǎng)絡(70%的網(wǎng)絡故障與人為操作有關)。如果沒有,再進一步明確網(wǎng)絡故障的位置,確認故障的設備或鏈路,這時可以采用PING、TRACERT命令或相關工具快速確認網(wǎng)絡故障位置。同時,迅速收集故障設備信息。
維護人員根據(jù)故障發(fā)生的位置、故障基本信息,對故障產(chǎn)生原因進行分析。若短時間內看不出原因,要啟動隔離故障預案。要再次確認故障信息是否收集完整,避免有遺漏,否則日后可能分析不出故障原因。啟動隔離故障預案,將故障隔離后,觀察業(yè)務是否逐漸恢復,直到業(yè)務徹底恢復后,再進行后續(xù)的問題分析。一旦預案失效,業(yè)務仍不見恢復,需要啟動緊急應急措施,比如將業(yè)務轉移到另外數(shù)據(jù)中心上,或者災備數(shù)據(jù)中心上,再次確認業(yè)務是否完全恢復。這些故障預案在平時的網(wǎng)絡維護中應該做一些故障演練、故障模擬測試,以免這些預案機制在真正故障來臨時失效。
對于故障原因未能及時明確的,事后根據(jù)故障時收集的信息進行分析。數(shù)據(jù)中心技術人員的能力有限,可以召集行業(yè)內專家、設備廠商人員對故障信息進行分析,直到找到故障原因為止。有些時候,為了快速恢復業(yè)務,收集的信息不完善,或者設備記錄信息不完整,往往很難找到故障原因,不可能在找到原因之前將業(yè)務割回。可以在現(xiàn)有的網(wǎng)絡中做一些模擬測試,找一找故障原因,還不行就得對可能故障的節(jié)點進行優(yōu)化或者更換,然后召集各類專家保障,再擇機將業(yè)務割回,進行觀察。割回后一旦故障復現(xiàn)或者運行一段時間后再次出現(xiàn),各路專家及時出手,排查故障原因。這個過程也許要經(jīng)歷過數(shù)次,最終才會找到故障原因,數(shù)據(jù)中心不允許將隱患留在網(wǎng)絡中,不帶隱患運行。
網(wǎng)絡故障處理完后,要進行細致總結??船F(xiàn)有網(wǎng)絡中哪些地方需要優(yōu)化,維護人員哪些方面的技術要加強,避免相同的故障再次在網(wǎng)絡中出現(xiàn)。對網(wǎng)絡故障進行深刻總結,全方位進行巡檢,類似的隱患一律消除。這些工作做完后,要將故障排除過程文檔化,對所做的工作進行文字記錄。文檔是排錯寶貴經(jīng)驗的總結,是“經(jīng)驗判斷和理論分析”這一過程中最重要的參考資料,比如要包括:故障現(xiàn)象描述及收集相關信息、故障發(fā)生原因解釋、本次排錯的心得體會、后續(xù)網(wǎng)絡優(yōu)化工作、故障處理流程上是否存在瑕疵等,都要形成正式文檔后日后查閱。維護人員必須養(yǎng)成及時進行故障排除的文檔記錄和經(jīng)驗總結習慣,一方面是網(wǎng)絡維護工作的基本要求,另一方面也是自身提高排錯技術的需要。同時,還要對故障處理過程中,暴露出工作上的疏漏及時補救,優(yōu)化整個故障處理分析的過程。
在數(shù)據(jù)中心里,網(wǎng)絡故障不可避免,通過以上的故障維護策略步驟,可以大大減少重復網(wǎng)絡故障的發(fā)生。但是網(wǎng)絡故障產(chǎn)生是受到很多因素影響的,而且故障類型較多,要徹底消除是非常困難的,這是那些網(wǎng)絡技術實力非常雄厚的互聯(lián)網(wǎng)巨頭數(shù)據(jù)中心依然故障不斷的原因。隨著數(shù)據(jù)中心網(wǎng)絡規(guī)模越來越大,新的網(wǎng)絡技術越來越復雜,給網(wǎng)絡故障排查制造了極大的障礙,這樣更需要對網(wǎng)絡故障的維護策略進行不斷地優(yōu)化和調整,以便適應新的數(shù)據(jù)中心網(wǎng)絡環(huán)境。