數(shù)據(jù)中心是全球協(xié)作的特定設(shè)備網(wǎng)絡(luò),用來在internet網(wǎng)絡(luò)基礎(chǔ)設(shè)施上傳遞、加速、展示、計算、存儲數(shù)據(jù)信息。那么,數(shù)據(jù)中心有哪些常見故障?數(shù)據(jù)中心故障又該如何處理呢?
數(shù)據(jù)中心有哪些常見故障
數(shù)據(jù)中心網(wǎng)絡(luò)常見的通訊故障主要集中在:硬件故障、系統(tǒng)故障兩個類別:
(1)硬件故障:
數(shù)據(jù)中心是通過無數(shù)計算機(jī)硬件組成的,硬件出現(xiàn)問題,就會導(dǎo)致部分功能無法正常發(fā)揮或運作。無論是設(shè)備、線路、端口,哪一點出現(xiàn)故障,都會導(dǎo)致網(wǎng)絡(luò)通訊故障的出現(xiàn)。硬件方面的故障相對比較容易查找,例如線路故障,一般的成因就是線路明顯的老化或者破損,而影響到了整體網(wǎng)絡(luò)的運營;再比如,端口故障,計算機(jī)端口作為數(shù)據(jù)中心網(wǎng)絡(luò)的重要環(huán)節(jié),若出現(xiàn)接觸不良、損壞等傳輸問題,就會影響到整體網(wǎng)絡(luò)的運行。硬件故障只要進(jìn)行逐一排查,就可以及時進(jìn)行更換處理,相對比較好解決。
(2)系統(tǒng)故障:
數(shù)據(jù)中心是計算機(jī)領(lǐng)域比較熱門的研究之一,因此研究技術(shù)十分成熟。計算機(jī)網(wǎng)絡(luò)構(gòu)成主要包括TREE、FAT-TREE、BCUBE、FICONN等,主要采用模塊化、層次化、扁平化的設(shè)計思路與虛擬化的分割管理技術(shù),將成千上萬臺設(shè)備,以單元為單位進(jìn)行劃分,逐一進(jìn)行管理。通過分層、遞歸的結(jié)構(gòu)進(jìn)行聯(lián)結(jié),盡可能的避免了所謂“關(guān)鍵節(jié)點”的存在。這樣組合也形成了良好的冗余與容錯性,如果其中出現(xiàn)故障的某一個或某幾個單元,沒有被檢測出來,也不至于影響數(shù)據(jù)中心的整體運行。但是如果超出一定比例,就會在影響數(shù)據(jù)中心網(wǎng)絡(luò)的高速運行,拉慢網(wǎng)絡(luò)通訊的速度,所以仍舊需要針對性的查找故障進(jìn)行處理。
數(shù)據(jù)中心故障如何處理
(1)分析故障現(xiàn)象:
一般來說由于構(gòu)成組件比較復(fù)雜,故障也呈現(xiàn)出不同的表現(xiàn)方式。因此想要對于故障進(jìn)行分析,就要先了解故障的現(xiàn)象。例如,應(yīng)用方面出現(xiàn)了支付系統(tǒng)支付不了,網(wǎng)頁難以打開等問題,那么就要逐一檢查相關(guān)的故障點,有哪幾個故障是上述表現(xiàn),如,線路故障,端口故障等,就要更換線路、端口等設(shè)備。因此,需要針對數(shù)據(jù)中心網(wǎng)絡(luò)的幾種常見的故障進(jìn)行收集與整理,根據(jù)現(xiàn)象,進(jìn)行檢索、查找。
(2)測試并確認(rèn)故障范圍,進(jìn)行故障點定位。
所有的應(yīng)用業(yè)務(wù)是在這些物理硬件正常運行的基礎(chǔ)上開展的,其中某些硬件出現(xiàn)問題就會導(dǎo)致故障。根據(jù)故障的表現(xiàn),需要針對各個部分進(jìn)行篩選檢查,例如,對于服務(wù)器進(jìn)行測試,檢查網(wǎng)絡(luò)設(shè)備等。針對問題表現(xiàn),進(jìn)行逐一排除,最終敲定故障點所在位置。
(3)如果以上硬件故障都已經(jīng)排除,那么就是計算機(jī)系統(tǒng)的故障,這一故障需要建立故障模型進(jìn)行診斷,根據(jù)PMC模型進(jìn)行定義。
通過分層測試的方法,查找問題單元,即正常單元測試正常單元、正常單元測試故障單元、故障單元測試故障單元、故障單元測試正常單元等四種。其中后三種的檢測結(jié)果都是故障,因此就可以通過分層測量的方式,建立有限個單元,通過矩陣以及螢火蟲算法重點FAFD算法對于其他單元進(jìn)行診斷,最終確定故障的系統(tǒng)是哪個或者哪幾個單元的。當(dāng)然也可以通過鏡像、流量統(tǒng)計、抓包等其他手段確定故障所在的設(shè)備范圍,進(jìn)而縮小范圍,集中處理某一個或者幾個設(shè)備。
(4)收集重要的數(shù)據(jù)信息。
在進(jìn)行故障處理時,通過收集設(shè)備的日志、診斷、操作記錄等信息資料,將這些數(shù)據(jù)資料進(jìn)行匯總,條件允許的情況下,建立故障數(shù)據(jù)庫,對于常見問題可以做到“出現(xiàn)即處理”,對于沒有出現(xiàn)過的故障,可以繼續(xù)收集進(jìn)數(shù)據(jù)庫。總之,必要的信息收集,有利于日后更好的查找故障原因,確保數(shù)據(jù)中心網(wǎng)絡(luò)健康、平穩(wěn)運行。
以上就是數(shù)據(jù)中心有哪些常見故障以及數(shù)據(jù)中心故障如何處理的全部內(nèi)容了,隨著數(shù)據(jù)中心應(yīng)用的廣泛化,人工智能、網(wǎng)絡(luò)安全等也相繼出現(xiàn),更多的用戶都被帶到了網(wǎng)絡(luò)和手機(jī)的應(yīng)用中。