比如最近,某大廠的宕機(jī)事件再次引發(fā)了廣泛的討論,社交媒體上各種“小道消息”層出不窮,有人調(diào)侃數(shù)據(jù)中心著火了,還有人猜測(cè)是不是又刪庫(kù)跑路了。
為什么一提到數(shù)據(jù)中心宕機(jī),吃瓜群眾往往會(huì)和刪庫(kù)跑路聯(lián)系在一起呢?這是有原因的——這種極端情況總是被炒得火熱,讓人印象深刻。但其實(shí),刪庫(kù)跑路并不是數(shù)據(jù)中心宕機(jī)的主要原因,甚至因?yàn)榘l(fā)生的次數(shù)實(shí)在太少,可以忽略不記。
那么,什么才是數(shù)據(jù)中心宕機(jī)的主要原因呢?
近日,知名的數(shù)據(jù)中心標(biāo)準(zhǔn)組織和第三方認(rèn)證機(jī)構(gòu)Uptime Institute發(fā)布了《2024年度故障報(bào)告》,就為我們了解數(shù)據(jù)中心宕機(jī)的原因提供了寶貴的指導(dǎo)。
該報(bào)告詳細(xì)介紹了截至2024年,最常見(jiàn)的威脅數(shù)據(jù)中心正常運(yùn)行的挑戰(zhàn),接下來(lái)隨戴小編一起來(lái)看看吧。
影響數(shù)據(jù)中心正常運(yùn)行的5大因素
你可能會(huì)認(rèn)為,數(shù)據(jù)中心宕機(jī)的最常見(jiàn)原因是網(wǎng)絡(luò)攻擊或刪庫(kù)跑路等風(fēng)險(xiǎn)。但其實(shí),從數(shù)據(jù)中心正常運(yùn)行時(shí)間的角度來(lái)看,這些風(fēng)險(xiǎn)可以忽略不計(jì)。大多數(shù)數(shù)據(jù)中心故障的核心問(wèn)題分為以下幾類:
01物理系統(tǒng)故障
數(shù)據(jù)中心故障最常見(jiàn)的原因是電源問(wèn)題。根據(jù)Uptime Institute的報(bào)告,電源問(wèn)題占所有數(shù)據(jù)中心故障的52%。另外19%的故障事件源于數(shù)據(jù)中心冷卻問(wèn)題。
這意味著,到目前為止,物理故障是影響數(shù)據(jù)中心正常運(yùn)行的最大風(fēng)險(xiǎn)(超過(guò)70%)。因此,想要讓數(shù)據(jù)中心更少的宕機(jī),投資于冗余電源或HVAC(暖通空調(diào))系統(tǒng)等解決方案,是最有效的方案。
02第三方供應(yīng)商
對(duì)數(shù)據(jù)中心正常運(yùn)行的第二大威脅是第三方供應(yīng)商。這意味著由服務(wù)提供商(公司通過(guò)外包協(xié)議或類似安排與其簽約管理數(shù)據(jù)中心)造成的故障。
那么,把數(shù)據(jù)中心的運(yùn)營(yíng)轉(zhuǎn)移回公司自己,能否緩解這個(gè)問(wèn)題呢?很難說(shuō),因?yàn)槟切W?shù)據(jù)中心運(yùn)營(yíng)的外包公司,往往比大多數(shù)非IT公司更加專業(yè)。
但這也提醒了廣大企業(yè)用戶,如果你選擇第三方來(lái)管理數(shù)據(jù)中心,你應(yīng)該了解他們的正常運(yùn)行時(shí)間記錄,確保供應(yīng)商不會(huì)成為你日常業(yè)務(wù)運(yùn)行的薄弱環(huán)節(jié)。
03 IT設(shè)備故障
IT系統(tǒng)硬件和軟件故障是數(shù)據(jù)中心停機(jī)的第三大常見(jiàn)原因。這并不奇怪,因?yàn)樽詳?shù)字時(shí)代來(lái)臨以來(lái),公司一直在努力應(yīng)對(duì)服務(wù)器崩潰的問(wèn)題。
雖然沒(méi)有靈丹妙藥可以減輕這種風(fēng)險(xiǎn),但有一些行之有效的策略。比如投資給那些更好的監(jiān)控和可視化解決方案,并創(chuàng)建帶有自動(dòng)故障轉(zhuǎn)移的備份IT環(huán)境,以便如果服務(wù)器崩潰,其工作負(fù)載可以立即轉(zhuǎn)移到另一臺(tái)服務(wù)器。
04網(wǎng)絡(luò)故障
網(wǎng)絡(luò)故障與IT設(shè)備故障類似:它們導(dǎo)致數(shù)據(jù)中心停機(jī)的概率幾乎完全相同,而且是企業(yè)長(zhǎng)期以來(lái)一直在應(yīng)對(duì)的一種挑戰(zhàn)。
與增加IT設(shè)備正常運(yùn)行時(shí)間一樣,提高數(shù)據(jù)中心網(wǎng)絡(luò)可靠性的策略包括更好的網(wǎng)絡(luò)監(jiān)控和在網(wǎng)絡(luò)內(nèi)建立冗余,以便當(dāng)部分網(wǎng)絡(luò)出現(xiàn)故障時(shí),數(shù)據(jù)包可以選擇替代路由。
此外,更多地使用軟件定義網(wǎng)絡(luò)也可以提高網(wǎng)絡(luò)可靠性,因?yàn)槭褂密浖刂贫皇俏锢砭W(wǎng)絡(luò)設(shè)備,可以更容易地識(shí)別和減輕故障。
05其他數(shù)據(jù)中心正常運(yùn)行的挑戰(zhàn)
火災(zāi)和信息安全事件也在Uptime Institute的數(shù)據(jù)中心故障原因排名中名列前茅,但僅占少數(shù),它們分別占所有故障的3%和1%。
需要指出的是,這并不是在說(shuō)防火措施和網(wǎng)絡(luò)安全保護(hù)不重要,數(shù)據(jù)中心發(fā)生的每一次的宕機(jī)事件,都會(huì)給企業(yè)造成嚴(yán)重的財(cái)務(wù)損失、業(yè)務(wù)和客戶的中斷,甚至在極端情況下造成生命損失。因此,任何能減少宕機(jī)事故發(fā)生的方法都至關(guān)重要。
減少宕機(jī)的幾個(gè)關(guān)鍵措施
在Uptime Institute的報(bào)告中,有五分之四的受訪者表示,如果管理、流程或配置更好,他們最近的宕機(jī)事件是可以避免的。這意味著,通過(guò)更好的管理或設(shè)備可以很大程度上減少宕機(jī)事件發(fā)生。
下面,戴小編為大家介紹幾個(gè)關(guān)鍵措施,幫助企業(yè)更好地預(yù)防宕機(jī):
01檢查你的設(shè)備
對(duì)于大部分IT設(shè)備而言,運(yùn)行大約5年后就該考慮更換。這是行業(yè)的經(jīng)驗(yàn)法則,背后有充分的理由。隨著時(shí)間的推移,設(shè)備內(nèi)部的老化會(huì)導(dǎo)致故障概率增加,因此,超期服役的設(shè)備應(yīng)盡快從生產(chǎn)環(huán)境中淘汰。
此外,技術(shù)進(jìn)步的速度極快。例如,僅僅兩代服務(wù)器之間,其性能差異可能達(dá)到100%-150%,而40%-50%的差距更是常見(jiàn)。繼續(xù)維護(hù)那些難以滿足現(xiàn)代工作負(fù)載需求的舊服務(wù)器,不如用新的服務(wù)器替換它們。管理一臺(tái)能夠處理大型現(xiàn)代工作負(fù)載的單一服務(wù)器,比管理三到四個(gè)遺留服務(wù)器更為高效。
*戴爾PowerEdge R760服務(wù)器是一款雙路服務(wù)器,搭載了第四代英特爾®至強(qiáng)®可擴(kuò)展處理器,可把人工智能推理的性能提升高達(dá)2.9倍。與上一代產(chǎn)品相比,單臺(tái) PowerEdge R760服務(wù)器還可提高所支持的VDI用戶數(shù)量達(dá)20%。
02盡量選擇具有高可用性的設(shè)備
為了盡可能減少宕機(jī)事件的發(fā)生,企業(yè)用戶在挑選IT產(chǎn)品時(shí),盡量考慮那些具有高可用性的設(shè)備至關(guān)重要,這不僅是對(duì)當(dāng)前業(yè)務(wù)需求的回應(yīng),更是對(duì)未來(lái)業(yè)務(wù)增長(zhǎng)的前瞻性投資。隨著數(shù)據(jù)量和業(yè)務(wù)復(fù)雜性的不斷增加,擁有高可用性的設(shè)備將為企業(yè)提供穩(wěn)固的基礎(chǔ),以應(yīng)對(duì)各種挑戰(zhàn)。
例如在存儲(chǔ)系統(tǒng)方面,戴爾的高端存儲(chǔ)PowerMax、中端存儲(chǔ)PowerStore以及軟件定義的PowerFlex,均可為企業(yè)的高價(jià)值工作負(fù)載提供“6個(gè)9”(99.9999%) 的可用性保障。
03完整的IT視圖
實(shí)時(shí)監(jiān)控企業(yè)的運(yùn)行狀況至關(guān)重要,這不僅能讓您第一時(shí)間發(fā)現(xiàn)問(wèn)題,更能在問(wèn)題發(fā)生前通過(guò)偵測(cè)異常及時(shí)發(fā)出警告,預(yù)防問(wèn)題的發(fā)生。
這方面,戴爾CloudIQ是一個(gè)極佳的選擇。它是IT基礎(chǔ)架構(gòu)管理的集大成者,集成主動(dòng)監(jiān)控、機(jī)器學(xué)習(xí)和預(yù)測(cè)分析技術(shù),同時(shí)提供全面的服務(wù)器視圖,無(wú)論設(shè)備位于何處都可被統(tǒng)一管理。幫助用戶快速采取行動(dòng),并簡(jiǎn)化本地基礎(chǔ)架構(gòu)的操作和云中的數(shù)據(jù)保護(hù)。
CloudIQ還具有便捷易用的特點(diǎn),作為基于云的應(yīng)用程序,用戶可直接通過(guò)iOS或Android應(yīng)用商店獲得。使用時(shí),用戶只需安裝和配置戴爾系統(tǒng),并將其連接到CloudIQ即可,無(wú)需安裝許可證或額外的軟件,就這么簡(jiǎn)單!
04確保數(shù)據(jù)始終可用
在網(wǎng)絡(luò)安全事件頻發(fā)的當(dāng)下,很多企業(yè)可能已經(jīng)盡全力應(yīng)對(duì)網(wǎng)絡(luò)威脅,但所謂“道高一尺,魔高一丈”,企業(yè)仍有可能遭受黑客攻擊。這意味著企業(yè)不僅需要與時(shí)俱進(jìn)的保護(hù)方案,更需要構(gòu)筑最后一道防線,以確保一旦黑客突破所有防護(hù)措施進(jìn)入關(guān)鍵系統(tǒng),企業(yè)的“黃金”數(shù)據(jù)依然安全,從而保障核心業(yè)務(wù)的恢復(fù)能力。
在這方面,戴小編推薦戴爾PowerProtect Cyber Recovery避風(fēng)港解決方案。這是被Sheltered Harbor認(rèn)可的首個(gè)數(shù)據(jù)保險(xiǎn)庫(kù)解決方案,能夠幫助企業(yè)構(gòu)筑保護(hù)數(shù)據(jù)安全的最后一道防線。
Cyber Recovery數(shù)據(jù)避風(fēng)港通過(guò)氣隙隔離(Air Gap)數(shù)據(jù)保險(xiǎn)庫(kù),來(lái)保護(hù)關(guān)鍵數(shù)據(jù)。
Cyber Recovery存儲(chǔ)區(qū)具有多層保護(hù),可提供應(yīng)對(duì)網(wǎng)絡(luò)攻擊(甚至包括內(nèi)部威脅)的抗風(fēng)險(xiǎn)能力。它將關(guān)鍵數(shù)據(jù)從受攻擊面移走,以物理方式將其隔離在數(shù)據(jù)中心的受保護(hù)部分中,需要單獨(dú)的安全憑據(jù)和多因素身份驗(yàn)證才能進(jìn)行訪問(wèn)。
其他保護(hù)機(jī)制包括一個(gè)自動(dòng)化、運(yùn)營(yíng)安全隔離 Air Gap,用以提供網(wǎng)絡(luò)隔離,并消除可能會(huì)被攻破的管理界面。Cyber Recovery數(shù)據(jù)避風(fēng)港可在生產(chǎn)系統(tǒng)(包括開(kāi)放系統(tǒng)和大型機(jī))和存儲(chǔ)區(qū)之間自動(dòng)執(zhí)行數(shù)據(jù)同步,使用鎖定的保留策略創(chuàng)建不可更改的副本。一旦發(fā)生網(wǎng)絡(luò)攻擊,您可以快速找到干凈的數(shù)據(jù)副本,恢復(fù)關(guān)鍵系統(tǒng),并讓您的業(yè)務(wù)恢復(fù)正常運(yùn)行。
總而言之,數(shù)據(jù)中心的穩(wěn)定性是企業(yè)數(shù)字化運(yùn)營(yíng)的基石。通過(guò)及時(shí)更新設(shè)備、采用高可用性解決方案、加強(qiáng)監(jiān)控措施,以及建立堅(jiān)固的數(shù)據(jù)安全防線,企業(yè)能夠顯著降低宕機(jī)的風(fēng)險(xiǎn)。面對(duì)日益復(fù)雜的網(wǎng)絡(luò)環(huán)境,未雨綢繆、主動(dòng)防范將幫助企業(yè)更好地應(yīng)對(duì)挑戰(zhàn),確保業(yè)務(wù)的持續(xù)性與數(shù)據(jù)的安全性,為未來(lái)的發(fā)展奠定堅(jiān)實(shí)的基礎(chǔ)。