Uptime Institute一直在研究公開報道停機情況,以追蹤導致意外停機的原因。在過去三年中,該公司從傳統(tǒng)媒體或社交媒體上報道的162起中斷中篩選了部分信息。在此期間,可用數(shù)據(jù)量穩(wěn)步攀升;研究人員收集了2016年27次停電,2017年57次停電以及2018年78次停電的數(shù)據(jù)。
Uptime Institute的研究執(zhí)行董事Andy Lawrence表示,“公共服務中斷越來越頻繁地成為新聞。”
Lawrence表示,“幾乎每天都在世界各地發(fā)生大規(guī)模停機,這并不一定意味著中斷的數(shù)量在急劇增加,但停機時間正在獲得更多的關注。”他說。
來自Uptime Institute的研究的一個重要發(fā)現(xiàn):電源在整體故障中的影響較小,而網(wǎng)絡和IT系統(tǒng)則更為牽連。
這種轉變的一個原因是,電力系統(tǒng)的運行比過去更加可靠,這減少了本地數(shù)據(jù)中心內(nèi)部的電力故障數(shù)量。
在過去二十年中,科技行業(yè)一直專注于設計電力系統(tǒng),使IT資產(chǎn)能夠在電力系統(tǒng)出現(xiàn)故障或故障的情況下繼續(xù)運行。Uptime Institute首席技術官Chris Brown表示,“供應雙線IT設備的2N配電系統(tǒng)的出現(xiàn),使得IT系統(tǒng)能夠通過一系列單一事件繼續(xù)運行。”
與此同時,日益復雜的IT環(huán)境導致更多的IT和網(wǎng)絡相關問題。“現(xiàn)在數(shù)據(jù)分布在多個地方,其中一些關鍵依賴與網(wǎng)絡、應用程序(架構)的方式以及數(shù)據(jù)庫復制的方式。這是一個非常復雜的系統(tǒng),今天擾亂該系統(tǒng)的可能性比過去幾年要少。”Uptime Institute負責IT優(yōu)化和戰(zhàn)略的副總裁Todd Traver說。
評估數(shù)據(jù)中心中斷的嚴重程度
為了區(qū)分可能導致業(yè)務癱瘓的停機和僅僅造成不便的中斷,Uptime Institute已經(jīng)提出了規(guī)模。Lawrence說,評級系統(tǒng)允許研究人員了解模式如何隨時間變化。Uptime Institute的規(guī)模有五個層次:
●1級是可以忽略不計的停機。中斷是可記錄的,但對服務的影響很小或沒有明顯影響,也沒有服務中斷。
●2級的特點是最小的服務中斷。服務中斷,但對用戶、客戶或聲譽的影響微乎其微。
●3級是業(yè)務重要的服務中斷。它涉及客戶或用戶服務中斷,大多數(shù)是有限的范圍、持續(xù)時間或影響。對經(jīng)濟的影響很小,甚至沒有。會產(chǎn)生一些聲譽或合規(guī)方面的影響。
●4級是嚴重的業(yè)務或服務中斷。涉及服務或操作的中斷。其中包括一些財務損失、違規(guī)行為,聲譽損害和可能的安全問題,客戶損失是可能的。
●5級是關鍵業(yè)務或任務停機,涉及服務或運營的重大破壞。可能存在巨大的財務損失、安全問題、合規(guī)性違規(guī)、客戶損失和聲譽受損。
當Uptime Institute在三年期間檢查所有公開報告的數(shù)據(jù)中心中斷(級別1到5)時,IT系統(tǒng)和網(wǎng)絡問題超出了電源作為主要原因(見圖)。
當比較逐年的原因時,這種趨勢尤其明顯。2017年,28%的停電事故的罪魁禍首是電力。在接下來的一年中,僅有11%的斷電被列為主要原因。與IT系統(tǒng)相關的故障保持相當一致; 在2017年和2018年分別有32%和35%的故障是由它們引起的。網(wǎng)絡中斷的主要原因顯著增加:2017年19%的網(wǎng)絡中斷歸咎于網(wǎng)絡,而2018年這一比例為32%。
“這是事物之間的相互聯(lián)系。這就是為什么網(wǎng)絡中斷的大幅增加會導致中斷。”“這些東西不是通過一個或兩個站點連接的,而是通過三個或四個或更多站點連接的。網(wǎng)絡在“IT彈性”中扮演著越來越重要的角色。
此外,隨著更多IT資源被移交給服務提供商,并且不再受使用它們的企業(yè)直接控制,IT將增加管理和操作復雜性。
深入研究數(shù)據(jù)中心停機時間
Uptime Institute深入研究了數(shù)據(jù)中心中斷的具體原因。在網(wǎng)絡方面,中斷的常見原因包括:
●光纖在數(shù)據(jù)中心外部切斷,路由選擇不足。
●主交換機間歇性故障,未部署輔助路由器。
●主交換機故障,沒有備份。
●維護期間的流量配置不正確。
●路由器和軟件定義的網(wǎng)絡配置錯誤。
●對非備份單個組件(如交換機和路由器)斷電。
錯誤配置的路由器和軟件定義的網(wǎng)絡是“常見的網(wǎng)絡問題。他們應該通過測試檢測到。”Traver說。
Traver說,當談到光纖切割時,公司往往不知道他們有單點故障。他們可能有兩個獨立的供應商,但他們不知道,光纖在同一個溝渠中運行。他們沒有做出適當?shù)谋M職調查來確定這一點。
當IT是罪魁禍首時,列舉的一些原因包括:
●管理不善的升級,缺乏軟件級別的測試。
●大型磁盤驅動器或存儲區(qū)域網(wǎng)絡的故障和后續(xù)數(shù)據(jù)損壞。這可能是由硬件故障引起的,由于配置或編程錯誤而加劇。
●負載平衡或流量管理系統(tǒng)中的同步或編程錯誤失敗。
●錯誤編程的故障/同步或災難恢復系統(tǒng)。
●對沒有備份的單個組件(例如服務器或大型磁盤驅動器)斷電。
談到負載均衡/流量管理問題,Lawrence表示,當公司嘗試更廣泛地分發(fā)IT資源時,可能會出現(xiàn)編程錯誤和同步問題。“減少對單一網(wǎng)站的依賴通常是更廣泛戰(zhàn)略的一部分; 就像你擠壓氣球一樣,問題突然出現(xiàn)在其他地方。”
Traver補充說,當公司“沒有真正規(guī)劃所有平臺的應用程序和數(shù)據(jù),或者他們沒有經(jīng)常測試它們時,就會出現(xiàn)問題”。
當電源成為主要問題時,一些主要的停電原因包括:
●雷擊,導致斷電。備份軟件/配置失敗。
●轉換開關出現(xiàn)間歇性故障,導致無法啟動發(fā)電機,或轉移到第二個數(shù)據(jù)中心。
●UPS故障和無法轉移到二級系統(tǒng)。
●操作錯誤,關閉或配置錯誤。
●公用電力損失以及發(fā)電機或UPS的后續(xù)故障。
●電涌引起的IT設備損壞。
這些都是數(shù)據(jù)中心的工程師們幾十年來一直在努力解決的問題——如何圍繞這些問題進行設計,如何用他們的設計減輕壓力。
Traver說,總的來說,公司需要更加關注數(shù)據(jù)中心的彈性。“了解您的系統(tǒng)是如何設計的。完全理解 - 所有相互依賴。并且也知道它是如何失敗的,并為失敗做好計劃。這是我認為缺少的那塊。”他說。
“設備越來越好,管理越來越好,經(jīng)驗越來越豐富。它正在成為一個更成熟的行業(yè)。”Lawrence總結道,“但即便如此,斷電仍然是一個非常重要和昂貴的問題