數據中心在現代企業運營的業務中仍然至關重要,因此企業需要識別和降低數據中心運營風險的方法。
隨著云計算的興起,一些IT傳道者、首席信息官和大型技術研究公司在5年前預言數據中心即將消亡。行業專家Mark Settle當時提出建議,企業關閉內部部署數據中心需要深思熟慮,并預測數據中心的業務將隨著數據量的增長而繼續增長。
如今,數據中心不僅繼續存在,而且在與混合云和多云的市場競爭中蓬勃發展。不僅如此,數據中心還可以滿足與邊緣計算、物聯網和5G等新興技術相關的服務需求。
由于這些新的應用程序以及終端用戶計算(EUC)和移動解決方案中的新興需求,數據中心的運營變得越來越復雜,導致出現更多的內部和外部風險。停機是一種持續性風險,每次停機事件的平均損失高達每分鐘11000美元。
以下是企業識別和降低數據中心運營風險的三個步驟。
1.采用綜合方法進行風險管理
2021年2月,德克薩斯州遭遇的冬季風暴以及隨后導致的大面積停電,對該州的數據中心來說是一次嚴峻的考驗。雖然沒有發生大規模故障,但電氣故障切換系統存在重大問題。
從功能的角度來看,數據中心是運行業務關鍵型應用程序的物理設施;而從業務的角度來看,它們是需要進行預算和管理的不動產或資本資產。
關鍵是,單點故障可能(而且經常會)導致數據中心的運營中斷,從而導致收入損失。這就是需要一個適用于整個企業的普遍風險管理計劃和政策的原因。
這也是綜合風險管理(IRM)發揮重要作用的地方。調研機構Gartner公司將綜合風險管理(IRM)定義為“由風險意識文化和支持技術支持的一組實踐和流程,通過對企業如何管理其獨特風險的綜合視圖來改進決策制定和性能。”
在后疫情時代,實施遠程工作、BYOD、CYOD和其他工作場所實踐變革的企業正在將其數字化轉型戰略與IT基礎設施升級相結合,以識別和緩解自然災害、供應鏈、數據處理以及商業模式所固有的風險。
如果企業正在實施數字化轉型,則需要監控可能影響數據中心的每個流程和因素(外部或內部),并準備好應對由一個或多個事件同時發生的多重風險。
數字化轉型不僅適用于嚴重依賴數據或技術的企業——它同樣適用于疫情之后開展遠程工作的中小企業,包括那些開始使用公有云替代數據中心的企業。
甚至政府部門也在認真對待數字化轉型——利用云計算技術改造數據中心基礎設施是他們的兩個中心目標之一(改善在線用戶體驗是另一個目標)。
Jeff Shupack說:“數據中心優化是《美國聯邦信息技術收購改革法案》中記分卡的一個關鍵衡量指標。該衡量指標部分反映了政府機構基礎設施利用云計算的程度。” Jeff Shupack是一名數字化轉型專家,在通過精益敏捷實施降低全球資本計劃風險方面具有15年的實踐經驗。
很多企業正在認識到,敏捷方法、大數據分析、移動解決方案和DevOps與可靠的、升級的數據中心協同工作,可以有效地預防風險、充分地應對風險和快速地恢復災難。因此,他們正在轉向能夠在混合IT基礎設施中實施這些最佳實踐的框架,以確保業務連續性、減少運營成本,并改善數字客戶體驗。
2.了解風險
無論企業的風險管理計劃多么全面,其發展速度永遠不會超過技術進步。新技術和新的工作方式正在創造前所未有的復雜性。以下是數據中心面臨的不同類型的風險。
(1)IT安全性不足
可以說,如今數據中心面臨的最大風險是網絡安全漏洞,從DoS攻擊、社交工程到數據盜竊,都有可能發生。2021年,每個數據泄露事件造成的平均損失為424萬美元,這是17年來最高的記錄。
應用程序和系統故障也會對物理安全方面產生影響,導致身份無法驗證、網絡連接中斷、授權人員無法進入特定區域等情況。
(2)系統故障
沒有彈性架構以及沒有連續的、冗余的、高帶寬的網絡連接,數據中心的運營注定要失敗。服務器、網絡設備和相關設備都需要集群、鏡像和復制等功能,以減少停機的機會。
應用程序或軟件(如管理程序) 有時會發生故障,導致服務器或網絡癱瘓。因此需要確保所有應用程序在混合基礎設施上無縫工作,并與云原生應用程序進行對話。
(3)電源故障
盡管這種情況極其罕見,但電力故障確實會發生——主要是自然災害帶來的后果。需要為數據中心的所有機架和冷卻系統配備UPS電源或備用發電機路。數據中心與多個變電站的直接連接有助于防止受到本地變電站停電的影響。
(4)漏水
洪水或滲水可能會給數據中心帶來災難。然而,維護良好的管路和排水系統對消防控制和冷卻系統至關重要。
(5)噪音
數據中心面臨的一個鮮為人知但卻十分嚴重的風險是長期暴露在高頻噪音中,這會降低存儲系統的效率,降低讀/寫性能,并最終影響數據完整性。數據中心應該建在遠離運動場、消防站、機場等地方,并部署在使用聲學抑制技術的建筑物內。
(6)火災
電源尖峰和電氣短路是數據中心火災的常見原因。如果不迅速控制,火災可以在幾分鐘內摧毀數據中心IT硬件。具有諷刺意味的是,空調和冷卻系統將會消散火災產生的煙霧,使火災早期探測變得更加困難。因此需要使用帶有光電傳感器的煙霧探測系統,以持續監測數據中心的空氣中是否有煙霧。
(7)糟糕的災難恢復規劃
雖然數據備份目前是一個非常簡單的過程,但出于安全性和性能的綜合考慮,數據中心比公有云更受歡迎——希望在系統故障時能夠立即恢復事務性數據。
當然,這取決于業務的性質和監管框架等因素。所以更有理由為每個不同的故障事件制定明確的恢復計劃;計算、存儲或網絡資源也是如此。
大多數先進的災難恢復計劃都有監控系統,可以跟蹤影響數據中心的風險因素,并在超過關鍵閾值時發出警報。
3.在管理風險之前評估風險
所有的風險并不都是相同的。雖然數據中心面臨著各種風險,特別是不同的垂直領域,但最終使用的風險緩解技術不一定需要針對數據中心環境進行定制。
因此,數據中心運營商需要制定風險管理計劃,列出數據中心可能面臨的所有風險,并指定對每種風險事件的響應。
首先進行風險審計——對所有擁有和運營的數據中心設施進行全面評估。評估影響設施設計、IT基礎設施和運營流程的因素。
如果過去發生過重大事故或中斷,那么可以進行根本原因分析來解決沒有解決的問題??梢宰鲂┦裁磥泶_保在類似的情況下不會再次出現停機。
此外,如果使用具有多個數據中心和云計算系統的混合架構,需要單獨審核每個數據中心以及它們之間的數據路徑和連接。
如果在金融和醫療保健等監管嚴格的行業中運營,則需要將定期數據中心風險評估和災難測試作為日常運營的一部分。
與其他事項一樣,需要創建框架、政策或備忘單提供適用于數據中心運營商的風險類別、每個類別影響的系統、估算損壞和恢復成本,以及發生事故或災難時應遵循協議的現成參考。
例如,IT咨詢機構凱捷公司采用了一種不斷發展的風險管理方法,該方法識別并量化風險及其緩解成本。凱捷公司高級交付中心經理Kevin Read表示:“我們已經建立了一個月度風險管理系統,記錄所有風險和問題,并制定行動計劃。如果需要更改,將提供投資預算。”
如何消除停機時間
數據中心(甚至是企業的整個IT基礎設施)永遠不會孤立地運行,數據中心大量組件正在全天候運轉。
IT基礎設施的風險緩解是一個共同的責任,而不僅僅是首席信息官或首席技術官的責任。企業需要有足夠數量的受過培訓的IT人員,他們愿意盡一切可能掌握數據中心的運營。
Tenable公司產品營銷副總裁Gavin Millard給大家的建議是:“沖突的目標可能很難解決,最有效的方法之一是建立一個高效的流程,持續識別風險所在。還需要一個可預測、可靠的方法來更新系統,而不會影響企業的總體業務目標。”
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。