CIO們正在尋找避免單點故障的方法,并重新評估他們的云戰略,以防止任何“藍屏死機”事件的發生。
最近的CrowdStrike軟件故障導致全球Windows系統宕機,給IT社區帶來了震驚。對于CIO們來說,這一事件提醒了過度依賴單一供應商(特別是在云端)的固有風險,這次事件暴露了嚴重依賴云基礎設施的脆弱性。
盡管問題正在解決中,但它突顯了關鍵安全組件失敗時可能帶來的災難性后果,這促使CIO們質疑他們云環境的彈性,并探索替代策略。
重新評估云戰略
“當發生如此嚴重的問題并導致如此大的干擾時,重新審視現有的信念、決策和權衡是重要且必要的,”印度最大的有線電視提供商之一DishTV的CIO Abhishek Gupta表示。“評審的結果可能仍然是相同的決定,但必須進行評審。”Gupta表示,在CrowdStrike事件后,DishTV已經開始分階段重新評估其云戰略。
金融服務公司Shree Financials的CIO Shashank Jain建議進行戰略轉變。“企業和CISO們必須審查他們的云戰略,不應自動更新補丁,所有補丁應首先在測試服務器上進行測試,”Jain進一步強調,盡管CrowdStrike聲譽良好,但這次事件揭示了由于未測試的補丁導致的信任失效和連鎖反應。
總部位于荷蘭的TMF Group的網絡防御、IAM和應用安全主管Saurabh Gugnani補充說,多元化的云戰略可以減輕此類風險。“是的,他們(企業)應該重新審視云戰略,必須結合所有可用的解決方案。”
一些企業已經開始采取大膽的措施。
“針對最近影響我們關鍵業務運營的中斷,我們主動更新了業務連續性計劃,以應對意外停機并將對生產力和服務交付的影響降至最低,”Mytek Innovations的創始人兼CMD Shivkumar Borade表示,該公司是BSOD影響的受害者之一。“我們的修訂計劃包括增強的溝通管理,設有多層確保所有員工了解潛在問題及其解決方案。”
由于公司的整個網絡(包括Outlook、Teams和SharePoint)都托管在Microsoft 365上,因此其內部溝通受到顯著干擾。
“然而,我們內部開發的應用程序沒有受到影響,因為GoDaddy使用了自己的托管基礎設施,”Borade說,“我們確實遇到了一些與Azure平臺相關的API集成問題,這些問題全天無法正常工作,這次中斷導致我們的客戶和用戶的服務中斷。”
對CIO的警示
CIO們的主要關注點是供應商鎖定。正如CrowdStrike事件所示,依賴單一云供應商會導致單點故障。如果該供應商的關鍵服務中斷,會對企業產生深遠影響。為降低這種風險,CIO們可能會探索多云或混合云架構,將工作負載分布在多個平臺上。
Forrester的首席分析師Allie Mellen強調了在面對網絡威脅時,可靠工具和服務的重要性。
“在網絡攻擊面前,網絡安全團隊使用工具和服務的可靠性至關重要,”Mellen表示,“這樣的事件質疑了這種可靠性,這無疑會引起高管們對如何確保企業系統可靠性的疑問和關注,尤其是在網絡安全軟件如此日常化的情況下。”
事件暴露了云依賴系統的脆弱性,一個單點故障可能對整個企業產生連鎖反應。Beagle Security的高級安全專業人士和顧問Sunil Varkey指出,“云和安全供應商之間的信任現在受到質疑,這種信任的破裂可能會推動對無代理解決方案的更高重視,這些解決方案可以在不受傳統代理漏洞影響的情況下提供增強的安全性。”
考慮到影響的規模,這被認為是最嚴重的網絡安全事件之一。CrowdStrike事件影響了運行Microsoft Windows的計算機,涉及航空公司、銀行、零售商、經紀公司、媒體公司和鐵路公司等多個行業。旅行部門受到顯著影響,德國、法國、荷蘭、英國、美國、澳大利亞、中國、日本、印度、新加坡和臺灣的航空公司和機場在辦理登機手續和售票系統方面遇到了重大問題,導致航班延誤和機場混亂。
微軟表示大約有850萬臺Windows計算機受到影響。
影響如此之大,以至于SpaceX和Tesla的CEO Elon Musk不得不從所有系統中刪除CrowdStrike。
增強的風險管理實踐
此次事件突顯了改進風險管理實踐的必要性。加強盡職調查、嚴格測試更新和分階段推出現在變得至關重要。
“這次事件是一個警鐘,強調了整個行業在網絡安全實踐中需要不斷適應和改進,”RAH Infotech的CTO Gaurav Ranade說。
Rakuten Symphony的高級架構師D.R. Goyal倡導在全面發布之前為選定用戶測試更新的機制:“在向整個社區和用戶群體發布之前,應該有一個機制與某些企業的一組用戶一起測試,以減少影響。”
隨著數字化領域的不斷發展,確保基于云的系統具有韌性至關重要。An Idea Global Innovations的創始人Ashis Guha強調了更廣泛的影響:“該事件對全球經濟有更廣泛的影響,更長的停機時間和恢復時間將影響生產力和經濟。”
行業專家建議采取多項策略以備未來之需,包括分階段推出、全面測試和強大的備份系統。
Blockchain公司Qila的聯合創始人Siddharth Ugrankar建議,分階段部署和徹底測試更新可以減輕影響:“如果CrowdStrike以分階段方式部署更新,影響會小得多。”
Nuvepro的CTO Moyukh Goswami表示,企業應通過加強測試協議、實施嚴格的風險評估以及通過穩健的治理框架強化變更管理流程來加強更新管理。
“加強監控能力、改進針對更新失敗的事件響應計劃以及培養主動的供應商關系是關鍵。”Goswami補充道。
CrowdStrike事件強調了CIO們需要重新審視并強化其云戰略。通過實施穩健的風險管理實踐、增強安全措施和多樣化云解決方案,企業可以更好地保護自己免受未來的中斷。
隨著行業應對這一事件的影響,重點必須轉向構建韌性強、適應性強且經過良好測試的云戰略,以應對日益復雜的數字化環境。
企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,旗下運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。旗下運營19個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。