鑒于7月19日CrowdStrike失敗更新后引發(fā)的全球計算機停機事件,審慎的高管們正在問:“我如何防止類似的事情再次發(fā)生?”
隨著大型科技公司市場集中度的提高,類似的大規(guī)模故障完全有可能再次發(fā)生。根據Synergy Research Group的數據,三大領先的云服務提供商——Amazon、Microsoft和Google——占據了全球市場的67%,其中,僅Amazon在2023年底就占據了31%的市場份額。
有兩種策略可以減輕類似軟件故障的影響:多樣化網絡基礎設施和模擬故障處理。在討論防御措施之前,我們先來討論一下引入CrowdStrike或其他第三方軟件供應商進入企業(yè)所帶來的風險。
CrowdStrike崩潰事件只是冰山一角
將設備訪問權限授予外部軟件或服務供應商會帶來以下風險:
• 失去對網絡功能的訪問(如CrowdStrike事件中所發(fā)生的那樣)
• 數據的未經授權訪問(你的知識產權和客戶數據安全嗎?)
• 通過聚合數據對你的業(yè)務活動進行可視化監(jiān)控
此外,你的數據安全現在依賴于網絡安全公司或云服務提供商的安全實踐。
考慮一下“移動設備管理”或“設備監(jiān)控”工具,它們中的大多數實際上都是rootkit,可以讓第三方100%控制你公司的設備。對于任何擁有專有知識產權并希望保密的公司來說,這種做法似乎都不明智。
沒錯,CrowdStrike確實搞砸了,并以一種極其壯觀的方式導致數百萬臺Windows計算機癱瘓,但這只是冰山一角,更大的威脅——我們集體而方便地忽視了——是某個外部實體掌控了你的業(yè)務運營。
高級安全軟件至關重要,但你在提供安全儀表板的名義下將網絡的鑰匙交給了別人。
人們擔心Facebook的跟蹤,并關閉第三方Cookies以保護私人生活,但像CrowdStrike這樣的軟件可以監(jiān)視、跟蹤每一臺公司電腦,從最底層的實習生到CEO。與之相比,Cookies只是小問題。
現在,即使CrowdStrike本身是可靠的,他們的軟件也按預期運行,但如果有人入侵了CrowdStrike會怎樣?理論上,攻擊者可能會獲得航空公司網絡、銀行網絡以及全球各大企業(yè)的訪問權限,這讓我感到擔憂。如果你給予某個供應商如此廣泛的網絡訪問權限,這種風險必須被評估。
那么,作為CIO或CISO,你如何減少這些大型科技公司發(fā)生另一場大規(guī)模故障的風險呢?
為失敗做好準備:規(guī)劃、演練、預期
減少大規(guī)模系統(tǒng)故障的關鍵在于為災難性事件做好規(guī)劃,并演練應對措施。將應對失敗的過程納入日常業(yè)務實踐中。當失敗是出乎意料且罕見時,處理它的流程往往未經測試,甚至可能導致使情況惡化的行動。
建立一個能夠適應和應對故障的網絡和團隊。記得保險公司以前運行自己的數據中心,并每年進行兩次災難恢復測試嗎?如今很少有公司在應急計劃上做到如此徹底,但一些公司,如Netflix,通過混沌工程樹立了良好的榜樣。Netflix的Chaos Monkey開源軟件通過引入故意的系統(tǒng)中斷,模擬現實世界中的故障,以測試系統(tǒng)的彈性。
要像Netflix,而不是像Delta Airlines那樣:在CrowdStrike更新后,Delta的關鍵機組人員跟蹤系統(tǒng)大部分時間都處于離線狀態(tài),幾乎持續(xù)了一周。
多樣化你的供應商和系統(tǒng)
減少大規(guī)模故障的第二個策略是避免因數字技術供應商的集中化而造成的軟件單一化。這雖然更復雜,但值得嘗試。
一些公司有一項政策,即從三到四個不同的供應商那里購買核心網絡設備。雖然這使得日常管理變得稍微困難一些,但他們有信心,即使一個供應商出現問題,他們的整個網絡也不會癱瘓。無論是在技術領域還是生物學中,單一文化都極易受到能夠摧毀整個系統(tǒng)的流行病的攻擊。
在CrowdStrike的情境下,如果公司網絡是Windows、Linux和其他操作系統(tǒng)的混合體,那么損害就不會如此廣泛。
對于“多樣化系統(tǒng)”這一觀點,2022年7月加拿大的Rogers Communications網絡中斷就是一個例子,這家加拿大電信提供商經歷了一次重大服務中斷,導致其有線互聯(lián)網和移動網絡服務停止,影響了超過1200萬用戶,持續(xù)時間長達26小時。
恢復工作受到阻礙,因為Rogers的員工通常是使用Rogers的蜂窩和互聯(lián)網系統(tǒng)的用戶,而這些系統(tǒng)當時崩潰了。那些不在辦公室的員工無法訪問互聯(lián)網,甚至無法使用他們的手機。一份第三方審查報告指出,Rogers的員工在中斷發(fā)生14小時后才得以訪問記錄故障根本原因的關鍵錯誤日志。
結論
第三方軟件供應商和云服務已經成為IT領域不可或缺的一部分,但如果我們想要將業(yè)務風險降到最低,就必須抵制將所有雞蛋放在一個籃子里的誘惑。
從CrowdStrike事件中得到的教訓是:多樣化你的供應商和系統(tǒng),并重新審視你的應急計劃。
企業(yè)網D1net(hfnxjk.com):
國內主流的to B IT門戶,旗下運營國內最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_-信眾智(www.cioall.com)。旗下運營19個IT行業(yè)公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業(yè)網D1Net編譯,轉載需在文章開頭注明出處為:企業(yè)網D1Net,如果不注明出處,企業(yè)網D1Net將保留追究其法律責任的權利。