來自各行業的IT領導者討論了他們團隊在應對緊急事件時的具體行動以及他們從中汲取的經驗教訓,這些經驗幫助他們提升了應對計劃和能力。
Mike Mainiero在7月19日凌晨2點左右被其事件響應團隊成員叫醒,Catholic Health的IT系統以及其合作伙伴的系統都在崩潰,其中一個首先遇到技術問題的是其放射學供應商。
這家總部位于長島的醫療系統擁有近16000名員工,支持六家急癥醫院、三家護理院、一個家庭健康服務、一個臨終關懷服務以及一個醫生診所網絡,它有一個分類團隊,負責召集IT工作人員并為網絡安全和其他事件建立指揮中心,Catholic Health的高級副總裁兼首席數字信息官Mainiero說道。
“我們需要立即集合團隊,首先嘗試了解發生了什么,然后進行分類、溝通和緩解,”他補充道,官員們很快意識到這是一級優先事件。“顯然,當醫院里發生任何事情時,人們的生命可能會受到威脅。”
像Mainiero一樣,許多CIO在7月19日被驚醒,得知其組織因網絡安全公司CrowdStrike的一個故障軟件更新而經歷了停機。全球數百萬臺運行Microsoft Windows的計算機崩潰,并顯示“藍屏死機”錯誤信息。
Mainiero隨后開始與高層管理人員進行信息溝通,告知他們情況并讓他們知道指揮中心已經建立。
Catholic Health收到了來自CrowdStrike的通知,包含有關修復的信息,這些修復必須手動應用到數百臺服務器上,Mainiero說道。隨后是在患者護理環境中的桌面和工作站的修復。
指揮中心向所有醫療系統設施的運營負責人提供了進展更新。“我們能夠緩解這個問題,因此不需要取消任何手術或預約,”他們的設施仍然能夠為患者提供護理,工作人員用紙張記錄筆記,他說。當天晚上5點之前所有關鍵問題都得到了緩解。
Mainiero指出,如果停機發生在白天,影響會更大。“在醫院環境中,你不希望將患者轉移到其他地方,我們能夠避免所有轉移,”他說,“因此,這確實影響了終端用戶,但沒有影響到患者。由于我們的快速反應,我們能夠緩解任何傷害。”
全員響應
雖然并非所有情況都危及生命,但這種情景在全球各組織中上演。對于許多CIO來說,做好準備、制定災難恢復和業務連續性計劃以及與利益相關者的不斷溝通,減輕了停機的影響。
“我們能夠在三小時內使所有服務器重新上線……并在那個星期五下午之前讓所有筆記本電腦重新上線,”The Bonadio Group的CIO John Roman說道,這是一家全國性的注冊會計師事務所,他估計大約1100臺設備中有300臺受到了影響。“我們之所以能夠做到這一點,是因為我們實施了我們的事件響應計劃。大多數事件響應計劃是為防止某種類型的惡意軟件事件而創建的。我們將其通用化,以考慮到任何類型的事件——包括全球大流行病。”
一旦事件響應計劃被部署,第二步是召集所有IT人員實施CrowdStrike創建的修復腳本,Roman說道。他還通過公司的短信服務、內部門戶和電子郵件與公司領導和所有員工保持著持續溝通。
與Mainiero類似,Roman表示停機的時間點也有影響。“如果有好消息的話,那就是我們是一家會計師事務所,一年四季都很忙,但我們一年中最忙的時候可能是報稅季節,”他說,“如果這發生在三月份,業務影響會很大,因為我們無法提供報稅服務,但因為這發生在炎熱的夏季,我們能夠迅速解決問題,所以業務影響最小。”
對于穩定幣2.0生態系統管理公司Black Wallet來說,影響更為顯著。CIO Remi Alli將其形容為“對我們組織來說是一次具有挑戰性的經歷”,并表示停機持續了數小時,“在此期間我們無法訪問關鍵的安全功能,影響了我們的服務器和筆記本電腦。”
沒有CrowdStrike的服務,Alli說,“我們無法有效監控和響應潛在威脅,這引起了我們對整體安全態勢的擔憂。總的來說,這是一個緊張和具有挑戰性的時期,因為我們必須在解決停機帶來的限制的同時,保持系統的完整性。”
保持冷靜是關鍵
Alli首先召集了事件響應團隊評估情況并制定公司的即時響應計劃。“我們必須確保在解決停機問題的同時能夠保持業務連續性。”Alli說道。
溝通至關重要,Alli通過定期更新讓領導層和利益相關者了解情況和IT采取的措施。“在這種情況下很容易恐慌,但我們專注于透明和冷靜,這有助于團隊保持穩定。”Alli說道。
此外,“無法訪問關鍵的安全洞察暫時使我們處于風險中,但更重要的是,這暴露了我們整體安全態勢中的漏洞。我們不得不迅速調整一些安全協議并依賴其他措施,這提醒我們要有一個強大的備份計劃和冗余機制。”Alli說道。
Mainiero同意這一觀點,他表示在這種情況下,“你必須表現出一種角色——如果你驚慌,你的團隊也會驚慌。”他說,培訓教會他永遠不要提高嗓門。“但我會用一種指揮和控制的語氣……我可能會堅定[和]不妥協,但總是友善的。你想激勵人們,因為如果你不咆哮命令,他們會為你竭盡全力。”
得到的教訓和其他收獲
應付賬款軟件提供商AvidXchange的部分面向客戶的產品組合受到了停機影響,但CIO Angelic Gibson表示,IT團隊在不到24小時內完全恢復了服務。她將這歸功于“過度準備”和為應對停機而制定的情景計劃。
“我們根據業務中斷計劃采取行動,”Gibson說,“采取主動準備措施并建立正確的溝通渠道,使我們能夠在內部恢復系統的同時快速有效地與所有必要方溝通。”
Gibson表示,CIO必須公開且頻繁地溝通,展示對行動計劃的信心并提供保證,確保有冗余,并準備動員資源,以便IT部門能迅速行動。
Catholic Health的Mainiero強調,預先建立的溝通計劃至關重要,其中包括人員名單和一個能夠創建預設主題行和文本的平臺。同樣重要的是,要有一個系統可以“自動召集團隊集結”。
他還建議隨時保持與供應商的聯系。盡管Mainiero直接與CrowdStrike聯系,但他表示,由于Catholic Health與數百家供應商合作,通知所有受停機影響的人非常重要。
與其他人一樣,The Bonadio Group的Roman表示,組織的事件響應計劃需要考慮任何重大事件——不僅僅是勒索軟件或惡意軟件攻擊。此外,僅僅有一個計劃是不夠的;你還必須進行演練。
“我們每年進行桌面演練,并根據演練結果更新我們的事件響應計劃,”Roman說。
根據IT部門的規模,如果發生全公司范圍的停機,應該全體動員。
“然后進行溝通、溝通、再溝通,”Roman說,“人們在停機期間想知道發生了什么。我經常旅行,最讓人惱火的事情之一就是航班取消而不知道原因,但當你知道原因時,盡管感覺不太好……但你可能會感覺稍微好一些。”
Black Wallet的Alli從停機事件中學到了幾個關鍵教訓。第一個是“為意外情況做好準備。無論供應商看起來多么可靠,都要有應急計劃,”Alli說,“現在,我們優先測試各種場景下的事件響應協議,包括供應商停機。”
另一個教訓是加強內部溝通,不僅限于IT部門,還包括整個組織,這有助于減輕恐慌,確保所有人步調一致,Alli說。
停機事件還促使我們“深入審查第三方依賴關系,不僅是CrowdStrike,還有所有關鍵供應商。了解我們對它們的依賴情況,使我們能夠更積極地管理這些關系并進行更好的風險評估。”
這也加強了Black Wallet在組織內培養強大網絡衛生實踐的需要,Alli說。
恢復后,Black Wallet“進行了全面的事后分析,不僅分析了出錯的地方,還分析了我們的響應方式,”Alli說,“這種反思性實踐將幫助我們改進未來的流程。”
總體而言,盡管CrowdStrike的停機事件是一段艱難的經歷,但它提醒了我們組織“在網絡安全方法中保持彈性和適應性的的重要性,”Alli說,“恢復過程不僅涉及技術修復,還包括加強我們在安全和風險管理方面的組織文化。”
保持忠誠
Roman和Mainiero都堅決表示,停機事件不會影響他們與CrowdStrike的關系。
盡管公司受到了批評,“CrowdStrike是一家了不起的公司,我們看重的是他們的工程文化,”Mainiero說,“他們犯了一個錯誤。”他補充說,醫療系統必須為任何可能發生的故障做好準備。
盡管有些人指責CrowdStrike在行業中有壟斷行為,Mainiero表示,這次事件是一個質量保證問題。隨著系統和集成變得越來越復雜,他認為行業應共同探討如何處理質量保證問題。
Roman對此表示贊同,“我們都是人類,都會犯錯。如果你打算因為這次事件拋棄CrowdStrike……那你就必須考慮拋棄任何基于云的供應商。到目前為止,CrowdStrike一直表現得非常出色,防止了病毒和惡意軟件的爆發,他們的支持也非常出色,我們仍然致力于與他們的合作關系。”
企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,旗下運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。旗下運營19個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。