在公司忙于解決其彈性問題時(shí),高層領(lǐng)導(dǎo)者應(yīng)著眼于更長遠(yuǎn)的未來。
7月19日,CrowdStrike(一家網(wǎng)絡(luò)安全平臺(tái)提供商)發(fā)布了一次更新,導(dǎo)致850萬臺(tái)微軟Windows PC和服務(wù)器崩潰,電腦無法啟動(dòng),顯示“藍(lán)屏死機(jī)”,關(guān)閉端口,導(dǎo)致消費(fèi)者無法使用ATM,推遲了醫(yī)療程序。
盡管CrowdStrike當(dāng)天發(fā)布了修復(fù)程序,但企業(yè)不得不經(jīng)歷繁重的過程,手動(dòng)重新啟動(dòng)成千上萬臺(tái)服務(wù)器和PC進(jìn)入安全模式,并刪除與故障更新相關(guān)的文件,然后再安裝修復(fù)程序。
這不是一次網(wǎng)絡(luò)攻擊,也不是個(gè)例,最近有幾次廣泛的軟件故障在整個(gè)價(jià)值鏈中造成了混亂,比如今年的勒索軟件攻擊,導(dǎo)致汽車經(jīng)銷商無法開展業(yè)務(wù),醫(yī)療服務(wù)提供者無法收到付款,或者幾年前的老舊不穩(wěn)定系統(tǒng)導(dǎo)致節(jié)假日旅行者滯留。
自從故障開始以來,我們與商業(yè)和技術(shù)高管進(jìn)行了數(shù)十次討論,探討其影響。目前,技術(shù)團(tuán)隊(duì)已經(jīng)動(dòng)員起來,解決公司面臨的問題。高層商業(yè)領(lǐng)導(dǎo)者在提供資源、支持和指導(dǎo)方面也發(fā)揮著重要作用。以下是他們應(yīng)問的問題,以確定如何減輕此次事件的影響并減少下次風(fēng)險(xiǎn)。
對(duì)問題的理解
世界上近四分之三的計(jì)算機(jī)運(yùn)行微軟Windows操作系統(tǒng),包括運(yùn)行應(yīng)用程序的企業(yè)服務(wù)器和員工使用的筆記本電腦或PC。
CrowdStrike Falcon傳感器是一款終端檢測和響應(yīng)(EDR)產(chǎn)品,它在PC和服務(wù)器上安裝代理,以識(shí)別和遏制惡意軟件及其他類型的網(wǎng)絡(luò)攻擊。為應(yīng)對(duì)不斷演變的威脅,CrowdStrike會(huì)安裝配置更新,有時(shí)每天多次——而7月19日發(fā)布的更新存在問題。由于Falcon代理在Windows啟動(dòng)過程的早期運(yùn)行,并在低級(jí)別加載,因此修復(fù)無法使用自動(dòng)化軟件分發(fā)工具,需要手動(dòng)干預(yù)。
事情是這樣的:
• 7月19日星期五,協(xié)調(diào)世界時(shí)4:09,其中一個(gè)通道文件更新存在邏輯錯(cuò)誤,當(dāng)觸發(fā)時(shí)導(dǎo)致Windows崩潰。
• 涉及的通道文件(通道文件291)用于提供邏輯,以評(píng)估和防止命名管道的濫用(命名管道是Windows用于進(jìn)程間或系統(tǒng)間通信的機(jī)制)。
• 通道文件中的更新旨在針對(duì)和保護(hù)新觀察到的用于網(wǎng)絡(luò)攻擊中常見的C2(指揮和控制)框架的惡意命名管道。
通道文件中的邏輯錯(cuò)誤影響了所有在協(xié)調(diào)世界時(shí)4:09之后下載更新的微軟Windows系統(tǒng)。協(xié)調(diào)世界時(shí)5:27之后上線的系統(tǒng)收到了更新后的通道文件(回滾到之前的穩(wěn)定版本),未受影響。
鑒于CrowdStrike代理在Windows內(nèi)核中的特權(quán)位置,每個(gè)受影響的終端設(shè)備都需要手動(dòng)修復(fù):
• 對(duì)于筆記本電腦/PC:修復(fù)過程包括反復(fù)重啟Microsoft Windows主機(jī)以嘗試自動(dòng)解決問題,如果不奏效,下一步需要在安全模式下重啟計(jì)算機(jī)并刪除有問題的文件。對(duì)于出于安全原因選擇加密終端用戶硬盤的公司,修復(fù)過程更加復(fù)雜。
• 對(duì)于云主機(jī):修復(fù)過程包括回滾到4:09 UTC之前的快照,或者分離系統(tǒng)磁盤卷,手動(dòng)修復(fù)問題,然后重新連接磁盤卷。
此次中斷的性質(zhì)說明了IT組織在保護(hù)環(huán)境免受網(wǎng)絡(luò)攻擊的同時(shí),必須在管理可能引入不穩(wěn)定性的更改之間進(jìn)行權(quán)衡。
立即行動(dòng):如何加速和維持恢復(fù)
受影響實(shí)體的技術(shù)組織在中斷當(dāng)天就啟動(dòng)了恢復(fù)工作,他們?cè)O(shè)立了戰(zhàn)情室,與利益相關(guān)者溝通,并制定了技術(shù)修復(fù)計(jì)劃以恢復(fù)運(yùn)營。
然而,高級(jí)管理人員應(yīng)提出一些問題,以確保恢復(fù)工作的快速和可持續(xù)性:
• 我們的團(tuán)隊(duì)需要什么來維持修復(fù)工作的進(jìn)度?
這對(duì)于自中斷以來一直不停工作的IT團(tuán)隊(duì)來說是一個(gè)艱難且充滿壓力的時(shí)期,他們需要維持這種速度多久,將取決于其技術(shù)環(huán)境的復(fù)雜性和受影響的計(jì)算機(jī)數(shù)量。
高級(jí)領(lǐng)導(dǎo)可以詢問其恢復(fù)團(tuán)隊(duì)需要什么來完成這項(xiàng)工作——可能是更多的資源來修復(fù)系統(tǒng),或者只是高管團(tuán)隊(duì)成員訪問戰(zhàn)情室,以展示公司對(duì)其努力的重視。
• IT部門能否動(dòng)員終端用戶協(xié)助修復(fù)PC和筆記本電腦?
在某些情況下,IT工作人員可能希望自己解決問題,這些努力對(duì)于服務(wù)器是必要的,但對(duì)于PC則不一定。通過明確的指示,終端用戶可以在安全模式下啟動(dòng)計(jì)算機(jī),刪除有問題的文件,然后重啟,從而節(jié)省IT支持人員必須接觸成千上萬臺(tái)機(jī)器的時(shí)間。
• 我們對(duì)員工和客戶是否足夠透明和響應(yīng)迅速?
這次中斷對(duì)員工和客戶造成了巨大影響,過去的中斷表明,花時(shí)間承認(rèn)影響并以直接的方式溝通你知道什么(以及你不知道什么)非常重要,在一次大型勒索軟件攻擊后,一家公司的CEO致電主要客戶,表示歉意并解釋事件,即使在多年后,客戶仍然記得并感激這一點(diǎn)。
有時(shí),透明和同情是不夠的,許多受影響公司的客戶不僅經(jīng)歷了不便,還遭受了經(jīng)濟(jì)損失,未來可能需要做出關(guān)于考慮何種賠償類型的艱難決定。
在未來幾天:如何降低未來事件的風(fēng)險(xiǎn)
類似的事件將會(huì)再次發(fā)生,服務(wù)提供商將面臨中斷和其他問題,這些問題會(huì)干擾公司開展業(yè)務(wù)的能力,為了管理這些風(fēng)險(xiǎn),高級(jí)管理人員應(yīng)提出一些問題,以幫助公司做好準(zhǔn)備并減少此類事件的影響:
• 我們是否對(duì)經(jīng)濟(jì)、運(yùn)營和技術(shù)風(fēng)險(xiǎn)有透明的了解?
如果一家工廠、一個(gè)流程或一個(gè)站點(diǎn)無法運(yùn)作幾天甚至更長時(shí)間,經(jīng)濟(jì)影響會(huì)是什么?許多公司并不清楚。支持關(guān)鍵業(yè)務(wù)流程的應(yīng)用程序運(yùn)行在哪些穩(wěn)健的技術(shù)平臺(tái)上,而哪些則陷于技術(shù)債務(wù)中,帶來了風(fēng)險(xiǎn)?許多公司對(duì)這些情況有所了解,但缺乏系統(tǒng)和可靠的數(shù)據(jù)。如果某個(gè)技術(shù)供應(yīng)商出現(xiàn)問題,會(huì)讓公司停業(yè)幾天?在上周之前,有多少公司將其EDR平臺(tái)作為頂級(jí)技術(shù)風(fēng)險(xiǎn)進(jìn)行監(jiān)控?高級(jí)管理人員應(yīng)推動(dòng)對(duì)不同類型風(fēng)險(xiǎn)的量化和優(yōu)先排序。
• 我們應(yīng)該進(jìn)行哪些架構(gòu)變更以增強(qiáng)彈性——成本是多少?
CIO和CTO通常在業(yè)務(wù)熱衷于投資新功能而非減少技術(shù)債務(wù)和提高彈性方面面臨困境,直到發(fā)生導(dǎo)致數(shù)百萬美元收入損失的中斷事件,這樣的商業(yè)理由才有限,在這種情況下,可以一鍵重啟的“可重鋪”云系統(tǒng)可以加速恢復(fù),具有地理彈性的應(yīng)用架構(gòu)可以在區(qū)域之間切換,確保可用性。高級(jí)管理人員應(yīng)詢問技術(shù)團(tuán)隊(duì):我們還沒有投資什么,應(yīng)該投資什么?在某些情況下,公司可能需要大幅增加技術(shù)支出,以實(shí)現(xiàn)所需的彈性。
• 我們是否需要在變更過程中引入更多的分階段部署和測試?
幾乎所有的彈性問題都源于變更,某個(gè)地方的某人更改了配置或更新了某個(gè)軟件,破壞了允許公司運(yùn)行業(yè)務(wù)的復(fù)雜技術(shù)生態(tài)系統(tǒng)。
然而,將新更新部署到1%或5%的節(jié)點(diǎn)上,可以在有缺陷的發(fā)布情況下大幅減少中斷,這個(gè)分階段模型需要更多的資源,但考慮到降低中斷風(fēng)險(xiǎn),可能是值得的投資。
• 我們的災(zāi)難恢復(fù)/業(yè)務(wù)連續(xù)性(DR/BC)計(jì)劃和測試是否足夠廣泛和健全?
每家公司都計(jì)劃進(jìn)行DR/BC,然而,許多公司只是草率地、不完整地進(jìn)行。高級(jí)管理人員可以問以下問題:
• 我們的DR/BC計(jì)劃是否根據(jù)業(yè)務(wù)優(yōu)先級(jí)測試并推動(dòng)了各種場景?
• 做更多的現(xiàn)場測試,而不是進(jìn)行紙上演練,需要什么?
• 進(jìn)行高層危機(jī)模擬是否有意義,以準(zhǔn)備高管團(tuán)隊(duì)在重大中斷事件中在有限信息下做出艱難決策?
我們的整個(gè)經(jīng)濟(jì)運(yùn)行在復(fù)雜、偶爾脆弱的技術(shù)平臺(tái)上——公司有責(zé)任為股東和客戶提供“全天候”的業(yè)務(wù)流程支持。高級(jí)管理人員可以通過提出有關(guān)響應(yīng)速度和預(yù)防或限制下次事件影響的尖銳問題,獲得支持并推動(dòng)IT經(jīng)理在這方面的努力。
企業(yè)網(wǎng)D1net(hfnxjk.com):
國內(nèi)主流的to B IT門戶,旗下運(yùn)營國內(nèi)最大的甲方CIO專家?guī)旌椭橇敵黾吧缃黄脚_(tái)-信眾智(www.cioall.com)。旗下運(yùn)營19個(gè)IT行業(yè)公眾號(hào)(微信搜索D1net即可關(guān)注)。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需在文章開頭注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。