對于許多人來說,航空公司系統的全球癱瘓似乎只是“大企業”的問題,畢竟,只有涉及廣泛系統的問題才會帶來如此深遠的影響。
但現在塵埃落定,顯然中小型企業也能從中汲取許多教訓,了解應急計劃的重要性,以及在選擇云服務提供商時盡職調查的必要性。應提出的問題包括:該云提供商是否有外部依賴可能影響其服務?該云提供商是否完全掌控其云服務的所有方面?在部署過程中使用了哪些操作系統和軟件?
為宕機做好準備
此次宕機是由內容更新引發的。雖然問題很快被診斷出來,但由于受影響的系統無法啟動,更新無法自動推送,必須進行手動干預。
以下是一些應對宕機并提前規劃的建議:
1. 了解你的云依賴性。軟件生態系統中充滿了可能影響軟件、服務器、平臺以及最重要的日常業務操作的依賴關系。以上事件中,一些Microsoft Azure用戶依賴于CrowdStrike。用戶應該對這種風險有所了解。如果你理解這些依賴關系,就能更好地評估風險并做好相應的準備。
2. 構建云冗余系統。事實上,宕機隨時可能發生。我們可能不知道,因為它可能只影響少部分用戶,但最終,你的環境也可能遭遇宕機。因此,擁有備份非常重要。如果你依賴云服務提供商,務必要深入了解他們的冗余機制和備份策略。冗余系統能確保在宕機期間的業務連續性。
3. 了解你的更新策略。此次受到CrowdStrike更新影響的公司依賴于自動更新,而如果管理不當,自動更新可能引入漏洞。中小企業應制定相應的政策,控制更新的應用方式和時間,確保在向所有系統部署更新之前進行測試,以防止大范圍的問題。
4. 投資業務連續性規劃。一份完善的業務連續性計劃可能復雜、昂貴且耗時,但它也能帶來巨大的回報。舉例來說,如果你的業務周期具有季節性,想象一下如果系統宕機三小時會帶來多大損失。有些企業可能在一年中某個月完成了80%的業務,失去三小時的可用性可能對企業的利潤產生重大影響。
有很多服務可以幫助你實現這一點。一些云服務提供商也可以協助此事,因為云的采用通常是為了確保業務連續性,然而,僅僅有一份書面的計劃是不夠的。進行演練和壓力測試系統同樣重要。這樣不僅能讓你放心,還能向保險公司證明在發生宕機時,你的公司已經盡職盡責地做好了準備。
平衡風險與成本
許多公司可能會拖延或推遲為宕機做準備。他們甚至可能認為這種情況不會發生在自己身上,或者認為準備太昂貴,幾小時或幾天的宕機也無關緊要。
但IT和數字化運營已逐漸成為企業的核心。應急計劃不能被忽視。幸運的是,現代IT環境比幾年前更加健全。企業有多種選擇和策略來保持業務的可用性:為本地企業提供的云備份、混合云以及包括保險公司和災難恢復顧問在內的服務生態系統。
這些流程不必成為公司財務的負擔。企業可以評估其風險、風險承受能力以及宕機的潛在影響,但最糟糕的情況是企業不解決這些問題。雖然新聞報道集中在7月宕機期間影響到的大型全球企業,但許多小型企業也受到了影響,且其中許多的恢復過程并不輕松。
立即采取措施保障公司運營健康,是企業長遠發展最重要的投資之一。
俗話說,防患于未然比事后補救要好。
企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,旗下運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。旗下運營19個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。