2022年7月8日,加拿大電信服務提供商Rogers因內部系統的“更新出錯”,致使全國互聯網訪問中斷至少12小時,一些客戶甚至在之后幾天內仍在經受網絡中斷困擾。
此次事件影響十分深遠。全國范圍內的互聯網中斷影響了約1220萬客戶的電話和互聯網服務——約占加拿大互聯網容量的25%。即便不是由Rogers直接控制的服務,例如Interac網絡上的銷售點借記支付、911報警服務、醫院的網上預約系統,甚至連依賴蜂窩GSM計時的多倫多交通信號燈都受到了影響。
值得一提的是,此次服務中斷還迫使加拿大音樂家The Weeknd推遲了他在多倫多Rogers中心(第一站)舉行的世界巡演。
究其原因,正如Rogers隨后在向監管機構加拿大廣播電視和電信委員會(CRTC)提交的文件中所揭示的那樣,“此次更新刪除了一個路由過濾器,并允許所有通向互聯網的路由經由路由器傳輸。結果,路由器立即開始在整個核心網絡中傳播流量異常大的路由。某些網絡路由設備淹沒于龐大流量中,不堪重負,隨后無法路由傳輸流量,導致公共核心網絡停止處理流量。結果,Rogers 網絡與互聯網斷開連接,消費者和企業客戶的無線網絡和有線網絡的所有出入站流量因此中斷。”
盡管Rogers在一天之內就為大多數客戶恢復了服務,但災難性的服務中斷仍令加拿大企業深感震驚,并對國內的“壟斷”現狀產生了擔憂。
例如,由農場和農業供應零售商Peavey Mart經營的大約100家網點,可以對已經存在的其他互聯網提供商進行冗余訪問。結果,只有兩家沒有互聯網接入的商店受到直接影響。但是,他們依靠Interac服務進行客戶交易,而該服務又完全依賴于Rogers,他們也由此失去了使用借記卡付款的能力。
并非單純的國內問題
加拿大非營利組織虛擬首席信息官(VCIO)兼戰略技術顧問Helen Knight介紹稱,“我服務的一些非營利組織在一兩天內都無法記錄并滿足弱勢群體的需求。就我自身而言,我13歲的女兒一直到晚上10點多才回來,而在此期間,我都無法與孩子取得聯系。我擔心她遇到危險,無法回家。”
其他人可能就沒這么幸運了。WhiteWater West Industries的IT運營和幫助臺支持經理Chris Palsenbarg稱,“作為一家生產滑水道和水上樂園景點的全球性公司,Rogers網絡中斷事件對我們的影響確實比我們最初想象的還要大。出國公干的員工甚至無法使用手機。”
加拿大網絡安全/智能公司Sapper Labs Group的首席情報官Dave McMahon表示,“盡管我們的公司沒有受到Rogers服務中斷的影響,但我們的許多合作伙伴、客戶和競爭對手都受到了不同程度的影響。一些組織尚未完全恢復,這對市場產生了連鎖反應。”
在經歷Rogers服務中斷事件后,加拿大的CIO、IT高管和專家開始重新審視自身是否準備好應對未來的挑戰。他們的結論值得世界各地的CIO關注,因為全球各國都可能遭遇類似的服務中斷風險,只是原因會各有不同,可能是系統問題、黑客入侵,也可能是由于環境或其他因素導致的電源故障。
教訓一:構建冗余
Rogers的服務中斷強調了擁有冗余互聯網服務提供商(ISP)訪問的價值,盡管這樣做的成本比僅僅依賴一個要高。在有些公司還在對這筆額外費用猶豫不決時,Peavey Mart(上述提及)已經因自身的遠見卓識從Rogers事件中幸免,獲得了冗余互聯網訪問支出提供的價值。
Peavey Mart公司信息技術高級副總裁Shaun Guthrie表示,“Rogers ISP網絡的故障并沒有讓公司措手不及,因為我們會主動監控數據通信的狀態。因此,一旦商店受到服務中斷的影響,它們就會通過支持SD-WAN的基礎設施自動轉移至二級ISP。”
加拿大救世軍等非營利組織負擔不起Peavey Mart使用的這種基礎設施。但他們的CIO都是技能卓越的專家,習慣于使用免費軟件和捐贈的硬件完成驚人壯舉。他們甚至早已習慣陳舊的IT基礎設施出現故障,因此他們通常都有一個手動流程以備不時之需。
因此,加拿大非營利組織的CIO有能力應對ISP故障,至少在意外實際發生時確實是這樣。不過,Knight 認為,服務中斷造成的數據丟失后續還是會影響到他們,因為他們沒有正確的記錄向捐贈者來展示他們服務了多少人,這可能會影響未來的捐款。
面對這種情況,Knight認為Rogers的服務中斷事件可能會改善非營利組織對冗余ISP訪問的態度。她解釋稱,“畢竟,多年來,為所有關鍵業務組件提供冗余連接一直是一種常見做法,因此,希望非盈利組織也能通過此次事件了解他們以前可能沒有考慮過的新風險領域。如果這件事能夠讓非營利組織認識到,需要有一位高級技術領導者參與決策制定,使他們的戰略計劃與他們的技術路線圖保持一致,那么這很可能是吸取這一教訓的最便宜和最簡單的方法。這比直面網絡入侵要好得多!”
教訓二:檢查供應商的備份計劃
McMahon指出,對于Sapper Labs公司來說,Rogers的服務中斷增強了我們對自身架構和運營模式的信心。這種信心強化了公司的IT基礎設施并非孤立存在的觀點。它是通過互聯網連接到企業的ISP、云平臺和其他服務鏈中的一個環節。
因此,Rogers的服務中斷事件給出的教訓是,要確保一個供應鏈、合作伙伴和客戶都做好了同樣的準備,并有適當的應急措施來幫助他們維持業務運營。令人欣慰的是,此次事件能夠立即檢驗出誰是Rogers的客戶,他們是否有替代的通信方式、他們的網絡安全成熟度以及整個生態系統的關鍵相互依賴關系。
Peavey Mart公司同樣在努力檢查其數據供應鏈中的漏洞。Guthrie介紹稱,“我們詢問了所有的云提供商,‘你們有冗余嗎?’‘你們是否有內置的備份系統?’‘你們是否有業務連續性之類的東西,以便故障發生時,員工知道怎么做?’這些問題我們都會提前了解清楚。”
不幸的是,像Peavey Mart這樣的零售商沒有足夠的影響力,要求像Interac這樣的大型企業提供這樣的答案。結果,他們別無選擇,只能假設Interac有這樣的備份措施,而顯然他們并沒有。
教訓三:為更多的ISP事故做好準備
Rogers的服務中斷事件解決之后,迎來了政府調查、負面媒體報道以及大量可預見的公眾憤怒。但這些反應都無法改變一個非常簡單的事實:ISP網絡是由許多部件組成的復雜而龐大的系統,這些部件對維護升級的響應無法在模擬中完全建模。
結果,即便Rogers承諾做出所有改進,并且其他加拿大ISP可能會出于謹慎考慮復制其改進成果。但Guthrie認為,“未來,我們可能會目睹更多的ISP事故。雖然我并不知道下一個會是誰,但我認為它很可能會在未來一年內發生。”
在這種情況下,所有依賴ISP訪問的企業的CIO現在需要采取措施來保護他們的企業免受此類中斷的影響。根據Dave McMahon的說法,前進的道路很明確:“雙供應商和冗余獨立系統是行業的最佳實踐。”
同時,CIO需要保持謙虛,不要高估他們事先計劃此類事件的能力。根據Knight所言,“技術是如此無處不在且復雜,在過去幾年中,每個人和企業都面臨著新的、復雜的技術挑戰,盡管可以保護公司免受Rogers式中斷的影響,但要防止所有風險是不可能的或不具有成本效益的。相反地,它關乎的是量化每個風險的影響和緊迫性,并為最關鍵的運營領域確立組織連續性計劃優先級。”
結語
Rogers式的ISP中斷是一場現實危機,未來幾年,全球各地企業的CIO可能或很可能會面臨這種危機。這就是現在必須加強冗余系統并準備應急計劃,以最大程度地減少和緩解此類通信故障對企業造成的不可避免的影響的原因。
關于企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,同時在運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。同時運營18個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。