如果問系統管理員什么是最令其擔心的問題,十有八九會說是系統宕機,這一點對業務中斷忍受度極低的金融行業來說尤為如此。隨著數字化轉型的進一步推進,越來越多的企業業務依賴IT技術,IT系統宕機極易導致企業的癱瘓,造成的影響和損失不可估計。
對于IT團隊來說,即便盡全力也幾乎不能保證系統100%正常運行,只能通過規劃冗余以盡可能地保持更多的正常運行時間。
實際上與幾年前相比,現在的軟件更具彈性,無論是商業軟件還是開源軟件出問題的幾率都比較小,出了問題管理員也可以通過使用虛擬機、配置和編排以快速恢復正常運行。
系統宕機最常見原因不再是設備或應用程序故障,而是人為因素,即系統管理員的錯誤操作。隨著企業更多地部署虛擬化及采用公共平臺,現代企業IT變得越發復雜,這導致了人為錯誤的增加。且很多管理員仍在使用命令行界面,和系統情況變更之間沒有任何把關。這樣即便管理員操作正確,在復雜環境中也可能造成極大影響,諸如其指令可以解決當下的問題,但調用資源可能會與數據訪問產生沖突而導致其他工作負載問題。
在此種情形下,采用自動化以減少人為錯誤顯得彌足重要。比如創建可運行腳本庫,可重復授權使用這些腳本;此外,使用編排系統不僅可以調配腳本,也可以調配修補程序,對于部署混合云的企業可以采用編排工具以幫助自動化和管理。
除人為錯誤外,網絡攻擊也會導致非計劃性系統宕機。DDoS攻擊能拖垮服務、惡意軟件會導致數據損壞和系統停機,而臭名昭著的勒索軟件則更為棘手,一旦中招會加密企業數據。對此,企業可采取安全供應商提供的安全產品和保護服務來提高系統安全性,從而避免系統宕機。