不要讓意外停機時間中斷你的數據中心。進行電源循環測試以主動監控系統,并以有條不紊、有序的方式識別硬件故障。
由于日常操作期間可能不會使用IT系統的所有部分,某些組件可能會失效,軟件模塊可能會崩潰,但系統可能依舊正常運行數月甚至數年。在系統重啟(通常意外)之前,故障可能無法被識別,進而導致意外的工作負載中斷和停機時間。
定期進行電源循環測試,以識別可能出現的問題并主動解決。
如果沒有發現任何問題,為什么要執行電源循環測試?
系統管理工具包括Microsoft System Center、SolarWinds、Nagios和Zabbix是強大的多功能平臺。幾乎所有系統管理工具都可以提供故障、配置、審計、性能和安全管理等功能,使其成為現代企業不可或缺的一部分。
但是,某些故障可能發生在硬件級別,可能不會立即影響系統或工作負載。例如,服務器可能在雙列直插存儲器模塊(DIMM)中檢測到內存故障。但是,如果沒有工作負載使用該內存空間,或者故障DIMM由故障糾正技術保護,則服務器可以繼續工作,向系統管理報告很少的直接錯誤。在大多數情況下,現代服務器的智能平臺管理接口或基板管理系統可以報告這些錯誤,但是該信息通常只是記錄,系統及其工作負載將繼續運行。
未檢測到以及未解決的硬件問題最終將變成大麻煩。如果意外系統崩潰或電源中斷導致計劃外系統重啟,系統內部固件可能會發現這些問題并拒絕完成引導過程。例如,如果服務器南橋芯片出現故障,且USB或板載磁盤控制器未成功初始化或響應,即使企業可能不使用服務器的USB端口,而是通過網絡訪問存儲,也無法正常完成啟動引導。現在,IT必須嘗試從意外中斷中恢復,并同時解決有缺陷的系統。
為避免這種情況,需要進行定期和主動的電源循環測試,以強制在底層級別硬件中重新啟動系統。采用有計劃的重新啟動來確保數據保護,并以有組織的方案將虛擬機或存儲實例遷移到目標設備之外,可以免于計劃外的應急工作或宕機。接下來,循環上電,并允許硬件系統完全啟動,以顯示潛在未知或未解決的問題。系統電源循環通常作為組織現有關機文檔的一部分。如果在重新啟動過程中出現問題,你最好取糾正措施。
應該如何實施電源循環測試,應該多久進行一次?
可靠的設計能夠保障服務器運行多年。當在彈性配置(例如服務器集群)中部署這些服務器時,這些系統上運行的工作負載幾乎是不可破壞的。事實上,強調系統彈性和正常運行時間常常導致許多組織放棄周期性的重啟測試。
但是如果一個服務器或存儲子系統運行了幾年,要如何知道它還能正確啟動?無法得知,而且保證系統能夠成功冷啟動的唯一方法就是定期重啟。
電源循環測試需依賴什么?
根據需求定期進行電源循環測試,以保證對業務需求在合理水準的信心。通常,可以每幾個月或每年進行幾次電源循環。將電源循環測試與常規災難恢復和關機測試同步,以便同時處理和達成這兩個目標。
有時,外部因素,如變電站升級或重要建筑物改造,迫使企業使數據中心離線一段時間。現在,計劃停機可以減少業務中斷,因為您可以輕松地將工作負載遷移到輔助數據中心或云上。所以任何IT團隊準備處理計劃內的設施關閉時,也應該能夠進行常規電源循環測試。
服務器硬件有任何風險嗎?
當啟動和運行服務器或存儲陣列時,總是有一定程度的電、熱和機械應力。當電子元件冷卻并再次升溫時,會產生熱應力,可能導致邊緣連接失效,并導致過早的系統故障。同樣,如果讓老化磁盤或冷卻風扇冷卻,它可能因為耗盡潤滑劑卡住,并導致磁盤/風扇軸或其他微小機制的問題。
還存在潛在邏輯風險。意外的配置更改可能會使系統超出規格,并導致由于系統配置管理工具出現告警或應用程序啟動問題。例如,如果系統重新啟動并嘗試安裝意外或未批準的修補程序,則配置管理工具可能會暫停該工作負載或服務器集群啟動,直到系統批準的配置恢復為止。
這樣的問題比較少見,特別在現代、節能系統中。雖然一些IT專家認為放棄采用和實施電源循環,可以減少這種故障的可能性,但是理想的電源循環測試理念正是沉淀、隔離和解決這類問題。更早暴露問題,遠比等到意外的電源故障或應用程序崩潰發生,系統無法正常啟動時,才進行應急處理要合理。隨著如今虛擬化和群集的應用,能夠保障工作負載將持續運行的同時,識別和修復故障系統。