數據中心服務器從來不會停止工作太久,除非發生故障。供應商正在設計可以更快的修復、升級和預防性維護的服務器,但是你的IT員工可以做一些不同的事情。
解決系統硬件問題并不容易,使用多種策略改進系統修復的響應性和效率。
集合資源考慮到不同工作負載的需求,與服務供應商制定不間斷維護協議。例如,一個關鍵任務服務器需要一個60分鐘或者是更快響應窗口的服務合同,一年不間斷運行(24/7/365)。次要的系統只需要兩小時或者是四小時的窗口服務。服務合同是昂貴的,所以應有根據的選擇覆蓋范圍。
當內部IT員工需要執行服務時、實施明確的指令鏈和逐步升級模式,能夠使監測和報表工具立即為合適的團隊成員發送警報。服務器修復的最慢方案是向管理程序發送信息,然后等待人工授權。保持警報系統及時了解員工的變化。
這個方案的目標是將每一個問題一經發現就解決。服務票務系統,適合大型數據中心,集成了例行服務請求的緊急報告。這個票務過程優先考慮并簡化IT員工工作流。有效地幫助解決任務。
倉庫訓練
庫存清單上的零件都很昂貴且容易產生問題,所以使用零件追蹤系統或者其他庫存控制系統來跟蹤備用零件或者組件升級。使用變更管理系統集成庫存資產,所以服務器升級時可以有記錄、有基準。這保存了應用和內部服務級別協議(SLA)的用途。許多的服務臺系統和故障報告表系統都包含存貨清單特性。
系統文件是第一個丟失的東西,丟失文件嚴重地阻礙了適時修復。管理員需要維護所有系統文件和原始軟件安裝媒介,或者至少保存主機電子文件的一列網址、驅動或者是軟件升級等等。當問題發生的幾分鐘后,這些舉措可以節省時間。
對于老式服務器來說備用零件極其難找——而且極其昂貴,即使一臺服務器能夠在折舊之后持續充分地支持工作負載,修復也是問題重重。
服務器改變推進硬件修復服務器設計成可合并特性,如同組織精密的鐵軌,一旦服務器從機架中突出出來,技術人員可立即將服務器轉移到下面。可以輕松打開服務器外圍,允許方便地訪問服務器組件,包括塑料空氣導風裝置、風扇和擴展卡支架,最小化工具需求。
最好的修復是你可以避免修復。在面臨錯誤時,服務器的回彈特性總是保持可能崩潰的老版本系統運行。然而回彈特性不能夠預防問題。它們通常能夠預防甚至是修改一個錯誤的災難性結果。
最早版本的回彈特性是雙備份電源供應。許多企業級服務器提供這個選擇。兩個模塊化電源運行,當一個失效時,另一個電源供應服務器直到已經失效的模塊被更換。更換可以通過‘熱備份’完成,不需要關閉系統,而是通過虛擬化來實時遷移工作負載。但是出于對電源利用率的考慮,雙備份電源在今天已經失去了吸引力。
服務器內存恢復依賴于錯誤校驗碼和內存熱備份。當工作存儲器模塊提示錯誤,可以通過空閑模塊重建內容,直到失效的工作內存空間內容被更換(通常叫做‘熱交換’)。另一個選擇是保留主要工作內存空間的副本。
CPU可靠性同樣加極大地得到改進。像Intel安騰處理器,可以從數據總線錯誤中恢復,當其他的致命錯誤發生時,可以重置服務器。最新的CPU支持步伐一致模式,多處理器比較程序信息,以確保計算操作的集成性。
服務器同樣使用很少依賴冷卻的低電源組件。除了服務器本身,虛擬化特性如實時遷移方法,保證了即使硬件失效也不會停止計算工作負載。群集和備份虛擬機意味著數據中心可以托管關鍵工作負載的多個副本,以避開硬件停機時間。虛擬工作負載使硬件定期維護進度變得容易,因為工作負載可以使用其他機器上的現有資源。
當你在外部供應商方處托管工作負載時,維護就變成了供應商的責任。這些外包供應商在問題發生時通常隨意考慮或者“盡最大努力”修復窗口。這可能導致組織機構在沒有SLA重要資源的情況下延長停機時間。這就是為什么許多IT廠商選擇在內部保留關鍵工作負載主要的原因,他們需要控制環境方面的練習。