服務器維護可以預防嚴重問題,并保持一切正常運行。為服務器上的硬件和軟件的這些簡單篩查預留時間。
數據中心服務器只是復雜的機器。像任何機器一樣,它們需要定期維護,以達到最佳性能。簡單的維護程序可減少嚴重的服務電話,延長服務器的使用壽命。
即使現代服務器擁有強大性能與豐富功能,增加的工作量整合和可靠性預期可能會對您的業務造成損失。您的服務器維護核對清單應包括物理元素以及系統的關鍵配置。
堅持常規檢查
服務器管理員也經常忽略規劃維護窗口。不要等到發生實際的問題,再預留時間進行例行的服務器預防性維護。
維護頻率取決于設備的年齡、數據中心環境、需要維護的服務器的數量等因素。例如,位于設備倉庫中的較舊設備需要比采用HEPA過濾方式部署的、冷卻良好的數據中心中的新服務器更頻繁的檢查。組織可以根據供應商或第三方提供商例程的日常維護計劃,如果供應商的服務合同每四到六個月要求進行系統檢查,遵循該日程安排。
準備工作決定一切
在處理服務器維護清單上的項目之前,請先制定計劃。這包括檢查系統日志中是否包含需要更多直接關注的任何錯誤或事件。例如,如果系統日志表示特定內存模塊的錯誤,您應該訂購一個替換的DIMM并將其安裝。同樣,如果有固件,操作系統或代理補丁或更新可用,請在維護窗口之前先測試并檢查這些補丁。
還需一份明確的將系統脫機并將其返回服務狀態的明確計劃。在虛擬化技術出現之前,服務器及其駐留應用程序將需要停機以適應維護窗口——通常迫使IT人員在夜間或周末執行維護。虛擬化的服務器支持工作負載遷移,以取代停機時間,因此您可以將應用程序遷移到其他服務器,并且在底層主機系統上發生服務器維護時,將它們保持為可用狀態。在服務之前,了解虛擬機應該出現的位置,將虛擬機遷移到所選系統,并確保每個工作負載正在運行,然后再將服務器關閉進行維護。
此時,通常可以關閉服務器并將其從機架或其他機箱中取出。
確保服務器正常運行
一旦服務器脫機時,目視檢查其外部和內部氣流路徑。除去灰塵和其它碎屑能夠妨礙冷卻空氣的任何累積。
從外部空氣入口和出口開始檢查,隨后進入系統機箱,查看CPU散熱器和風扇組件,內存模塊和所有冷卻風扇葉片和風道通道。用清潔、干燥的壓縮空氣清除適當、靜電安全的工作區上的灰塵或碎屑。不要在機架上打掃服務器。
打掃灰塵是一個古老的流程,但這并不意味著它已經過時了。灰塵是一種絕熱材料,如何去掉它們的方法非常重要,現在替代的冷卻方案和ASHRAE建議已經提高了數據中心的運行溫度。灰塵和其他氣流障礙物將導致服務器使用更多的能量,甚至會引起本可避免的早期組件故障。
檢查本地磁盤
許多服務器依靠內部硬盤進行引導、工作負載啟動和存儲,用戶數據和其他功能。磁盤介質問題嚴重損害了工作負載的性能和穩定性,往往導致磁盤過早故障。
磁介質不完美。普遍的問題包括扇區損壞和碎片。RAID在存儲錯誤后保持數據完整性有很大的進步,但較小的1U機架式服務器不能提供足夠的物理空間來部署磁盤陣列。使用CHKDSK(檢查磁盤)實用程序等工具來驗證磁盤的完整性,并嘗試恢復任何損壞的扇區。Windows Server 2012的更新版本的CHKDSK可以快速分析和修復文件系統結構中的磁盤問題。
只要NTFS和文件分配表或FAT文件系統首先使用磁盤空間可用的集群,磁盤碎片根本不會消失。碎片可能會拖慢服務器的磁盤并導致故障。Windows Server 2012下的Optimize-Volume等實用程序會將每個文件的集群連續排列在磁盤上。
閱讀事件日志的詳細報告
服務器在事件日志中記錄大量信息,特別是有關問題的詳細信息。沒有仔細檢查系統,惡意軟件和其他事件日志,沒有服務器維護清單完成。當然,關鍵的系統問題應該立即引發IT管理員和技術人員的關注,但是, 無數的小問題可能預示著長期和嚴重的問題。
當您查閱日志時,請檢查報告設置并驗證警報和警報收件人是否正常。例如,如果服務器組有技術人員離職,則需要更新服務器的報告系統。仔細檢查聯系方式;如果錯誤發生在工作時間之外,則報告發給技術人員公司電子郵件地址的嚴重錯誤可能完全不夠用(譯者注:非工作時間,技術人員可能無法登陸公司郵箱獲取重要的問題報告)。
主動跟日志數據。當日志檢查發現長期或重復的問題時,積極的調查可以在問題升級之前進行問題解決。例如,如果服務器的日志報告內存模塊中的可恢復性錯誤,它將不會觸發關鍵警報。但是重復的實例會導致模塊出現問題,IT人員可以執行更詳細的診斷來識別即將發生的故障。
如果問題不是那么嚴重,無需關閉服務器,則可以在更換硬件進入之前重新恢復生產狀態。
為補丁和更新騰出時間
服務器的軟件棧——BIOS、操作系統、虛擬機管理程序、驅動程序、應用程序、支持工具——都必須進行交互和協同工作。不幸的是,軟件代碼少有精致或無問題的時候,所以這些軟件拼圖經常被修補或更新,以修復錯誤、提高安全性、簡化互操作性和提高性能。
生產軟件不具備自動更新的能力。管理員應確定是否需要修補程序或升級,然后徹底評估和測試更改。如果更新解決的是您服務器沒遇到的問題,為何要冒發生其他問題的風險(去修復補丁)?
軟件開發人員無法測試硬件和軟件的每個潛在組合,因此修補程序和更新可能會導致比修復特定服務器或軟件堆棧以外的問題。例如,監控代理補丁可能導致重要工作負載的性能問題,因為新代理所占用的帶寬比預期的要多。
向DevOps的轉變,更微小和更頻繁的更新加劇了潛在的問題。在部署之前,您仍然需要在實驗室中測試任何修補程序或更新。并且始終確保您可以撤銷更改,并在必要時恢復原始的軟件配置。
驗證和記錄任何的變更
在諸如硬件、軟件、系統配置更改的維護窗口中,服務器可能會發生很多事情。完成服務器維護清單后,IT員工必須驗證并記錄任何新的系統狀態。例如,更改網絡適配器,添加或更換DIMM,更新操作系統和許多其他操作可能會改變系統的配置。依賴于系統配置管理工具的組織,可能需要更新或“發現”變更—在系統允許恢復使用之前將這些變更記錄到配置管理數據庫。IT人員可能需要更新任何強制或期望的狀態配置狀態以允許變更。
還可以驗證防火墻設置、防惡意軟件版本或掃描頻率和入侵檢測/防御(IDS/IPS)設置等系統安全性。安全檢查可以幫助確保,對系統軟件的變更不會無意中暴露在先前配置中可能已關閉的任何攻擊路徑。
還有,最后,當服務器重新上線運行,不要忘記更新任何系統備份或災難恢復(DR)內容。除非特別需要調整相關設置以反映服務器的角色變化,驗證服務器的備份/DR情況或頻率是否保持不變。