為了有效地維護(hù)服務(wù)器,服務(wù)器管理員必須執(zhí)行主動的硬件和軟件檢查。而服務(wù)器的維護(hù)清單必須包括除塵、日志查看、軟件補(bǔ)丁程序測試等。
即使具有服務(wù)器的性能和冗余功能,增加的工作負(fù)載整合和可靠性期望也會對服務(wù)器硬件造成損害。
服務(wù)器維護(hù)清單應(yīng)涵蓋物理元素以及系統(tǒng)的軟件層配置。還必須考慮到以下事實:徹底維護(hù)需要的時間、人工時間和測試。使用清單有助于服務(wù)器管理員定義目標(biāo),并保持IT團(tuán)隊的正常運(yùn)轉(zhuǎn)。
1.制定維護(hù)程序
服務(wù)器管理員經(jīng)常忽略計劃維護(hù)窗口。不要等到出現(xiàn)故障時才開始維護(hù);要留出時間進(jìn)行例行的服務(wù)器預(yù)防性維護(hù)。
維護(hù)頻率取決于服務(wù)器設(shè)備的使用年限、數(shù)據(jù)中心和需要維護(hù)的服務(wù)器數(shù)量。例如,與部署在高效微??諝膺^濾、冷卻良好的數(shù)據(jù)中心中的新服務(wù)器相比,位于設(shè)備柜中的老舊服務(wù)器需要更頻繁的檢查。
組織可以根據(jù)供應(yīng)商或第三方提供商的例行程序制定例行維護(hù)計劃;如果供應(yīng)商的服務(wù)合同每四個月或六個月要求進(jìn)行系統(tǒng)檢查,需要遵循這個時間表。
2.為準(zhǔn)備停機(jī)做好準(zhǔn)備
解決服務(wù)器維護(hù)清單上的項目之前,首先需要制定計劃。這包括檢查系統(tǒng)日志中是否有需要更加直接關(guān)注的錯誤或事件。如果系統(tǒng)日志表明特定內(nèi)存模塊有錯誤,則應(yīng)訂購替換的雙列直插式內(nèi)存(DIMM)并將其安裝。同樣,如果有可用的固件、操作系統(tǒng)或代理補(bǔ)丁/更新,請在計劃的維護(hù)窗口之前先進(jìn)行測試和審查。
制定明確的計劃以使系統(tǒng)脫機(jī)并使其恢復(fù)服務(wù)。在進(jìn)行虛擬化之前,服務(wù)器及其駐留的應(yīng)用程序?qū)⑿枰C(jī)才能容納維護(hù)窗口,但這迫使服務(wù)器管理員在晚上或周末實施維護(hù)。
虛擬服務(wù)器支持遷移工作負(fù)載而不是停機(jī),因此服務(wù)器管理員可以將應(yīng)用程序遷移到其他服務(wù)器,并且只要在底層主機(jī)系統(tǒng)上進(jìn)行服務(wù)器維護(hù),它們就將保持可用狀態(tài)。在維修之前,需要首先了解虛擬機(jī)的去向,將虛擬機(jī)遷移到選定的系統(tǒng),并在關(guān)閉服務(wù)器進(jìn)行維護(hù)之前驗證每個工作負(fù)載是否正常運(yùn)行。
此時,服務(wù)器管理員可以關(guān)閉服務(wù)器并將其從機(jī)架中移除。
3.檢查氣流路徑
在服務(wù)器宕機(jī)之后,需要目視檢查其外部和內(nèi)部氣流路徑。清除所有可能阻礙冷卻空氣的積塵和碎屑。
從外部空氣入口和出口開始,然后進(jìn)入系統(tǒng)機(jī)箱,查看CPU散熱器和風(fēng)扇部件、內(nèi)存,以及所有冷卻風(fēng)扇葉片和風(fēng)道。從機(jī)架上卸下服務(wù)器之后,需要確保服務(wù)器清潔。采用干凈、干燥的壓縮空氣清除防靜電工作區(qū)上的灰塵或碎屑。
除塵并不是一個新的過程,但仍然是必要的?;覊m是一種絕熱材料,因此去除灰塵尤為重要,因為替代的冷卻方案和美國供暖、制冷和空調(diào)工程師學(xué)會 (ASHRAE)的建議已提高了數(shù)據(jù)中心的工作溫度?;覊m和其他氣流障礙會導(dǎo)致服務(wù)器消耗更多的能量,甚至可能導(dǎo)致組件故障。
4.檢查本地硬盤
服務(wù)器依靠內(nèi)部硬盤進(jìn)行引導(dǎo)、工作負(fù)載啟動和存儲以及用戶數(shù)據(jù)。磁盤介質(zhì)問題損害了工作負(fù)載的性能和穩(wěn)定性,并導(dǎo)致硬盤過早故障。使用“檢查硬盤”實用程序之類的工具來驗證硬盤的完整性,并嘗試恢復(fù)硬盤上的任何壞的扇區(qū)。
采用磁性媒質(zhì)的硬盤并不完美。其常見的問題包括損壞扇區(qū)和碎片化。在發(fā)生存儲錯誤后,RAID在保持?jǐn)?shù)據(jù)完整性方面有很大的進(jìn)步,但體積較小的1U機(jī)架服務(wù)器無法提供足夠的物理空間來部署硬盤陣列。
只要NT文件系統(tǒng)和文件分配表硬盤文件碎片不會消失,只要文件系統(tǒng)使用第一個可用集群的硬盤空間即可。碎片會減慢服務(wù)器硬盤的速度并導(dǎo)致故障。Optimize-Volume實用程序Windows Server 2016對存儲層進(jìn)行碎片整理和處理。
5.驗證日志數(shù)據(jù)和事件
服務(wù)器在事件日志中記錄了大量的事件信息。沒有仔細(xì)檢查系統(tǒng)、惡意軟件和其他事件日志,沒有服務(wù)器維護(hù)清單是不完整的。當(dāng)然,關(guān)鍵的系統(tǒng)問題應(yīng)立即引起管理人員和技術(shù)人員的注意,但無數(shù)小問題可能預(yù)示著長期的問題。
在檢查日志時,管理員應(yīng)檢查報告設(shè)置并驗證正確的警報和警報接收者。例如在檢查日志時,管理員應(yīng)檢查報告設(shè)置,并驗證正確的警報和警報接收者。例如,如果技術(shù)人員離開服務(wù)器組,則需要更新服務(wù)器的報告系統(tǒng)。
還要仔細(xì)檢查聯(lián)系方式。如果錯誤發(fā)生在工作時間之外,則向技術(shù)人員所在公司的電子郵件地址提供發(fā)生錯誤的報告將是無效的。
當(dāng)日志檢查發(fā)現(xiàn)長期或重復(fù)出現(xiàn)的問題時,主動調(diào)查可以在問題升級之前解決問題。如果服務(wù)器的日志報告內(nèi)存中的可恢復(fù)錯誤,它將不會觸發(fā)嚴(yán)重警報。但是,如果有重復(fù)的情況表明模塊出現(xiàn)問題,則管理員可以執(zhí)行更詳細(xì)的分析,以識別即將發(fā)生的故障。
如果問題不夠嚴(yán)重,不會關(guān)閉服務(wù)器,管理員可以將服務(wù)器恢復(fù)到生產(chǎn)狀態(tài),直到出現(xiàn)替換硬件。
6.測試補(bǔ)丁和更新
服務(wù)器的軟件棧(BIOS、操作系統(tǒng)、管理程序、驅(qū)動程序和應(yīng)用程序)必須協(xié)同工作。不幸的是,軟件代碼很少是沒有問題的,所以這一難題的部分經(jīng)常被修補(bǔ)或更新,以修復(fù)錯誤、提高安全性、簡化互操作性,以及提高性能。
任何軟件都不應(yīng)具有自動更新。管理員應(yīng)確定是否需要修補(bǔ)程序或升級,然后徹底評估和測試更改。
軟件開發(fā)人員可能無法測試每種可能的硬件和軟件組合,因此需要明智地選擇補(bǔ)丁和更新,以避免性能問題或工作流程中斷。例如,監(jiān)視代理程序補(bǔ)丁可能會導(dǎo)致重要的工作負(fù)載問題,因為新代理程序占用的帶寬比預(yù)期的要多。
向DevOps的遷移具有較小且更頻繁的更新,這增加了出現(xiàn)問題的可能性。組織仍必須在實驗室中測試任何修補(bǔ)程序或更新,然后才能將其部署到沙盒或測試安裝程序中,并且始終具有還原原始軟件配置的能力。
7.記錄所有系統(tǒng)更改
在維護(hù)時段內(nèi),服務(wù)器可能會發(fā)生很多事情,例如硬件、軟件或系統(tǒng)配置更改。服務(wù)器管理員完成服務(wù)器維護(hù)清單后,對他們進(jìn)行仔細(xì)檢查并記錄所有新系統(tǒng)狀態(tài)至關(guān)重要。例如,更改網(wǎng)絡(luò)適配器、添加或更換內(nèi)存或更新操作系統(tǒng)會更改系統(tǒng)的配置。
依賴系統(tǒng)配置管理工具的組織可能需要更新或發(fā)現(xiàn)任何更改,在允許系統(tǒng)重新投入使用之前,將這些更改記錄到配置管理數(shù)據(jù)庫中。服務(wù)器管理員必須更新任何強(qiáng)制的或所需的狀態(tài)配置狀態(tài),以允許進(jìn)行更改。
還要驗證系統(tǒng)的安全狀態(tài),例如防火墻設(shè)置、反惡意軟件版本或掃描頻率和入侵檢測設(shè)置。安全檢查確保系統(tǒng)軟件的更改不會無意間暴露出在先前配置中關(guān)閉的所有攻擊面。
服務(wù)器重新聯(lián)機(jī)后,不要忘記更新任何系統(tǒng)備份或災(zāi)難恢復(fù)(DR)內(nèi)容。
驗證服務(wù)器的備份/災(zāi)難恢復(fù)頻率保持不變,除非必須特別調(diào)整任何相關(guān)設(shè)置以反映服務(wù)器的新用例。
版權(quán)聲明:本文為企業(yè)網(wǎng)D1Net編譯,轉(zhuǎn)載需注明出處為:企業(yè)網(wǎng)D1Net,如果不注明出處,企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。