盡管工作準(zhǔn)則與操作流程對(duì)IT運(yùn)維十分重要,可當(dāng)數(shù)據(jù)中心IT人員需要對(duì)設(shè)備進(jìn)行關(guān)機(jī)時(shí),他們通常是不做任何準(zhǔn)備就開始關(guān)機(jī)。這種情況通常來(lái)的很快,還沒(méi)等真正反應(yīng)過(guò)來(lái),IT運(yùn)維人員就已經(jīng)開始操作起來(lái),在他們看來(lái),似乎是設(shè)備系統(tǒng)升級(jí)那樣輕松平常。
事實(shí)上,很多數(shù)據(jù)中心對(duì)關(guān)閉設(shè)備都一套自己的標(biāo)準(zhǔn)程序以及響應(yīng)方式,以此避免給數(shù)據(jù)中心帶來(lái)重大損失和事故。
經(jīng)過(guò)精心設(shè)計(jì)與經(jīng)過(guò)可靠驗(yàn)證的數(shù)據(jù)中心關(guān)機(jī)流程對(duì)于保障數(shù)據(jù)中心業(yè)務(wù)的連續(xù)性以及關(guān)機(jī)中不可預(yù)見(jiàn)的意外狀況都能起到至關(guān)重要的保護(hù)作用。
關(guān)機(jī)操作流程定義了遷移或關(guān)閉應(yīng)用程序;保存重要數(shù)據(jù);關(guān)閉物理系統(tǒng);稍后,再成功開機(jī)(重啟系統(tǒng))。讓我們來(lái)看看在關(guān)機(jī)操作流程中都有哪些重要文檔需要我們?nèi)ビ涗洝?/p>
1.驗(yàn)證和更新系統(tǒng)文檔
所有數(shù)據(jù)中心關(guān)機(jī)流程都是為了最終能夠成功重新啟動(dòng)系統(tǒng),為此,在關(guān)閉設(shè)備之前做足充分準(zhǔn)備是確保關(guān)機(jī)后能夠成功重新啟動(dòng)設(shè)備系統(tǒng)的關(guān)鍵。
創(chuàng)建一個(gè)全面的(或者至少是當(dāng)前可行的)關(guān)機(jī)、開機(jī)各種文檔的集合是很有必要的。這個(gè)文檔可以用來(lái)記錄每個(gè)分區(qū)的system’s volume(系統(tǒng)卷標(biāo)),操作系統(tǒng)、應(yīng)用程序配置,特別記錄在重新啟動(dòng)后期間可能或意外被更改的內(nèi)容。有很多工具都可以用來(lái)創(chuàng)建這個(gè)文檔,通過(guò)工具對(duì)這些文檔進(jìn)行統(tǒng)一管理、用工具獲取、記錄系統(tǒng)狀態(tài)。不要忘記獲取或記錄任何一個(gè)網(wǎng)絡(luò)設(shè)備或存儲(chǔ)陣列的配置狀態(tài)。
2.明確依賴關(guān)系
事實(shí)上,企業(yè)、組織等機(jī)構(gòu)對(duì)設(shè)備系統(tǒng)的依賴性是不同的,因此,IT人員在制定設(shè)備關(guān)機(jī)啟動(dòng)流程時(shí),需要考慮以下各種設(shè)備的特性:網(wǎng)絡(luò)設(shè)備、存儲(chǔ)陣列、DNS服務(wù)器、備份服務(wù)器數(shù)據(jù)和調(diào)度程序等。當(dāng)所有重要的設(shè)備服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)以及重要的服務(wù)(如DNS)等重新啟動(dòng)后,啟動(dòng)順序(startup sequence)就會(huì)轉(zhuǎn)移到重啟應(yīng)用上,緊接著啟動(dòng)獨(dú)立應(yīng)用,如:企業(yè)銷售系統(tǒng)。
接著,再啟動(dòng)與這個(gè)應(yīng)用相關(guān)的所有進(jìn)程,如:公司店面網(wǎng)站。在制定流程的過(guò)程中,要識(shí)別和了解數(shù)據(jù)中心內(nèi)部各種不同的依賴關(guān)系。IT人員會(huì)記錄下依賴關(guān)系從而制定合理的流程關(guān)閉、重新啟動(dòng)系統(tǒng)、服務(wù)和應(yīng)用程序,以避免系統(tǒng)中斷或出現(xiàn)故障,浪費(fèi)啟動(dòng)時(shí)間。如:不在啟動(dòng)服務(wù)器之前啟動(dòng)依賴它的存儲(chǔ)陣列。
3.執(zhí)行并驗(yàn)證備份
備份對(duì)任何數(shù)據(jù)中心而言都是重中之重,在設(shè)備停運(yùn)之前,必須對(duì)重要數(shù)據(jù)進(jìn)行備份。在設(shè)備關(guān)機(jī)之前,驗(yàn)證并完成計(jì)劃中要備份的系統(tǒng),并手動(dòng)備份任何系統(tǒng)中未預(yù)期備份的數(shù)據(jù)或在關(guān)機(jī)之前備份恢復(fù)點(diǎn)目標(biāo)(RPO,recovery point objective)。
通常,傳統(tǒng)的備份方法會(huì)試圖獲取每個(gè)服務(wù)器上的數(shù)據(jù)進(jìn)行單獨(dú)備份,例如:備份SAN數(shù)據(jù);可虛擬化數(shù)據(jù)中心卻可以選擇最近的VM-aware (虛擬機(jī)感知)進(jìn)行備份,如快照和遠(yuǎn)程復(fù)制。
備份數(shù)據(jù)如果只是通過(guò)一種方式或工具是根本無(wú)法完成的,無(wú)論選擇哪種工具備份都必須符合自身數(shù)據(jù)中心業(yè)務(wù)發(fā)展與設(shè)備自身需要——最關(guān)鍵的是確保一切數(shù)據(jù)都已備份,同時(shí)測(cè)試、驗(yàn)證這些備份是否完整并可恢復(fù)。如果時(shí)間有限,請(qǐng)集中將時(shí)間用于備份重要業(yè)務(wù)數(shù)據(jù)。最后提醒大家,未經(jīng)備份的系統(tǒng)或數(shù)據(jù)都存在風(fēng)險(xiǎn)。
(備注:恢復(fù)點(diǎn)目標(biāo)(RPO,recovery point objective)是指在因硬件、程序或通信發(fā)生故障,而導(dǎo)致的計(jì)算機(jī)、系統(tǒng)或網(wǎng)絡(luò)出現(xiàn)故障時(shí),必須從備份存儲(chǔ)中恢復(fù)以保證系統(tǒng)正常運(yùn)行的文件的年齡。恢復(fù)點(diǎn)目標(biāo)在時(shí)間上是從故障發(fā)生時(shí)開始向后表示的(即到過(guò)去),它可以以秒、分鐘、小時(shí)或天來(lái)表示。它是災(zāi)難恢復(fù)計(jì)劃(DRP)中重要的考慮因素。
VM-aware :VM感知存儲(chǔ)或虛擬化感知存儲(chǔ)是在利用虛擬機(jī)(VM)的虛擬化環(huán)境中對(duì)存儲(chǔ)基礎(chǔ)設(shè)施的智能管理和監(jiān)視;在VM感知存儲(chǔ)環(huán)境中的關(guān)鍵因素是存儲(chǔ)組件與VM一起管理,而不是作為單獨(dú)管理的卷或LUN(邏輯單元號(hào))管理。)
4.檢查并驗(yàn)證系統(tǒng)硬件
檢查硬件狀態(tài)并識(shí)別是哪部分硬件發(fā)生故障。管理工具可以將錯(cuò)誤報(bào)告以郵件或信息的方式告知IT人員,將事件發(fā)生記錄到log files(日志文件)里或通過(guò)設(shè)備面板實(shí)時(shí)跟蹤記錄事件全過(guò)程。但并非被記錄的所有事件都能夠立即解決。
例如,RAID 6組中的RAID 5磁盤可能會(huì)出現(xiàn)問(wèn)題,并被重寫到另一個(gè)備用磁盤上,IT人員可能需要一些時(shí)間完成更換和重建故障的磁盤。比如:在將VM工作負(fù)載遷移或重新啟動(dòng)到其他可用系統(tǒng)的服務(wù)器;也有可能在出現(xiàn)類似問(wèn)題時(shí),即使查看錯(cuò)誤日志或看到面板顯示信息后,依舊無(wú)法立即修復(fù)這些問(wèn)題,這些問(wèn)題會(huì)在系統(tǒng)關(guān)機(jī)之前被IT人員發(fā)現(xiàn),提醒IT人員再次確認(rèn)這樣的問(wèn)題會(huì)不會(huì)影響關(guān)機(jī)或重啟。
IT人員將在關(guān)機(jī)之前做出明智的決定來(lái)處理需要解決的問(wèn)題,確保待決的問(wèn)題不會(huì)影響重新啟動(dòng)。
5.嚴(yán)格按流程關(guān)閉系統(tǒng)
一般來(lái)說(shuō),成功的數(shù)據(jù)中心關(guān)機(jī)流程的制定原則:始于關(guān)注IT設(shè)備的外部環(huán)境,并逐漸轉(zhuǎn)向制定設(shè)備內(nèi)部流程。關(guān)機(jī)之前有可能會(huì)先注銷并關(guān)閉終端用戶,再關(guān)閉應(yīng)用程序。例如:先關(guān)閉Web服務(wù)器、Exchange等服務(wù),接著再關(guān)閉數(shù)據(jù)庫(kù)和中間設(shè)備。虛擬化環(huán)境會(huì)接著默認(rèn)關(guān)閉virtual instances,例如像VMs這樣的虛擬設(shè)備,其次是諸如VMware vCenter或Microsoft System Center這樣的管理工具。只有這樣, IT團(tuán)隊(duì)才能關(guān)閉物理服務(wù)器。一旦服務(wù)器關(guān)閉,IT團(tuán)隊(duì)才可以接下來(lái)繼續(xù)關(guān)閉存儲(chǔ)和網(wǎng)絡(luò)設(shè)備。IT團(tuán)隊(duì)有可能會(huì)通過(guò)確保不間斷電源系統(tǒng)、監(jiān)視器、配電單元和其它輔助設(shè)備的正常運(yùn)行來(lái)關(guān)閉系統(tǒng)。
6.恢復(fù)并驗(yàn)證系統(tǒng)
當(dāng)停機(jī)結(jié)束時(shí),IT團(tuán)隊(duì)便可以執(zhí)行重新啟動(dòng)流程。理想情況下,重新啟動(dòng)將是與關(guān)機(jī)是完全相反的過(guò)程,但并非總是如此。重啟系統(tǒng)時(shí)需要考慮到電源分配,需要對(duì)重啟設(shè)備順序進(jìn)行調(diào)整安排,逐一開啟設(shè)備,而不是一次性全部開啟,以防止導(dǎo)致斷路器跳閘或?qū)υO(shè)備的防浪涌沖擊的保護(hù)。每個(gè)主要步驟還涉及一些設(shè)備數(shù)量的驗(yàn)證或測(cè)試,以確保在執(zhí)行下一個(gè)啟動(dòng)步驟之前,設(shè)備或軟件保持正常運(yùn)行。
例如,在嘗試啟動(dòng)任何存儲(chǔ)陣列之前,打開網(wǎng)絡(luò)設(shè)備并驗(yàn)證其是否已正常啟動(dòng)。打開存儲(chǔ)陣列后,請(qǐng)檢查是否有任何故障磁盤,有問(wèn)題的磁盤組和其他可能的問(wèn)題。
以上文檔是在制定關(guān)機(jī)流程中必須要考慮到的部分,需要考慮到業(yè)務(wù)、設(shè)備的不同,因地制宜對(duì)自身數(shù)據(jù)中心制定合理的、可靠的關(guān)機(jī)流程,這對(duì)于自設(shè)設(shè)備安全性以及業(yè)務(wù)連續(xù)性都能起到重要作用。