如果自然災(zāi)害持續(xù)侵襲,是該果斷拔下插頭還是硬扛扮演英雄?當(dāng)颶風(fēng)艾琳四處肆虐,將主要及后備數(shù)據(jù)足以同時斷電被證明是一個明智的選擇。
大家可能已經(jīng)注意到了,東海岸近來正被大自然反復(fù)蹂躪。我們已經(jīng)親眼目睹了地震、颶風(fēng)、遠(yuǎn)超承受能力的雨水以及狂風(fēng),而這一切才剛剛過去。如果我們能夠把其中一部分推給東德克薩斯州,我們肯定會毫不猶豫地將其付諸實踐;然而上天就是這么小心眼,一面把新英格蘭淋成落湯雞,另一面又把德克薩斯州曬了個須發(fā)皆枯。
這些地質(zhì)災(zāi)害與大氣風(fēng)暴的影響使得保持?jǐn)?shù)據(jù)足以的穩(wěn)定工作變得極具挑戰(zhàn)性。電源及數(shù)據(jù)連接同時損壞,這使得確保足夠的正常運行時間徹底淪為空談;再者說,天氣糟到這個程度,維護人員哪敢出門干活啊。
在這種情況之下,如果數(shù)據(jù)中心實在無法保證全天候的設(shè)備運作(例如主機托管及代管業(yè)務(wù)),那么在狂風(fēng)暴雨襲來之前主動斷電也許是更好的選擇。因為一旦正常運轉(zhuǎn)中的設(shè)備在遭遇這些災(zāi)害時,電力中斷及數(shù)據(jù)丟失幾乎是無法避免的悲劇。我知道自己的說法一旦拋出,肯定會遭到不少朋友的質(zhì)疑。但這種看似消極的處理方式卻有著相當(dāng)顯著的優(yōu)勢,特別是大災(zāi)大難在周末這類工作人員較少的時段襲來,其積極意義就愈發(fā)明確。
即使在大型企業(yè)中,周末的資源利用率也是相對較低的。假設(shè)員工們多數(shù)休假在外,負(fù)責(zé)檢查郵件的內(nèi)部人員——不是想通過周末加班盡快趕完項目的家伙、就是完全沒有社交生活的工作狂;又或許兩者兼而有之。在這樣平靜的周末,一場大型颶風(fēng)倘若襲來,數(shù)據(jù)中心的運作保障可以說幾乎為零。
但是大家也許會問,服務(wù)器與存儲設(shè)備的潛在損壞風(fēng)險又有多大呢?事實上,即使有最可靠的UPS系統(tǒng)及后備發(fā)電機組保駕護航,損壞風(fēng)險仍然不容忽視。比如說,惡劣的氣候環(huán)境導(dǎo)致建筑物頂板破損,暴露于室外的設(shè)備必然危如累卵。此外,常見的通信線路中斷意味著除非整個設(shè)施的各個部分都有專人看管并手動操作,否則管理員們將無法通過遠(yuǎn)程控制的方式檢測設(shè)施狀況或者是進行斷電后的關(guān)機保護。具體的應(yīng)對措施取決于大家設(shè)施部署中的種種細(xì)節(jié),但我們永遠(yuǎn)要把安全放在第一位,因此消極回避顯然是下下之選。
由于颶風(fēng)艾琳的影響,我選擇了通過遠(yuǎn)程手段關(guān)閉兩個處于不同狀態(tài)的數(shù)據(jù)中心,其共同點是都處于颶風(fēng)前進的路線之上。關(guān)閉后數(shù)據(jù)中心中只有交換機與VPN設(shè)備仍在運作。當(dāng)然,這些數(shù)據(jù)中心內(nèi)的幾乎任何組成部分都能夠進行遠(yuǎn)程控制,從開啟、關(guān)閉服務(wù)器到在網(wǎng)絡(luò)上獲取每臺相關(guān)設(shè)備的控制臺訪問權(quán),其中包括存儲控制器、核心切換等等。關(guān)閉數(shù)據(jù)中心的工作只花費半個小時,會用到的是通過特殊命令關(guān)閉每臺Linux服務(wù)器的腳本工具——值得一提的是,當(dāng)下普及度極高的虛擬化應(yīng)用使關(guān)閉虛擬機的工作異乎尋常的簡單。
遺憾的是,另一家網(wǎng)站則沒有采取同樣的應(yīng)對措施。本來他們計劃在下午三點實施關(guān)閉,但該網(wǎng)站卻在當(dāng)天中午十一點四十五分莫名其妙地遭遇電力中斷,這時風(fēng)暴其實還尚未襲來。而且,他們受相關(guān)規(guī)定及網(wǎng)站自身的限制,也沒有準(zhǔn)備后備發(fā)電機組。就在那個時段,我剛剛在某個停車場中通過自己的iPhone將服務(wù)器全部關(guān)閉。我利用腳本關(guān)閉了約半數(shù)的服務(wù)器,但在存儲系統(tǒng)中Windows對話框卻惱人地彈出,導(dǎo)致腳本無法順利執(zhí)行。關(guān)于數(shù)據(jù)中心,我最后收到的信息來自一條殘缺的短信,通知那套怪物級UPS系統(tǒng)中的電池已經(jīng)用盡。接下來就是一團沉寂。不過想想也好,畢竟我所管理的基礎(chǔ)設(shè)施在兩百五十英里之外,任何所謂積極的應(yīng)對措施都只能在風(fēng)暴經(jīng)過之后才有可能得以開展。
但電力供給恢復(fù)正常,后備數(shù)據(jù)中心立即自動開始備份工作。由于除了彈出對話框的設(shè)備之外,其它大部分硬件早已正常關(guān)閉,因而在檢測到電力供應(yīng)后其它服務(wù)器按照預(yù)定計劃自動啟動起來。網(wǎng)絡(luò)設(shè)備運行良好,存儲系統(tǒng)也同樣未受損傷。實際上,與發(fā)生故障時的啟動過程不同,這次的災(zāi)后啟動極為順暢無阻。對于某幾臺服務(wù)器,我不得不手動開機、對存儲狀況發(fā)生異常的網(wǎng)絡(luò)文件系統(tǒng)進行重新安裝,這一異常影響到了其它幾臺服務(wù)器的正常啟動并連帶給幾套虛擬機系統(tǒng)帶來麻煩,不過也就僅此而已,并未發(fā)生太糟的事態(tài)。
有組織、有計劃地關(guān)閉數(shù)據(jù)中心設(shè)施帶來的良好結(jié)果令人欣慰,而負(fù)面影響相比之下也為害甚輕。在颶風(fēng)到來之前,我從來沒打算真正著手搞一次關(guān)機流程測試;但就在上個周末我剛剛實際操作了一回,兩個數(shù)據(jù)中心都表現(xiàn)出色。這次小小的練習(xí)還讓我注意到了管控框架中的幾處輕微紕漏,不過發(fā)現(xiàn)及修復(fù)過程都很輕松。
如果大家所運維的數(shù)據(jù)中心除了自然災(zāi)害之外,還有可能在正常的業(yè)務(wù)操作中遇上需要徹底關(guān)閉的情況,那么盡早制訂一套具備可操作性的關(guān)閉計劃絕對比臨時抱佛腳要好得多。每當(dāng)新設(shè)施建立起來時我都會進行規(guī)劃工作,但臨時停機確實是比較少見,災(zāi)害的侵襲才是導(dǎo)致設(shè)施整體停轉(zhuǎn)的首要因素。總的來說,這次關(guān)機經(jīng)歷增強了我對硬件事故承受能力的信心。對我來說,這正是艾琳颶風(fēng)帶來的萬里陰霾中那一絲希望的曙光。