不久前,洛杉磯地下室爆炸導(dǎo)致其附近的Equinix公司和INTERNAP公司數(shù)據(jù)中心的電力中斷。而谷歌公司在德國的數(shù)據(jù)中心最近遭受雷擊。世紀(jì)互聯(lián)公司新澤西州的一個數(shù)據(jù)中心冷凍水管道日前發(fā)生故障,影響了紐約證券交易所的數(shù)據(jù)顯示。
所有這些事件都發(fā)生在最近幾周,這些事故呈現(xiàn)出導(dǎo)致數(shù)據(jù)中心宕機(jī)和基礎(chǔ)設(shè)施故障的類型。
當(dāng)電源中斷或冷卻水停止流動時,集成系統(tǒng)測試(IST)可以驗證應(yīng)急電源、機(jī)械和監(jiān)測系統(tǒng)運行的設(shè)計和建造,以及應(yīng)用程序的集群,甚至整個數(shù)據(jù)中心會回應(yīng)用戶的期望,
“集成系統(tǒng)測試的唯一機(jī)會,你將不得不測試設(shè)施的完整的力度。”總部在彼得伯勒的英國數(shù)據(jù)中心測試企業(yè)E1E10公司董事總經(jīng)理斯蒂芬·福特說,其在集成系統(tǒng)測試(IST)方面有著十多年的經(jīng)驗。
實施IST的想法是有道理的,但不是每個人都盡他們可能去做。比較IST做備份或災(zāi)難恢復(fù)(DR)。每個人都進(jìn)行備份并采取快照,但究竟有多少企業(yè)能夠?qū)嶋H測試這些備份呢?
拔掉插頭的數(shù)據(jù)中心
在所有級別的集成系統(tǒng)測試完成之后,F(xiàn)acebook公司最近關(guān)閉了其一個數(shù)據(jù)中心,在所有必要的準(zhǔn)備工作到位之后,什么都沒有發(fā)生。
福特表示,他認(rèn)為銀行和政府機(jī)構(gòu)是進(jìn)行IST最認(rèn)真的部門。在某些行業(yè)中,對法規(guī)和規(guī)則的遵從對業(yè)務(wù)連續(xù)性或DR準(zhǔn)備可能會迫使組織去執(zhí)行。但其他公司可能還跳過IST或執(zhí)行時偷工減料。
“有些人只是剛剛經(jīng)歷就是說他們已經(jīng)做到了,這并不是系統(tǒng)的真正考驗。”福特說。
vXchnge公司是一家在美國擁有15個數(shù)據(jù)中心的主機(jī)托管提供商,作為中立的供應(yīng)商,其每年都做一次完整的集成系統(tǒng)測試IST。該公司在客戶已啟動并運行業(yè)務(wù)之前執(zhí)行IST,然后每年實施一次。
“它創(chuàng)造了在受控環(huán)境中混沌的可能性。”vxchnge公司的佛羅里達(dá)州坦帕市工程高級副總裁和首席技術(shù)官阿里·瑪利斯說。
Vxchnge公司在一個數(shù)據(jù)中心進(jìn)行的可以發(fā)現(xiàn)各種各樣的問題,第一次實施IST是其顯示控制和監(jiān)測系統(tǒng),其電源電路并沒有全部連接到UPS供電系統(tǒng)。
“當(dāng)我們把插頭拔了,我們發(fā)現(xiàn)監(jiān)控系統(tǒng)變暗了。”他說。
瑪利斯注意到,“N+1”數(shù)據(jù)中心設(shè)施的可靠性更高,因為其沒有單一故障點,因此風(fēng)險較低。“這個事件驗證冗余系統(tǒng)可以用無縫的方式捕捉負(fù)載運行的情況。”他說。
VXchnge公司取得了一定的增長,在最近幾個月購買了幾家數(shù)據(jù)中心。在一個案例中,該公司無法確定哪一次是其實施IST的最后一次。
“我們不了解所不知道的東西,而是將我們能回答這些問題的唯一途徑。”“瑪利斯說。“有些企業(yè)只是剛剛經(jīng)歷就說他們已經(jīng)做到了,其實這不是真正的系統(tǒng)測試。”
瑪利斯致力于集成系統(tǒng)測試工作超過15年,他表示期待兩件事:數(shù)據(jù)中心可以實現(xiàn)端到端的運營,以及人員和流程可以得到正確的反應(yīng)。
這很重要,因為“工作人員的錯誤仍是數(shù)據(jù)中心宕機(jī)的最主要的因素。”瑪利斯說,
“大多數(shù)主要的多租戶數(shù)據(jù)中心托管提供商都在實施IST,但其頻率可能會有所不同。”瑪利斯表示,他曾在Equinix工作過三年,每年實施IST是標(biāo)準(zhǔn)的做法。
不要害怕IST
瑪利斯表示,托管客戶通過開展自己的類似的測試與他們的供應(yīng)商合作,而實施IST可能是一個機(jī)會,客戶可以通過失敗的案例,可以更加重視數(shù)據(jù)中心的冗余備份工作。
對于vXchnge公司來說,總是提前通知客戶要有足夠的注意,使他們能夠按計劃實施自己的試驗。
E1E10公司總經(jīng)理斯蒂芬·福特建議,數(shù)據(jù)中心運營商最好每周對其發(fā)電機(jī)組和UPS供電系統(tǒng)進(jìn)行一次離線測試。他曾參與的一次IST中,其中一個公司的數(shù)據(jù)中心一年之內(nèi)都沒有運行過。在另一種情況下,他發(fā)現(xiàn)在柴油貯存罐發(fā)現(xiàn)有水,這是一種常見的情況,可能是由于溫度變化,或者很長時間沒有使用柴油燃料。
福特表示,企業(yè)的最高管理層擔(dān)心集成系統(tǒng)測試的結(jié)果可能是其最大的障礙。盡管如此,如果數(shù)據(jù)中心已經(jīng)到位,并建立了備用電源和故障轉(zhuǎn)移的計劃,但人們從來沒有用過,那么怎么知道這是否真的有用?
福特說:“他們只認(rèn)為這是創(chuàng)造風(fēng)險的測試。直到有了錯誤,卻很難說服他們?nèi)ミ@些做。”
對于一個大型汽車公司來說,星期六是一個忙碌的日子。福特說,而星期一上午,汽車公司管理層對周末的汽車銷售數(shù)量進(jìn)行了審查,發(fā)現(xiàn)沒有任何出售車輛。原來,該公司的數(shù)據(jù)中心已經(jīng)宕機(jī),其備份失敗,銷售數(shù)據(jù)沒有保存下來。
福特說:“IST這一業(yè)務(wù)尚未實現(xiàn)其數(shù)據(jù)中心的關(guān)鍵使命。”
總部在加利福尼亞州布雷亞的PLANNET公司數(shù)據(jù)中心支持系統(tǒng)經(jīng)理邁克爾·福魯曼表示,他曾在現(xiàn)場設(shè)備進(jìn)行完整的集成系統(tǒng)測試時遇到過類似的問題。
“反對者說實施IS會冒很大的風(fēng)險。”福魯曼說。
福魯曼表示,如果IST在計劃和排練時得到了密切關(guān)注,其風(fēng)險很低,遠(yuǎn)遠(yuǎn)小于數(shù)據(jù)中心業(yè)務(wù)關(guān)鍵時刻到來的風(fēng)險。
“實施IST通常在星期天凌晨3點在或某些瘋狂的時候進(jìn)行。”福魯曼說。
福魯曼和瑪利斯一樣,都認(rèn)為采購數(shù)據(jù)中心時實施IST的一個很好的時間。
福魯曼表示,例如,客戶購買了一個使用了五年的數(shù)據(jù)中心,該數(shù)據(jù)中心從沒有過任何的失敗,“但這客戶他們真的不知道這個數(shù)據(jù)中心有什么隱患。”
通常,數(shù)據(jù)中心一些組件和子系統(tǒng)的個別測試都會首先執(zhí)行。這有助于檢測出來自不同供應(yīng)商的設(shè)備的任何問題。
他說:“數(shù)據(jù)中心有一些事情可能不是正確的,如果一次都不發(fā)生,也可能是很難搞清楚。”這一切導(dǎo)致了一個更大的“拔掉插頭測試。”,“每個人都會想,這可能是最后一個。”福魯曼說。
在企業(yè)數(shù)據(jù)中心中,集成系統(tǒng)測試將讓數(shù)據(jù)中心設(shè)施更加完善,IST往往需要更詳細(xì)的協(xié)調(diào)執(zhí)行。
瑪利斯表示,人們沒有理由不這樣做,如果有條件,人們在拔掉數(shù)據(jù)中心插頭之前,解決那些需要解決的問題。