當(dāng)涉及到數(shù)據(jù)中心時(shí),"彈性"一詞可以定義為"在面對(duì)環(huán)境極端以及人為錯(cuò)誤或故意破壞的情況下維持ICT服務(wù)的能力",通常可以將更高水平的彈性設(shè)計(jì)成機(jī)械和電力基礎(chǔ)設(shè)施在成本上的溢價(jià)。
Uptime Institute的數(shù)據(jù)中心的等級(jí)標(biāo)準(zhǔn)是廣泛用于衡量數(shù)據(jù)中心基礎(chǔ)架構(gòu)彈性的方法。然而根據(jù)研究,"人為錯(cuò)誤"是數(shù)據(jù)中心中斷的主要原因,至少為70%。但即使這樣,可以通過(guò)冗余設(shè)計(jì)來(lái)提高可靠性。在每個(gè)總線中使用UPS的雙母線供電系統(tǒng)可以在很大程度上保護(hù)雙接線負(fù)載,防止電源故障,人為錯(cuò)誤和無(wú)效的破壞,但即使如此,也一定要更加小心謹(jǐn)慎。
數(shù)字誤導(dǎo)用戶
當(dāng)然,數(shù)據(jù)中心的用戶希望數(shù)據(jù)中心具有更高的可靠性和可用性,并且物有所值。那么,如何了解數(shù)據(jù)中心的可用性呢?以下兩個(gè)有些相互關(guān)聯(lián)的"指標(biāo)":
"Uptime Institute(I-IV)"或"TIA-942"(I-IV)的"類(lèi)型",BICSI的"評(píng)級(jí)"和EN50600的"可用性類(lèi)"
可用性百分率,例如99.999%(所謂的"五個(gè)九")
除了指出,只有Uptime Institute可以給出一個(gè)等級(jí),TIA-942和BICSI是最適用于北美的ANSI標(biāo)準(zhǔn),EN50600還沒(méi)有被使用,人們可以將這些標(biāo)準(zhǔn)都概述成描述能力的四個(gè)級(jí)別"可維護(hù)性"和"容錯(cuò)".這些原則是明確的,兼容的可維護(hù)性回答了一個(gè)問(wèn)題,即建立一個(gè)非常可靠(可能是有彈性的)數(shù)據(jù)中心,這個(gè)數(shù)據(jù)中心必須每年關(guān)閉一次以便維護(hù)?雖然容錯(cuò)系統(tǒng)可能會(huì)有任何組件,路徑或空間"失敗",但卻不會(huì)影響ICT服務(wù)。
然而濫用最多的是可用性百分率,因?yàn)檫@很容易計(jì)算,但可以愚弄非專(zhuān)業(yè)的買(mǎi)方和用戶,使其造成誤解。其實(shí)要明確地表示可用性,只需要兩個(gè)數(shù)字就可以,MTBF(平均故障間隔時(shí)間,小時(shí))和MTTR(平均修復(fù)時(shí)間,小時(shí)),只需將MTBF除以總時(shí)間( MTBF + MTTR)來(lái)表示可用性,再乘以100%,就是真正的可用性。
因此,擁有很長(zhǎng)的MTBF和很短的MTTR可能會(huì)得可用性非常高的結(jié)果。不幸的是,MTBF和MTTR卻是營(yíng)銷(xiāo)部門(mén)可以猜測(cè)的數(shù)字,如果他們使用這些數(shù)字來(lái)解釋。例如,企業(yè)可以通過(guò)假設(shè)客戶端具有豐富經(jīng)驗(yàn)的工作人員和備件,并可在20分鐘內(nèi)修復(fù)UPS,UPS的可用性可以引用99.999%。然而真正的情況是,致電服務(wù)工程師上門(mén)維修,等待備件,重新投入使用之前進(jìn)行測(cè)試(通常為一天或更長(zhǎng)時(shí)間)。而假設(shè)MTBF為100,000小時(shí)(12年以下),而MTTR為20分鐘到12小時(shí),這可以產(chǎn)生任何人們想要的結(jié)果。
第二個(gè)問(wèn)題是故障事件的數(shù)量(多個(gè)MTTR求和)和MTBF的組合。舊版本的Uptime Institute白皮書(shū)(現(xiàn)已作廢)試圖將可用率與四個(gè)Tier等級(jí)相關(guān)聯(lián),但沒(méi)有定義測(cè)量時(shí)間。這導(dǎo)致了一個(gè)奇怪的情況,即Tier級(jí)別低的數(shù)據(jù)中心設(shè)施每年可以允許53分鐘的離線時(shí)間,但級(jí)別最高的的Tier IV級(jí)數(shù)據(jù)中心只能提供5.3分鐘。這很奇怪,然而如果每年發(fā)生一次的故障,這個(gè)對(duì)于TierI-Tier IV的任何級(jí)別的數(shù)據(jù)中心來(lái)說(shuō)都是災(zāi)難。
不管怎樣,人們不要總是關(guān)注這個(gè)問(wèn)題,而要考慮組合問(wèn)題。這尤其影響到許多非常短暫的失敗。最簡(jiǎn)單的說(shuō)明方法,就是以人們的心臟跳動(dòng)為例,某人的心臟是99.9%"可用",這聽(tīng)起來(lái)還不錯(cuò),一年有3153600秒,0.01%代表著一年中可能30000次心跳停止跳動(dòng),如果某次時(shí)間較長(zhǎng),就會(huì)帶來(lái)生命危險(xiǎn),而如果它們?cè)谝荒曛衅骄植迹敲纯赡苤皇歉杏X(jué)不舒服。在數(shù)據(jù)中心的術(shù)語(yǔ)中,查看電源輸入提供給負(fù)載的電壓。許多現(xiàn)代的服務(wù)器無(wú)法承受10ms的電力中斷,而在6毫秒時(shí),電力系統(tǒng)的可用性為99.9999999%,因此每年可能會(huì)產(chǎn)生三個(gè)10ms的故障。
那么該怎么辦呢?既然可用性是一個(gè)度量標(biāo)準(zhǔn),只要它表達(dá)清晰,就沒(méi)有什么問(wèn)題。例如,"10年以上測(cè)量的99.99%的可用性,單次故障持續(xù)不超過(guò)10小時(shí)"是MTBF(10年)和MTTR(10小時(shí))的明確聲明。一些人可能已經(jīng)算出了答案,可用性將達(dá)到99.98859.但是現(xiàn)在人們可能會(huì)得出這樣一個(gè)觀點(diǎn):MTBF比可用性更重要,人們需要采用MTBF來(lái)計(jì)算可用性在第一位。"單一失敗"卻避免了多個(gè)事件的求和。
當(dāng)然,彈性數(shù)據(jù)中心的最終"失敗"可能是最容易實(shí)現(xiàn)的:并不是通過(guò)黑客互聯(lián)網(wǎng)入侵UPS,而是人為因素或故障關(guān)閉電源,提高服務(wù)器入口溫度,使其宕機(jī)。
彈性對(duì)于數(shù)據(jù)中心基礎(chǔ)管理和防止出現(xiàn)停機(jī)中斷都是至關(guān)重要的。即使是最好的設(shè)計(jì)和運(yùn)營(yíng)也可能會(huì)發(fā)生失敗。因此數(shù)據(jù)中心技術(shù)人員通過(guò)設(shè)計(jì)和測(cè)試來(lái)滿足運(yùn)營(yíng)商操作人員的需求,減少對(duì)停機(jī)中斷的恐懼,同時(shí)還可以提高工作人員管理維護(hù)數(shù)據(jù)中心,并提升對(duì)可用性的信心。