數(shù)據(jù)中心,支撐整個(gè)IT系統(tǒng)正常運(yùn)轉(zhuǎn)的后臺(tái)架構(gòu),囊括了計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等多種IT資源。也正是因?yàn)閿?shù)據(jù)中心地位的重要性和在現(xiàn)代社會(huì)生活中扮演的重要角色,使得數(shù)據(jù)中心的安全和持久穩(wěn)定運(yùn)行成為了人們極為關(guān)注的問(wèn)題。然而,前段時(shí)間颶風(fēng)桑迪為代表給數(shù)據(jù)中心帶來(lái)的災(zāi)難性創(chuàng)傷,再次引發(fā)了人們對(duì)數(shù)據(jù)中心的安全擔(dān)憂。本文,將為讀者介紹全球數(shù)據(jù)中心遭遇到的災(zāi)難事故,并從中總結(jié)得出數(shù)據(jù)中心安全殺手以及如何防范等問(wèn)題。
本月早些時(shí)候,颶風(fēng)桑迪重創(chuàng)美國(guó)東海岸,尤其是支持著整個(gè)工業(yè)園運(yùn)轉(zhuǎn)的數(shù)據(jù)中心在此次颶風(fēng)肆虐中因斷電而癱瘓,造成了難以挽回的巨大損失。
那么,數(shù)據(jù)中心常見(jiàn)的殺手有哪些呢?換句話說(shuō),究竟有哪些因素會(huì)影響數(shù)據(jù)中心的正常運(yùn)行、而需要我們特別加以重視的呢?一般說(shuō)來(lái),以下因素或者災(zāi)害對(duì)數(shù)據(jù)中心會(huì)帶來(lái)較大危害:
一、洪災(zāi)
毋庸置疑,曾經(jīng)泰國(guó)洪災(zāi)給硬盤(pán)產(chǎn)業(yè)帶來(lái)的影響就可以“窺一葉而知春秋”,數(shù)據(jù)中心也同樣害怕洶涌的洪災(zāi);
二、火災(zāi)
俗話說(shuō)“大火無(wú)情”,一旦出現(xiàn)火災(zāi)事故,后果不堪設(shè)想。也正是如此,數(shù)據(jù)中心往往都備有消防裝備;
三、網(wǎng)絡(luò)中斷
光纖網(wǎng)絡(luò)在很多偏遠(yuǎn)地區(qū)并不常見(jiàn),如果路由器、交換機(jī)出現(xiàn)宕機(jī)或者人為誤操作(誤配置)導(dǎo)致網(wǎng)絡(luò)中斷,后果同樣不堪設(shè)想。沒(méi)有網(wǎng)絡(luò)的數(shù)據(jù)中心宛如一座孤島——對(duì)于提供 網(wǎng)絡(luò)或者云服務(wù)的數(shù)據(jù)中心來(lái)尤其如此;
四、電力中斷
相比網(wǎng)絡(luò)中斷,電力中斷帶來(lái)的麻煩更大。沒(méi)有電力的數(shù)據(jù)中心就如同一堆廢鐵;
五、地震
去年日本大地震帶來(lái)的影響,大家可能都?xì)v歷在目。身處地震帶或者地震頻發(fā)周邊的數(shù)據(jù)中心尤其要注意在防震方面的設(shè)計(jì)和構(gòu)建。
另外,數(shù)據(jù)泄露、系統(tǒng)崩潰、網(wǎng)絡(luò)攻擊、人為失誤和冗余出錯(cuò),都會(huì)給數(shù)據(jù)中心的正常運(yùn)營(yíng)帶來(lái)巨大危害。下面,我們將為大家介紹曾經(jīng)遭遇過(guò)巨大創(chuàng)傷的數(shù)據(jù)中心。
【火燒】威斯康辛數(shù)據(jù)中心
【事故檔案】
時(shí)間:2008年3月19日
地點(diǎn):美國(guó)
起因:火災(zāi)
損失:數(shù)據(jù)中心遭毀,歷時(shí)十天才得以修復(fù)。
2008年3月19日,美國(guó)威斯康辛數(shù)據(jù)中心被火燒得一塌糊涂。根據(jù)事后統(tǒng)計(jì),這次大會(huì)已經(jīng)燒掉了75臺(tái)服務(wù)器、路由器和交換機(jī),當(dāng)?shù)卮罅康恼军c(diǎn)都癱瘓。該數(shù)據(jù)中心屬于當(dāng)?shù)匾患?ldquo;Camera Corner/Connecting Point”的公司所有,該公司主營(yíng)網(wǎng)站托管和其他IT服務(wù)。
火燒威斯康辛數(shù)據(jù)中心
這次事故,給當(dāng)?shù)鼐W(wǎng)站帶來(lái)了巨大損失。耗時(shí)10天的修繕和重新部署,才使得這些網(wǎng)站得以上線。該公司CEO Rick Chernick也一再?gòu)?qiáng)調(diào),公司為該數(shù)據(jù)中心投放了火災(zāi)險(xiǎn),而且數(shù)據(jù)中心的警報(bào)裝置減輕了火災(zāi)帶來(lái)的進(jìn)一步損害。
然而,該數(shù)據(jù)中心耗時(shí)十天才得以完全恢復(fù)過(guò)來(lái),足以說(shuō)明該數(shù)據(jù)中心在當(dāng)時(shí)并沒(méi)有完備的備份計(jì)劃。
同樣還遭遇火災(zāi)影響的數(shù)據(jù)中心,有來(lái)自莫斯科的ISP服務(wù)器機(jī)房。根據(jù)監(jiān)控畫(huà)面我們知道,該數(shù)據(jù)中心起火原因是墻壁上的電閘開(kāi)關(guān)短路而導(dǎo)致的。工作人員利用手中的各種工具將涌向服務(wù)器的煙霧和火花進(jìn)行撲滅。然而值得稱贊的是,盡管如此,該機(jī)房并沒(méi)有中斷電力。因?yàn)樗麄儾渴鹆薝PS系統(tǒng),這一點(diǎn)對(duì)于其他數(shù)據(jù)中心的設(shè)計(jì)和建筑來(lái)說(shuō)都極具參考意義。
Fisher Plaza數(shù)據(jù)中心變壓器起火引發(fā)火災(zāi)
2009年7月,位于西雅圖的Fisher Plaza數(shù)據(jù)中心的變壓器起火引發(fā)火災(zāi)。此次火災(zāi)影響甚大,造成了包括微軟Bing Travel、Authorize.net、Redfin、Big Fish Games、Survey Analytics等網(wǎng)站服務(wù)器的中斷運(yùn)行器的中斷運(yùn)行。這次事故在同一時(shí)間段引發(fā)了很多其他數(shù)據(jù)中心的宕機(jī)。
從此次災(zāi)難中,我們應(yīng)該學(xué)會(huì)在選擇數(shù)據(jù)中心服務(wù)商的時(shí)候,應(yīng)該了解事故發(fā)生后網(wǎng)站需要多長(zhǎng)時(shí)間從宕機(jī)中恢復(fù)過(guò)來(lái)。如果答案在幾天甚至幾周,那么可以考慮選擇其他更值得信賴的服務(wù)商。
另外,我們也特別需要有完整災(zāi)備計(jì)劃的事后措施,在數(shù)據(jù)中心場(chǎng)地和周邊,務(wù)必有科學(xué)合理的消防設(shè)備和設(shè)計(jì)方案,數(shù)據(jù)中心的各個(gè)角落應(yīng)該有盡可能多的消防器材。(在不影響通行和通風(fēng)散熱的情況下)
【水淹】Vodafone數(shù)據(jù)中心
【事故檔案】
時(shí)間:2009年9月9日
地點(diǎn):土耳其
起因:暴雨引發(fā)洪災(zāi)
損失:數(shù)據(jù)中心遭淹
2009年9月9日,土耳其伊斯坦布爾遭遇暴雨并引發(fā)了洪水。瘋狂肆虐的洪水淹沒(méi)了該市Ikitelli區(qū)的大部分地段,也淹沒(méi)位于該區(qū)的Vodafone數(shù)據(jù)中心。
水淹Vodafone數(shù)據(jù)中心
城市里的很多Vodafone(沃達(dá)豐)手機(jī)用戶都因該數(shù)據(jù)中心被淹而無(wú)法使用通信服務(wù)。上圖展示的是監(jiān)控?cái)z像頭拍下的畫(huà)面:數(shù)據(jù)中心的一名員工在收集自己的東西撤離數(shù)據(jù)中心。
伊斯坦布爾Ikitelli地區(qū)所處位置(截自谷歌地圖)
伊斯坦布爾Ikitelli地勢(shì)較為低洼,南北毗鄰愛(ài)琴海和黑海。因此,在遭遇暴雨的時(shí)候就特別容易引發(fā)洪水。此次洪水在當(dāng)?shù)卦斐闪撕艽蟮挠绊?,甚至街道上的很多車輛都被沖走。
同樣遭受洪災(zāi)影響的,還有來(lái)自澳大利亞的Datacom網(wǎng)絡(luò)中心。這次洪災(zāi)發(fā)生在澳洲的時(shí)間是在2010年,當(dāng)時(shí)的大暴雨將Datacom主機(jī)代管中心的天花板沖毀,使得服務(wù)器、存儲(chǔ)和網(wǎng)絡(luò)設(shè)備都遭損壞。起初該公司否認(rèn)出現(xiàn)問(wèn)題,但隨著事故在網(wǎng)絡(luò)上得到曝光,人們逐漸知道了真相。
Hunt Valley數(shù)據(jù)中心遭遇水管侵襲
Hunt Valley數(shù)據(jù)中心也曾遭遇了“有驚無(wú)險(xiǎn)”的侵襲。在2008年的時(shí)候,洗手間的一根管道爆裂并涌出大量的水。好在該中心的服務(wù)器機(jī)柜設(shè)計(jì)較為合理,離地間距為4英寸(1英寸=0.0254米),而且管理人員在午休回來(lái)后及時(shí)發(fā)現(xiàn)并處理了該險(xiǎn)情。
從以上幾個(gè)實(shí)例中我們不難發(fā)現(xiàn),為了避免洪災(zāi)對(duì)數(shù)據(jù)中心帶來(lái)的潛在危害,我們應(yīng)該對(duì)數(shù)據(jù)中心的選址、海拔、機(jī)柜離地間距甚至是整個(gè)數(shù)據(jù)中心建筑物的設(shè)計(jì),都需要有一個(gè)充分的科學(xué)論證,以防后患。
【網(wǎng)斷】數(shù)據(jù)中心
【事故檔案】
時(shí)間:未知
地點(diǎn):未知
起因:光纖被淹
損失:業(yè)務(wù)中斷
光纖網(wǎng)絡(luò)被水淹導(dǎo)致網(wǎng)絡(luò)中斷
可能有人會(huì)問(wèn),僅僅是下水管道爆裂怎么會(huì)引發(fā)網(wǎng)絡(luò)中斷呢?(不是洪水,數(shù)據(jù)中心也沒(méi)有被淹沒(méi))。其實(shí),主要原因是當(dāng)時(shí)一家電信公司打算將光線網(wǎng)絡(luò)鋪設(shè)在下水管道上,并通過(guò)下水管道的走向來(lái)安排布線。圖中所示的就是光纖網(wǎng)絡(luò)被爆裂管道的水所淹沒(méi)的場(chǎng)景。
除了網(wǎng)絡(luò)中斷,也有電力中斷的例子。比如接下來(lái)要介紹的數(shù)據(jù)中心。如下圖所示,工作人員按慣例檢查UPS的電壓和電流情況。然而,當(dāng)他進(jìn)入數(shù)據(jù)中心的時(shí)候,其中一個(gè)UPS宕機(jī)并且火花四濺,煙火瞬間彌漫整個(gè)機(jī)房。
另外,我們這里還要介紹一種意外事件帶來(lái)的潛在威脅。當(dāng)IT管理員周末步入數(shù)據(jù)中心查看的時(shí)候發(fā)現(xiàn),機(jī)房頂端的天花板已經(jīng)濕透并逐漸往下滲水。滲出來(lái)的水流入到地面并不斷積壓。管理員發(fā)現(xiàn)后立即將水桶放到滲水的位置,避免水位進(jìn)一步提升。
經(jīng)過(guò)后來(lái)的檢查發(fā)現(xiàn),這些水來(lái)自于空調(diào)管道,而這些管道被鋪設(shè)在天花板上方,而且沒(méi)有經(jīng)過(guò)嚴(yán)密的密封處理。
無(wú)論是空調(diào)管道還是下水道,其實(shí)都是設(shè)計(jì)方面存有缺陷。對(duì)于這種問(wèn)題,在搭建數(shù)據(jù)中心的時(shí)候就需要嚴(yán)格按照設(shè)計(jì)要求來(lái)執(zhí)行。同時(shí),也需要進(jìn)一步加大對(duì)UPS和數(shù)據(jù)中心物理設(shè)施的常規(guī)定期檢查。
品牌:IBM 服務(wù)器
【地震】日本數(shù)據(jù)中心
【事故檔案】
時(shí)間:2011年3月11日
地點(diǎn):日本
起因:9級(jí)地震
損失:設(shè)備受損
3月11日,日本遭受了9級(jí)大地震,上萬(wàn)人失去了生命,數(shù)百萬(wàn)人受到嚴(yán)重影響。在此次地震中,日本東京的IBM數(shù)據(jù)中心也受損嚴(yán)重。包括很多大型機(jī)和傳統(tǒng)服務(wù)器受損,服務(wù)器機(jī)柜東倒西歪,金屬外框也出現(xiàn)了變形,甚至有些大型機(jī)的線纜都暴露在外。
9級(jí)地震發(fā)生后的IBM數(shù)據(jù)中心
不過(guò),由于IBM數(shù)據(jù)中心線纜長(zhǎng)度和松緊度的合理設(shè)計(jì),而且,作為自動(dòng)觸發(fā)進(jìn)行錯(cuò)誤檢查的一項(xiàng)預(yù)防措施,IBM存儲(chǔ)單元也同樣保持正常運(yùn)行。在此次地震中的IBM服務(wù)器還能正常運(yùn)行。
另外值得一提的是,2012年初的時(shí)候,加爾各答的一家銀行被大伙無(wú)情吞噬。煙霧擴(kuò)散至
樓上九層。消防員趕來(lái)的時(shí)候,該機(jī)房也被火燒掉面目全非,只留下了機(jī)柜的空殼和天花板上的一些線纜。
品牌:華為 服務(wù)器
構(gòu)建數(shù)據(jù)中心的【秘訣】
前面我們給大家介紹了遭受洪災(zāi)、火災(zāi)、網(wǎng)絡(luò)中斷、地震破壞的數(shù)據(jù)中心,從這些災(zāi)難事件中,我們也深刻地體會(huì)到災(zāi)害的無(wú)情和兇猛,也意識(shí)到在設(shè)計(jì)規(guī)劃、建造部署數(shù)據(jù)中心的時(shí)候,需要經(jīng)過(guò)多番論證,建立多套應(yīng)急措施和備份系統(tǒng)。
根據(jù)全球保險(xiǎn)公司Axa安盛的一份報(bào)告,80%的中小企業(yè)在遭受重大事故后的18個(gè)月內(nèi)都面臨著關(guān)門(mén)破產(chǎn)或者難以為繼的困境。與此同時(shí),更大型公司在遭受重大事故時(shí),則會(huì)蒙受巨額的財(cái)產(chǎn)損失和名譽(yù)損失。
下面,我們將為大家提煉出幾個(gè)構(gòu)建數(shù)據(jù)中心值得關(guān)注的問(wèn)題。這些對(duì)于保障IT系統(tǒng)7×24不間斷運(yùn)行、為業(yè)務(wù)發(fā)展提供源源不斷的支持所應(yīng)該具備的要素:
一、數(shù)據(jù)中心的選址
正如我們前提提到的,很多發(fā)展洪災(zāi)的數(shù)據(jù)中心,都是位于地勢(shì)低洼、臨近河道或者海邊的地理位置。而且很多地震頻發(fā)或者環(huán)地震帶也不宜構(gòu)建數(shù)據(jù)中心。選址問(wèn)題,重點(diǎn)可以考慮自然地理?xiàng)l件、配套設(shè)施、周邊環(huán)境、成本因素、政策環(huán)境、高科技人才資源環(huán)境、社會(huì)經(jīng)濟(jì)人文環(huán)境。
全球數(shù)據(jù)中心分布位置一覽
ANSI/TIA-942-2005標(biāo)準(zhǔn)不同分級(jí)的選址要求 | ||
注意事項(xiàng) | T3標(biāo)準(zhǔn) | T4標(biāo)準(zhǔn) |
臨近洪水危險(xiǎn)區(qū)域 | 遠(yuǎn)離百年一遇/離50年一遇水災(zāi)區(qū)不小于90m | 離百年一遇水災(zāi)區(qū)不小于90m |
接近海岸或內(nèi)陸水路 | 距離不小于90m | 距離不小于800m |
接近主要干道 |
距離不小于90m |
距離不小于800m |
接近機(jī)場(chǎng) | 距離在1.8km~48km間 | 距離在1.8km~48km間 |
接近主要大城市 | 不超過(guò)48km | 不超過(guò)48km |
二、建立數(shù)據(jù)中心災(zāi)備計(jì)劃
即使發(fā)生諸如地震、水災(zāi)、雷擊、火災(zāi)、機(jī)器故障這些偶然事件,也必希具備很高的安全可靠性以保證業(yè)務(wù)不會(huì)停止。為了提高數(shù)據(jù)中心的安全可靠性,有必要建立完善的數(shù)據(jù)中心災(zāi)備計(jì)劃。
災(zāi)備計(jì)劃其實(shí)應(yīng)該包括軟硬件層面。軟件層面包括人為的風(fēng)險(xiǎn)評(píng)估、定期審查、軟件系統(tǒng)的相互依存和備份。硬件層面包括硬件冗余、UPS、數(shù)據(jù)備份、異地災(zāi)備等等。
三、融合數(shù)據(jù)中心
由于成本和備份關(guān)鍵系統(tǒng)和數(shù)據(jù)同步的復(fù)雜性,很多企業(yè)不惜代價(jià)創(chuàng)建一個(gè)備份數(shù)據(jù)中心。隨著業(yè)務(wù)的發(fā)展,數(shù)據(jù)中心的問(wèn)題與日俱增,數(shù)據(jù)中心管理者所面臨的壓力和挑戰(zhàn)也越來(lái)越大,企業(yè)業(yè)務(wù)的不斷調(diào)整和改變讓數(shù)據(jù)中心總體架構(gòu)面臨極大的壓力、有限的物理空間讓數(shù)據(jù)中心擴(kuò)展性和靈活性有所限制。
為此,融合數(shù)據(jù)中心是唯一的出路,只有通過(guò)有效的整合才能夠讓傳統(tǒng)數(shù)據(jù)中心升級(jí)成為一個(gè)智能化、自動(dòng)化、高效化的數(shù)據(jù)中心。
四、虛擬化技術(shù)
很多明智的企業(yè)都轉(zhuǎn)向虛擬化,從而大大降低成本。在緊急情況下,這也是快速恢復(fù)IT活力的一種方式。利用虛擬化技術(shù),可以將操作系統(tǒng)、應(yīng)用軟件和數(shù)據(jù)打包裝入到基于操作系統(tǒng)之上的應(yīng)用軟件中。封裝的應(yīng)用程序可以很容易的傳輸?shù)綀?chǎng)外--作為數(shù)據(jù)的一種傳輸方式,并為遠(yuǎn)程計(jì)算機(jī)用戶提供訪問(wèn)。虛擬化技術(shù)可以大幅減少停機(jī)時(shí)間,將宕機(jī)時(shí)間從數(shù)天減少到數(shù)小時(shí)。
當(dāng)然,在數(shù)據(jù)中心的具體產(chǎn)品層面,比如在應(yīng)對(duì)地震等自然災(zāi)害的時(shí)候,可以將數(shù)據(jù)中心構(gòu)建在減震器上面--用金屬和橡膠制成并安放在建筑物內(nèi)的隔離層,可以吸收地震發(fā)生時(shí)帶來(lái)的震動(dòng)。某些數(shù)據(jù)中心擁有樓級(jí)和機(jī)架級(jí)的減震隔離層。此外,所有的服務(wù)器機(jī)架設(shè)施,冷卻設(shè)備和其他設(shè)施都牢牢地受到地板的保護(hù)。