2015年6月6日下午,因廣東1區(qū)(GD1)所在IDC遭遇雷暴天氣引發(fā)電力故障。
“機(jī)房因雷擊引起UPS異常,機(jī)柜瞬時(shí)斷電再加電,從而導(dǎo)致了青云的全部物理設(shè)備異常關(guān)機(jī)與重啟。”
數(shù)據(jù)中心為啥會(huì)被雷電擊中?
眾所周知,廣東一帶處于南方沿海地區(qū),夏季多雨潮濕,雷電頻繁,放電時(shí)瞬時(shí)電流非常大,一旦被雷電擊中,數(shù)據(jù)中心電力出現(xiàn)故障,就上演了停機(jī)等嚴(yán)重故障。放眼全球,2015年2月,富士通位于澳大利亞珀斯的數(shù)據(jù)中心也因雷擊導(dǎo)致斷電,2014年新加坡某證券公司也遭遇同樣故障……
面對(duì)雷擊這樣的看似小概率事件,業(yè)界資深運(yùn)維專家的點(diǎn)評(píng)是“故障無(wú)偶然,全是必然的結(jié)果。”即單點(diǎn)的運(yùn)維故障是罕見(jiàn)的,更多的是幾個(gè)疏漏共同作用的結(jié)果。
青云雷擊事件幾大誘因
潮濕+強(qiáng)對(duì)流——區(qū)域選址是規(guī)劃硬傷
在氣候潮濕、尤其夏季強(qiáng)對(duì)流天氣頻發(fā)的地理位置運(yùn)行的數(shù)據(jù)中心會(huì)面臨更多的雷電風(fēng)險(xiǎn)。
在規(guī)劃設(shè)計(jì)階段,尤其需要對(duì)雷電等自然災(zāi)害風(fēng)險(xiǎn)做更多考慮,包括風(fēng)險(xiǎn)評(píng)估、防雷工具級(jí)別等。
系統(tǒng)應(yīng)對(duì)不利——缺乏給力的測(cè)試驗(yàn)證
“在數(shù)據(jù)中心投產(chǎn)前,一定要找專業(yè)的第三方服務(wù)機(jī)構(gòu)做測(cè)試驗(yàn)證!” 中國(guó)電源學(xué)會(huì)專家委員會(huì)主席、中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究員張廣明認(rèn)為對(duì)數(shù)據(jù)中心的系統(tǒng)驗(yàn)證是降低故障率的重要屏障,尤其是極端環(huán)境下的模擬測(cè)試。為金融、IDC、互聯(lián)網(wǎng)等行業(yè)客戶提供超過(guò)200次測(cè)試驗(yàn)證服務(wù)的中科仙絡(luò)咨詢服務(wù)有限公司董事長(zhǎng)程小丹:“我們認(rèn)為測(cè)試驗(yàn)證的過(guò)程不僅僅是對(duì)系統(tǒng)的檢測(cè),更大的價(jià)值是幫助運(yùn)維團(tuán)隊(duì)及早了解數(shù)據(jù)中心的實(shí)際情況,積累日后運(yùn)維和故障應(yīng)對(duì)的寶貴經(jīng)驗(yàn)。”
永遠(yuǎn)不夠及時(shí)的應(yīng)急處理——缺乏風(fēng)險(xiǎn)管理和日常演練
青云雷擊事件停機(jī)3小時(shí),造成官網(wǎng)和控制臺(tái)等都無(wú)法使用。
回看騰訊深圳寶安數(shù)據(jù)中心曾經(jīng)在2014年3月底的罕見(jiàn)暴雨中經(jīng)歷了一條主用市電供電線路10千伏線路的“罷工”,平時(shí)注重風(fēng)險(xiǎn)管理和應(yīng)急演練使得騰訊運(yùn)營(yíng)團(tuán)隊(duì)在此次大事件中表現(xiàn)出色,成功解救了數(shù)據(jù)中心,確保了業(yè)務(wù)的連續(xù)運(yùn)營(yíng)。
“從IDC基礎(chǔ)設(shè)施層面來(lái)看,充分了解IDC的基礎(chǔ)環(huán)境狀況和系統(tǒng)架構(gòu),清晰掌握每一個(gè)單點(diǎn)或風(fēng)險(xiǎn)點(diǎn);結(jié)合實(shí)際建立完善的應(yīng)急體系和應(yīng)急預(yù)案。在做好以上兩方面的基礎(chǔ)上,通過(guò)多場(chǎng)景、多專業(yè)的聯(lián)動(dòng)應(yīng)急演練,提升現(xiàn)場(chǎng)運(yùn)營(yíng)人員應(yīng)對(duì)各種故障的能力,快速準(zhǔn)確定位故障原因,并第一時(shí)間恢復(fù)運(yùn)營(yíng),避免誤判、誤操作帶來(lái)的次生災(zāi)害影響。從業(yè)務(wù)運(yùn)營(yíng)層面來(lái)看,引導(dǎo)做好業(yè)務(wù)架構(gòu)層面的冗余性和健壯性建設(shè),提高業(yè)務(wù)的抗風(fēng)險(xiǎn)能力。同時(shí)聯(lián)合業(yè)務(wù)層面的應(yīng)急預(yù)案要充分,并且切換機(jī)制要完善、高效,確保快速安全切換。平時(shí)加強(qiáng)與業(yè)務(wù)層面的聯(lián)合應(yīng)急演練。”騰訊數(shù)據(jù)中心華南區(qū)總監(jiān)郁智華認(rèn)為以上三條是應(yīng)對(duì)故障最給力的措施。
日后如何避免——規(guī)劃+設(shè)備+運(yùn)維
“對(duì)數(shù)據(jù)中心的規(guī)劃是我們最看重的環(huán)節(jié)。”德拓天全設(shè)施技術(shù)總監(jiān)曹潔認(rèn)為,從數(shù)據(jù)中心選址、建設(shè)、運(yùn)營(yíng)等各方面的規(guī)劃,對(duì)數(shù)據(jù)中心管理者而言,意味著要加強(qiáng)對(duì)風(fēng)險(xiǎn)的應(yīng)對(duì)措施。設(shè)備的冗余可用以及日常的檢修保養(yǎng)是保證運(yùn)行的基礎(chǔ)。
“最近幾次的宕機(jī)案例都是對(duì)行業(yè)同仁的警示,運(yùn)維仍然需要被重新理解和更加重視。”數(shù)據(jù)中心場(chǎng)地基礎(chǔ)設(shè)施運(yùn)維管理工作組組長(zhǎng)、中科仙絡(luò)董事長(zhǎng)程小丹協(xié)同來(lái)自超過(guò)50%的全國(guó)大型數(shù)據(jù)中心管理者共同推出《數(shù)據(jù)中心場(chǎng)地基礎(chǔ)設(shè)施運(yùn)維管理標(biāo)準(zhǔn)》,并于2015年6月4日在廣州中國(guó)數(shù)據(jù)中心產(chǎn)業(yè)發(fā)展大會(huì)上發(fā)布了《數(shù)據(jù)中心場(chǎng)地基礎(chǔ)設(shè)施運(yùn)維管理標(biāo)準(zhǔn)等級(jí)評(píng)估指南》,程小丹在大會(huì)上同時(shí)宣布了基于標(biāo)準(zhǔn)的實(shí)訓(xùn)基地進(jìn)展情況。“在眾多慘痛的案例面前,我們希望通過(guò)實(shí)訓(xùn)基地這樣最接近實(shí)際工作場(chǎng)景的培訓(xùn)課程來(lái)完成日常的演練,從而提升個(gè)人的應(yīng)對(duì)技能。”