掉電不僅導(dǎo)致正在運行的業(yè)務(wù)有損失,還會帶來其它很多方面的負(fù)面影響。首先掉電對電子設(shè)備有很大危害,當(dāng)正在運行著的設(shè)備,突然輸入沒有供電了,設(shè)備里的所有電容器件都要進行放電。如果是徹底斷電還好,如果是頻繁上下電,或者供電質(zhì)量不好有波動,這類情況最容易造成設(shè)備內(nèi)部具有電容屬性的器件故障,減少設(shè)備的使用壽命;其次掉電對于電子設(shè)備內(nèi)部使用的內(nèi)存類存儲器件有影響,內(nèi)存器件正在讀寫過程中,突然掉電,內(nèi)存顆粒反復(fù)上下電,質(zhì)量不好的內(nèi)存條容易出現(xiàn)損壞,進而導(dǎo)致在來電時,設(shè)備初始化過不了而無法正常啟動,設(shè)備出現(xiàn)故障;第三掉電容易造成應(yīng)用軟件系統(tǒng)出現(xiàn)運行異常。比如:掉電對LINUX系統(tǒng)服務(wù)器的危害。LINUX文件系統(tǒng)包含各種有日志功能的EXT3、REISERFS、JFS等,這些日志文件系統(tǒng),都敵不過掉電的打擊。常用的EXT3和REISERFS文件系統(tǒng),當(dāng)遭遇到突然掉電,系統(tǒng)再次開機時,時常發(fā)生無法自舉故障,需手動FSCK才行。還有對ORACLE數(shù)據(jù)庫也有損害,掉電會導(dǎo)致ORACLE部分控制文件壞、REDOLOG壞、Rollback Segment壞、數(shù)據(jù)文件壞等,當(dāng)重新供電時,ORACLE數(shù)據(jù)庫無法正常啟動,運行異常。造成這些應(yīng)用系統(tǒng)異常的根本原因是在發(fā)生掉電時,這些應(yīng)用軟件的數(shù)據(jù)沒有及時備份起來,如果在掉電發(fā)生后,設(shè)備能延遲工作幾分鐘,將重要的數(shù)據(jù)保留完整,就不至于發(fā)生這類的故障。第四斷電僅僅是掉電故障的一個原因,很多時候并不是因為沒有供電而導(dǎo)致的掉電,掉電的含義要寬廣得多。比如設(shè)備故障引起供電線路的短路,產(chǎn)生了超大的電流,擊穿了保險盒開關(guān),導(dǎo)致這路供電設(shè)備均掉電;供電電源遇到了過壓、過溫等保護,電源自動進入保護而不再工作,這樣也會導(dǎo)致設(shè)備掉電;有時設(shè)備上某些重要電壓沒有產(chǎn)生而造成欠壓保護引起的掉電,通常表現(xiàn)為上電即斷,無法用萬用表測量相關(guān)電壓??傊?,掉電給數(shù)據(jù)中心及其設(shè)備造成的影響是多方面的,要適當(dāng)做一些防護措施避免數(shù)據(jù)中心頻繁發(fā)生掉電故障。
很多時候,數(shù)據(jù)中心發(fā)生掉電故障多為人為操作導(dǎo)致的。有時在進行電力施工時,誤將供電電纜搞斷了,引起了掉電。有時在進行設(shè)備供電線路調(diào)整時,不小心接錯導(dǎo)致斷路或短路,從而引起部分設(shè)備掉電,這類人為掉電故障屢見不鮮,教訓(xùn)深刻。所以,數(shù)據(jù)中心首要任務(wù)就是要將人管理起來,制定嚴(yán)格和詳細的操作規(guī)范,避免出現(xiàn)低級的人為掉電故障;數(shù)據(jù)中心還要有冗余供電,根據(jù)自己的財力情況,在不同級別的設(shè)備供電上做冗余供電,因為只采用一路市電給數(shù)據(jù)中心所有設(shè)備供電,萬一市電故障,整個數(shù)據(jù)中心就會停轉(zhuǎn)。所以最好引入兩路不同的市電,并且對核心設(shè)備要有UPS、蓄電池或者備份電源,這樣當(dāng)市電真的故障時,采用備份電源也可以保證數(shù)據(jù)中心繼續(xù)運行數(shù)個小時,等市電恢復(fù)供電,再將設(shè)備供電輸入切到市電上,要周期性檢查這些備份供電系統(tǒng)的剩余容量,平時備份電源是待命狀態(tài),而要使用的時候,供電容量一定要確保,不能在關(guān)鍵時刻掉鏈子;要周期性對數(shù)據(jù)中心的供電安全進行評估,全面核查供電中的安全可靠性,及時發(fā)現(xiàn)日常維護中所不能發(fā)現(xiàn)的問題。同時制定供電應(yīng)急預(yù)案,明確發(fā)生掉電故障時的處理流程、操作人員、操作步驟與廠商支撐等方面要求,在實際應(yīng)對掉電事件時,就能做到“手中有糧,心中不慌”。要保持?jǐn)?shù)據(jù)中心內(nèi)部良好的溫濕度環(huán)境,避免電子設(shè)備產(chǎn)生靜電、腐蝕、過壓、過流等故障,這些都可能引發(fā)設(shè)備掉電故障。雖然我們無法預(yù)知掉電故障何時會出現(xiàn),但我們可以提前做一些防護工作,避免掉電出現(xiàn),萬一發(fā)生了掉電,也有完整的應(yīng)急預(yù)案,確保數(shù)據(jù)中心業(yè)務(wù)不受掉電影響。
掉電是數(shù)據(jù)中心無法抹去的痛,曾給數(shù)據(jù)中心帶來很多次慘痛的教訓(xùn)。經(jīng)過以上的說明,可以看到掉電故障雖可怕,但通過制定一些防護方案是可以大為減少掉電發(fā)生頻率的。即使發(fā)生了,也有通過提前部署好的冗余供電系統(tǒng)來避免給數(shù)據(jù)中心業(yè)務(wù)造成損害。