那么對于數據中心也一樣,如今的數據中心已經承載著太多的重要業務,人們的生活早已經離不開數據中心,它已經成為了人們生活的一部分,一旦數據中心發生故障將給人們帶來很多不便和經濟損失。因為每當數據中心發生故障后,既然可以通過一些歷史記錄去還原故障的發生原貌,對數據中心的未來發展建設都會很有借鑒意義。
當然,絕大多數的數據中心都是運行在固定的建筑當中,不過也有一些可以移動的數據中心,這些移動的數據中心在工作時也基本是在固定的位置,這就和飛機有最大的不同。飛機發生墜毀一切設備都無法再繼續工作,現場也會被破壞,而數據中心是在固定的位置,故障現場依然可以被很好地保留著,這就為故障分析提供了很好的參考依據。從以往數據中心發生的故障來看,主要有三類:自然災害;人為故障;設備故障,這三個方面。90%以上的故障都來自于這三個方面。
對于地震、火災、雷擊等天然災害,從故障現場的受損情況就可以分析出來。比如雷擊,會產生強大的沖擊電流,打到設備上,就會引起設備器件短路,產生瞬間的高壓,使電路急劇生溫,輕微的可引起設備短路故障,嚴重的還能引起火災。對于這些自然災害,數據中心也有很多的技術手段可以最大程度上避免災害的發生,針對每一種自然災害數據中心都需要加以重視,才能躲避開這些自然災害。比如增加機柜和機房地面的固定螺絲,安裝避雷針,增加放火報警系統和防火器材。當出現這些自然災害時,減少對數據中心的沖擊。
人為故障占到了數據中心的故障中的70%,其中也可以分為有意的和無意的。有意的是指明知道一些操作會造成數據中心故障,仍執意去做的,這些人往往希望通過造成數據中心運行癱瘓,而達到不可告人的目的。常見的有黑客、情報人員、商業機密小偷等等,他們攻擊的對象往往是數據中心里的數據,通過造成數據中心故障來達到竊取或損壞數據的目的。無意的是指本意并不想破壞數據中心,但是由于自己的技術積累經驗不夠或者疏忽,自己的操作引發了數據中心故障,這種故障占到了人為故障的80%以上。數據中心是一個復雜龐大的系統,不可能一個人面面俱到都精通,當接觸到自己不熟悉或不了解的地方,操作往往引發意想不到的結果,因此加強對人的管理尤為重要。在對數據中心做任何調整時,都要從全局考慮,集中最優秀的技術人員,將人為操作風險降低。這類事故往往也很容易留下證據記錄,給事故分析帶來方便。幾乎所有的數據中心都有門禁系統、視頻監控系統,任何人的出入都有記錄,很容易查到。有不少的數據中心提供遠程的訪問,那么所有的訪問操作在數據中心后臺數據中心都有記錄,訪問者對數據中心業務調整、修改配置、甚至重起設備等任何操作都會記錄在案,只要數據中心不是全面的毀滅,這些記錄都會在后臺的數據庫中查到,通過記錄的時間和訪問的人就可以查明人為事故的原因。
設備運行故障也是數據中心故障的一類,大型的數據中心擁有數千臺設備很普遍,這些電子設備難免運行中出現故障。一旦出現故障,就需要對設備進行分析,很多現場操作人員并不具備分析問題的能力,為了恢復業務,只能重起設備,或者將業務切割到別的備份設備上。當故障設備上沒有業務或者已經重起了,其上很多時時記錄都會沖掉,這樣給故障分析帶來難度。很多時候故障的表現也并非集中在某一臺設備上,心急的操作人員可能將所有設備全部重啟或將業務全部割離,如果設備能提供詳細的歷史記錄,那么對于故障分析非常有幫助。數據中心不怕出故障,怕的是出了故障后找不到原因,這相當于給數據中心埋了一個定時炸彈。其實在很多高端設備上已經增加了一些可以記錄歷史信息的模塊,比如采用NVRAM、EEPROM等非憶失性器件時時記錄設備運行的各種參數,當設備發生故障后,哪怕是設備發生了斷電,這些器件依然可以正常運行,記錄下來設備運行的各種參數,這些數據往往是故障后分析參考的最重要數據來源。當數據中心出現故障后,有的設備可以提供故障時設備運行的各種數據參數,非常具有說服力,有時也是證明自己設備沒有問題的重要信息,而一旦在故障后,一些設備沒有可分析的數據記錄,根本分不清是不是自己的問題,這樣的設備很快就會被數據中心所棄用。如果通過數據分析是自己設備的問題,那么設備商依然可以根據這些數據去優化設備設計,從而避免這類故障的再次發生,讓設備運行更加穩定。
數據中心也有各種各樣的監控手段和歷史信息記錄,這些技術為數據中心的穩定運行提供了保障,也是不斷推動數據中心完善的重要舉措。如同飛機上的黑匣子,數據中心也有自己的一套故障定位信息獲取方案,這些信息可以在一定程度上有效還原故障時數據中心的完貌,通過對這些數據分析,不僅可以找到故障原因,還可以根據這些故障對數據中心進行優化,避免發生二次故障。