企業網D1Net 7月30日 7月24日,阿爾及利亞航空公司的一架客機從瓦加杜古飛往阿爾及利亞首都阿爾及爾中墜毀,在此之前的7月23日,臺灣復興航空一架客機在澎湖馬公機場墜毀,7月17日,馬來西亞航空的MH17在飛經烏克蘭和俄羅斯邊境地址上空時被擊中發生墜毀,就在這短短的一周里發生了三架飛機墜毀事件,共有400多人遇難,堪稱世界航空史上最黑暗的一周。在飛機墜毀后的第一時間,就是尋找飛機上的黑匣子,因為黑匣子記錄著飛機墜毀前的飛機各種運行參數和飛行員的談話等錄音記錄,這些是分析飛機墜毀原因的最重要數據來源。那么對于數據中心也一樣,如今的數據中心已經承載著太多的重要業務,人們的生活早已經離不開數據中心,它已經成為了人們生活的一部分,一旦數據中心發生故障將給人們帶來很多不便和經濟損失。因為每當數據中心發生故障后,可以通過一些歷史記錄去還原故障的發生原貌,對數據中心的未來發展建設都會很有借鑒意義。
當然,絕大多數的數據中心都是運行在固定的建筑當中,不過也有一些可以移動的數據中心,這些移動的數據中心在工作時也基本是在固定的位置,這就和飛機有最大的不同。飛機發生墜毀一切設備都無法再繼續工作,現場也會被破壞,而數據中心是在固定的位置,故障現場依然可以被很好地保留著,這就為故障分析提供了很好的參考依據。從以往數據中心發生的故障來看,主要有三類:自然災害;人為故障;設備故障,這三個方面。90%以上的故障都來自于這三個方面。
對于地震、火災、雷擊等天然災害,從故障現場的受損情況就可以分析出來。比如雷擊,會產生強大的沖擊電流,打到設備上,就會引起設備器件短路,產生瞬間的高壓,使電路急劇生溫,輕微的可引起設備短路故障,嚴重的還能引起火災。對于這些自然災害,數據中心也有很多的技術手段可以最大程度上避免災害的發生,針對每一種自然災害數據中心都需要加以重視,才能躲避開這些自然災害。比如增加機柜和機房地面的固定螺絲,安裝避雷針,增加放火報警系統和防火器材。當出現這些自然災害時,減少對數據中心的沖擊。
人為故障占到了數據中心的故障中的70%,其中也可以分為有意的和無意的。有意的是指明知道一些操作會造成數據中心故障,仍執意去做的,這些人往往希望通過造成數據中心運行癱瘓,而達到不可告人的目的。常見的有黑客、情報人員、商業機密小偷等等,他們攻擊的對象往往是數據中心里的數據,通過造成數據中心故障來達到竊取或損壞數據的目的。無意的是指本意并不想破壞數據中心,但是由于自己的技術積累經驗不夠或者疏忽,自己的操作引發了數據中心故障,這種故障占到了人為故障的80%以上。數據中心是一個復雜龐大的系統,不可能一個人面面俱到都精通,當接觸到自己不熟悉或不了解的地方,操作往往引發意想不到的結果,因此加強對人的管理尤為重要。在對數據中心做任何調整時,都要從全局考慮,集中最優秀的技術人員,將人為操作風險降低。這類事故往往也很容易留下證據記錄,給事故分析帶來方便。幾乎所有的數據中心都有門禁系統、視頻監控系統,任何人的出入都有記錄,很容易查到。有不少的數據中心提供遠程的訪問,那么所有的訪問操作在數據中心后臺數據中心都有記錄,訪問者對數據中心業務調整、修改配置、甚至重起設備等任何操作都會記錄在案,只要數據中心不是全面的毀滅,這些記錄都會在后臺的數據庫中查到,通過記錄的時間和訪問的人就可以查明人為事故的原因。
設備運行故障也是數據中心故障的一類,大型的數據中心擁有數千臺設備很普遍,這些電子設備難免運行中出現故障。一旦出現故障,就需要對設備進行分析,很多現場操作人員并不具備分析問題的能力,為了恢復業務,只能重起設備,或者將業務切割到別的備份設備上。當故障設備上沒有業務或者已經重起了,其上很多時時記錄都會沖掉,這樣給故障分析帶來難度。很多時候故障的表現也并非集中在某一臺設備上,心急的操作人員可能將所有設備全部重啟或將業務全部割離,如果設備能提供詳細的歷史記錄,那么對于故障分析非常有幫助。數據中心不怕出故障,怕的是出了故障后找不到原因,這相當于給數據中心埋了一個定時炸彈。其實在很多高端設備上已經增加了一些可以記錄歷史信息的模塊,比如采用NVRAM、EEPROM等非憶失性器件時時記錄設備運行的各種參數,當設備發生故障后,哪怕是設備發生了斷電,這些器件依然可以正常運行,記錄下來設備運行的各種參數,這些數據往往是故障后分析參考的最重要數據來源。當數據中心出現故障后,有的設備可以提供故障時設備運行的各種數據參數,非常具有說服力,有時也是證明自己設備沒有問題的重要信息,而一旦在故障后,一些設備沒有可分析的數據記錄,根本分不清是不是自己的問題,這樣的設備很快就會被數據中心所棄用。如果通過數據分析是自己設備的問題,那么設備商依然可以根據這些數據去優化設備設計,從而避免這類故障的再次發生,讓設備運行更加穩定。
數據中心也有各種各樣的監控手段和歷史信息記錄,這些技術為數據中心的穩定運行提供了保障,也是不斷推動數據中心完善的重要舉措。如同飛機上的黑匣子,數據中心也有自己的一套故障定位信息獲取方案,這些信息可以在一定程度上有效還原故障時數據中心的完貌,通過對這些數據分析,不僅可以找到故障原因,還可以根據這些故障對數據中心進行優化,避免發生二次故障。