首先,要在數(shù)據(jù)中心里部署一臺或者多臺日志收集的服務(wù)器,絕大多數(shù)的設(shè)備都支持將自己設(shè)備的日志信息發(fā)送給日志服務(wù)器,少數(shù)不支持的設(shè)備也可以通過服務(wù)器周期性自動登陸設(shè)備去獲取設(shè)備日志,然后將日志信息記錄下來。為了防止在出現(xiàn)故障時,影響到設(shè)備和日志服務(wù)器之間的信息交互,最好將日志服務(wù)器部署在管理網(wǎng),這樣管理網(wǎng)不走業(yè)務(wù)流量,業(yè)務(wù)網(wǎng)故障,并不會影響到管理網(wǎng)里的操作和信息收集。日志服務(wù)器也可以部署多臺,做日志備份,萬一服務(wù)器出了故障,有備用設(shè)備依然可以保持運行記錄日志。這類日志收集軟件很多,而且大部分都是開源、免費的,比如:LogAnalyzer、LogMX、BareTail等,這些軟件使用起來也很方便。如今人們對數(shù)據(jù)中心運行的穩(wěn)定性和解決問題的效率都非常關(guān)注,在現(xiàn)在新建的數(shù)據(jù)中心里,日志服務(wù)器已經(jīng)是一個標(biāo)準(zhǔn)配置項。
其次,簡單地將所有設(shè)備日志收集下來還遠(yuǎn)遠(yuǎn)不夠,之前有提到日志條目數(shù)是海量的,絕大多數(shù)的日志都是無影響的,要對日志信息進行甄別。每個設(shè)備都對日志進行了級別標(biāo)注,包括:提示、告警、嚴(yán)重、致命等級別,不同設(shè)備的日志級別大體上都差不多,細(xì)節(jié)上可能會有一些差別,不會影響到大級別上的判斷。根據(jù)這些設(shè)備日志級別,在數(shù)據(jù)中心日志服務(wù)器上也進行級別分類。比如:如果是提示類的日志,只后臺記錄,寫入到硬盤保存,都查找;如果是告警類的日志,向控制臺上打印,給出提醒;如果是嚴(yán)重類日志,直接將告警通過手機短信、微信等方式發(fā)送到相關(guān)技術(shù)和管理人員,以便能得到及時處理。在得到有效消除之前,循環(huán)性地發(fā)送,一直提醒。這樣根據(jù)日志級別進行分類處置,可以節(jié)省大量的運維工作,抓到最有效的日志,對迅速定位問題、消除故障非常有意義。
第三,在實際應(yīng)用中,會發(fā)現(xiàn)由于日志級別的不夠合理性,導(dǎo)致在故障出現(xiàn)時,并沒有看到有效的日志,這原因在于很多設(shè)備對日志的級別理解與數(shù)據(jù)中心是有差異的,不同的數(shù)據(jù)中心部署的業(yè)務(wù)和系統(tǒng)都有差異,每個數(shù)據(jù)中心關(guān)注的地方也許并不是設(shè)備本身所非常關(guān)心的,所以很多數(shù)據(jù)中心會設(shè)計一些有分析功能的日志分析軟件。從日志信息中提取關(guān)鍵字,根據(jù)這些關(guān)鍵字來判斷故障的嚴(yán)重性,再進行告警,這些關(guān)鍵字是與數(shù)據(jù)中心應(yīng)用密切相關(guān)的。比如數(shù)據(jù)中心的網(wǎng)絡(luò)部署的是OSPF協(xié)議,那么OSPF方面的日志都想了解,就將OSPF作為關(guān)鍵字,在日志信息中搜索,發(fā)現(xiàn)有OSPF字樣的就打印出來。還有一些日志分析軟件做得更為智能,可以做多次搜索,先找到OSPF字樣,再看看是否有Peer DOWN/UP字樣,如果有再給出告警,如果沒有搜索到關(guān)鍵字就不給出任何告警。
第四,設(shè)備日志很多時候也無法反映出設(shè)備問題,在沒有打印出日志告警下,故障依然發(fā)生了,所以還需要周期性到設(shè)備上采集一些更深入的信息判斷設(shè)備運行是否正常。很多設(shè)備商會提供很多設(shè)備故障的信息,比如一些軟件、硬件運行異常,這些往往要通過很多內(nèi)部命令采集信息才能確認(rèn),數(shù)據(jù)中心可以根據(jù)設(shè)備商提供的方法,通過日志工具周期性地到設(shè)備上通過命令采集需要的信息,采用根據(jù)收集的信息判斷設(shè)備運行情況,這樣往往可以發(fā)現(xiàn)很多日志無法暴露出的問題。還有很多日志分析工具做得更加智能化,可以根據(jù)收集的相應(yīng)信息,到故障設(shè)備上自動執(zhí)行一些恢復(fù)指令,如果無效還可以執(zhí)行業(yè)務(wù)切換,將業(yè)務(wù)切到備用系統(tǒng)上來,真正實現(xiàn)自動管理。運維的人員只需要在故障發(fā)生并恢復(fù)之后,查看歷史日志和操作記錄就可知道曾經(jīng)發(fā)生過什么,并針對出現(xiàn)過的問題,數(shù)據(jù)中心哪里有不足的地方進行優(yōu)化,對可能是某臺設(shè)備發(fā)生了硬件故障,就后續(xù)及時將設(shè)備進行更換,避免持續(xù)對業(yè)務(wù)造成影響。
對數(shù)據(jù)中心日志的分析是逐步完善的過程,當(dāng)每次故障解決后,都要回頭看,是否是通過日志分析能找到問題原因,如果不是,就需要將相應(yīng)的檢查信息加入到日志分析軟件中來,萬一問題再次出現(xiàn),下一次一定可以通過日志定位并解決問題。如果能將日志充分利用起來,一定可大大縮短數(shù)據(jù)中心故障處理和恢復(fù)的時間,減少數(shù)據(jù)中心的經(jīng)濟損失,提升數(shù)據(jù)中心的運維水平。