如今,數(shù)據(jù)中心越來(lái)越趨于自動(dòng)化,并已成為數(shù)據(jù)中心良好運(yùn)營(yíng)的強(qiáng)大力量。以下列出在數(shù)據(jù)中心監(jiān)控自動(dòng)化中經(jīng)常出現(xiàn)的兩個(gè)主要問(wèn)題。
問(wèn)題1:房間里的大象
“房間里的大象”是指人們私密生活和公共生活中對(duì)于某些顯而易見(jiàn)的事實(shí),集體保持沉默的社會(huì)現(xiàn)象。人們?cè)谶M(jìn)一步深入自動(dòng)化之前,無(wú)論是自動(dòng)發(fā)現(xiàn),報(bào)告交付或警報(bào)觸發(fā)操作,必須做出一個(gè)關(guān)鍵點(diǎn):在某些方面,它被稱(chēng)為DPR周期。DPR代表檢測(cè),預(yù)防和響應(yīng)。
警報(bào)是工作人員在發(fā)生錯(cuò)誤時(shí)捕獲錯(cuò)誤的方式,但是由數(shù)據(jù)中心工作人員來(lái)決定它們發(fā)生的原因,并找到一種防止錯(cuò)誤再次發(fā)生的方法。當(dāng)構(gòu)建一個(gè)解決方案以自動(dòng)響應(yīng)警報(bào)并進(jìn)行修復(fù)時(shí),作為負(fù)責(zé)任的數(shù)據(jù)中心專(zhuān)業(yè)人員,還應(yīng)該致力于分析情況的艱苦工作,以找到模式和根本原因。然后需要解決根本原因,并創(chuàng)建檢查,以便知道是否再次出現(xiàn)問(wèn)題。
對(duì)警報(bào)的自動(dòng)響應(yīng)保持企業(yè)的業(yè)務(wù)在所有的時(shí)間運(yùn)行,并幫助確保知道你需要的時(shí)間,工作人員必須能夠看到發(fā)生了什么,做的工作出來(lái)為什么會(huì)發(fā)生,所以可以防止它在將來(lái)發(fā)生。這樣才不會(huì)出現(xiàn)“房間里的大象”問(wèn)題。
問(wèn)題2:內(nèi)心恐懼
許多數(shù)據(jù)中心專(zhuān)業(yè)人員在第一次提出自動(dòng)響應(yīng)警報(bào)的想法時(shí)感到擔(dān)心。而具有一個(gè)真正有活力的大腦的人會(huì)對(duì)這些警報(bào)進(jìn)行仔細(xì)思考,然后謹(jǐn)慎采取行動(dòng)。這種想法就像站在“自動(dòng)化”海洋的邊緣。有點(diǎn)令人望而生畏。但你必須相信不會(huì)被海水淹死,并且有能力一步步地嘗試。這并不是一個(gè)全有或全無(wú)的命題,其風(fēng)險(xiǎn)也將會(huì)從零到全部。
與任何IT工作一樣,有實(shí)施計(jì)劃有時(shí)比實(shí)施(或在這種情況下是自動(dòng)化)本身更重要。所以可以再談?wù)勥@個(gè)實(shí)施計(jì)劃:
·首先識(shí)別測(cè)試機(jī)器。無(wú)論是為這些目的而部署的實(shí)驗(yàn)室設(shè)備還是那些不太重要的志愿者,請(qǐng)?jiān)O(shè)置警報(bào),以便觸發(fā)這些機(jī)器。
·學(xué)習(xí)使用反向閾值。雖然企業(yè)的最終警報(bào)將檢查CPU的工作負(fù)載量大于90%,工作人員可能希望避免反復(fù)測(cè)試。而CPU的工作負(fù)載量小于90%將觸發(fā)更多的可靠性,至少工作人員希望如此。
·查找復(fù)位選項(xiàng)。與上面密切相關(guān),了解數(shù)據(jù)中心監(jiān)控工具如何重置警報(bào),以便再次觸發(fā)。也許很可能會(huì)很多使用那個(gè)功能。
·詳細(xì)情況。數(shù)據(jù)中心工作人員想要了解發(fā)生什么和什么時(shí)候可能發(fā)生。如果數(shù)據(jù)中心的工具支持自己的日志記錄,請(qǐng)將其打開(kāi)。在自動(dòng)化中大量插入“我現(xiàn)在開(kāi)始XYZ步驟”消息。雖然很乏味,但你會(huì)很高興所做到的事情。
·自己處理警報(bào)。如果你認(rèn)為會(huì)通過(guò)發(fā)送這些警報(bào)到服務(wù)器團(tuán)隊(duì)進(jìn)行測(cè)試,事實(shí)上,你并不會(huì)把它發(fā)送到任何團(tuán)隊(duì),而會(huì)認(rèn)為自己可以處理這些警報(bào)。
·你真的不需要通過(guò)電子郵件觸發(fā)那些警報(bào)。所有這一切都是在基礎(chǔ)設(shè)施上造成額外的延遲和壓力,以及如果你的警報(bào)同時(shí)啟動(dòng)多個(gè)消息,可能會(huì)產(chǎn)生其他問(wèn)題,會(huì)將消息發(fā)送到本地日志文件和顯示屏。
·分享警報(bào)提醒。現(xiàn)在,你可以通過(guò)對(duì)話(huà)與小組的其他人分享警報(bào)提醒。
·采用對(duì)話(huà)。這個(gè)過(guò)程將涉及與其他人交談。設(shè)置自動(dòng)化是協(xié)作的,因?yàn)槟愫湍切┟刻於荚谝黄鸸ぷ鞯娜硕紤?yīng)該同意從基本功能到消息格式的一切。
·將相位器設(shè)置為滿(mǎn)。一旦自動(dòng)化在企業(yè)的測(cè)試系統(tǒng)上工作,計(jì)劃通過(guò)分階段的方法實(shí)施。使用相同的機(jī)制,你用來(lái)限制幾個(gè)警報(bào),你向網(wǎng)絡(luò)擴(kuò)展,也許10-20個(gè)系統(tǒng)。并且你再次測(cè)試觀察結(jié)果。然后你擴(kuò)大到50個(gè)左右。確保你和收件人都很滿(mǎn)意所看到的結(jié)果。記住,在這一點(diǎn)上,團(tuán)隊(duì)正在接收常規(guī)警報(bào),但你仍然應(yīng)該看到之前提到的詳細(xì)消息。你應(yīng)該與團(tuán)隊(duì)進(jìn)行審查,以確保你認(rèn)為發(fā)生的是真正發(fā)生的事情。
遵循這些指南,任何自動(dòng)響應(yīng)應(yīng)該有很高的成功機(jī)率,或者至少你會(huì)避免陷入糟糕的自動(dòng)化,不會(huì)產(chǎn)生太多的損害。采用自動(dòng)化的一個(gè)很好的經(jīng)驗(yàn)法則是用最小的努力獲得最大的回報(bào)。無(wú)論你現(xiàn)在看到的是什么基于系統(tǒng)的事件,這可能是你可以獲得的最大影響。另一個(gè)找到自動(dòng)化想法的辦法就是聆聽(tīng)團(tuán)隊(duì)的想法,考慮是否有哪些用戶(hù)投訴是由系統(tǒng)故障驅(qū)動(dòng)的。如果是這樣,它可能是解決自動(dòng)化出現(xiàn)問(wèn)題的機(jī)會(huì)。最后,不要計(jì)劃得太遠(yuǎn)。你可能現(xiàn)在感到擔(dān)心在獲得一兩個(gè)成功之后,你會(huì)發(fā)現(xiàn)團(tuán)隊(duì)正在尋求你的建議,以你的方式獲得幫助。