長期穩(wěn)定高效運轉是所有數(shù)據(jù)中心追求的永恒目標,但要達到全年無休,無故障不間斷運轉是非常難的一件事,這是因為數(shù)據(jù)中心涉及的技術太多,包含各種復雜的系統(tǒng),各式各樣的電子設備,電子設備的可靠性本身就不是很高,要達到業(yè)務的穩(wěn)定運行,就需要增加很多監(jiān)控手段,當發(fā)現(xiàn)危險隱患時,及時糾正,避免給業(yè)務帶來無法挽回的損失。提到數(shù)據(jù)中心監(jiān)控,這又是一門包含諸多學科交叉的技術,本文將以獨特的視角來講述數(shù)據(jù)中心的監(jiān)控,看如何為數(shù)據(jù)中心增加一雙明眸亮眼。
數(shù)據(jù)中心的監(jiān)控可以分為三大部分。第一部分是應用業(yè)務的監(jiān)控,這部分最重要也最為復雜,數(shù)據(jù)中心能否長期穩(wěn)定運行,能否及時發(fā)現(xiàn)一些系統(tǒng)運行隱患,出現(xiàn)故障時能否及時找到問題原因并排除,所有這些問題都需要通過監(jiān)控技術來解決。對應用業(yè)務的監(jiān)控,實際上就是對各種設備運行狀態(tài)的監(jiān)控,從服務器、儲存、網(wǎng)絡甚至到防火墻等等設備都需要監(jiān)控,不同設備的監(jiān)控信息并不相同,根據(jù)設備廠家提供的日志信息,在數(shù)據(jù)中心部署一套或多套監(jiān)控服務器,周期性地到設備上采集日志信息,以便在發(fā)現(xiàn)隱患時及時發(fā)出告警,所以日志服務器是數(shù)據(jù)中心常用必備的“良藥”。當然,如果您認為只要有日志服務器監(jiān)控業(yè)務就萬事大吉了,那您就錯了。更多的時候,業(yè)務故障并不都能從日志信息反饋出來,尤其是系統(tǒng)級的問題,單單看每個設備運行都是良好的,但是將業(yè)務部署到這些設備上時,就會有問題,這些問題往往通過日志無法反映出來,這樣就需要網(wǎng)絡管理工具、數(shù)據(jù)分析工具、PING工具等等,這樣一系列不同層面的豐富手段來監(jiān)控。既然叫監(jiān)控,就有兩層含義,一個含義是監(jiān)視的意思,另外一個含義是控制的意思。不僅要對數(shù)據(jù)中心業(yè)務進行監(jiān)控,還要在發(fā)現(xiàn)異常的時候,自動采取一些控制措施,也就是監(jiān)控不僅能發(fā)現(xiàn)問題,還能夠具備解決問題的能力。這樣在數(shù)據(jù)中心業(yè)務監(jiān)控中,要把握好控制的力度,不能沒有也不能執(zhí)行過猛。比如:在網(wǎng)絡設備上經(jīng)常部署NQA功能,就是用PING、TCP等報文探測網(wǎng)絡連通性,當出現(xiàn)異常時執(zhí)行一定的動作,這時就要考慮探測要多久,多久中斷是業(yè)務層面能夠忍受的,還有就是一旦探測失敗,執(zhí)行何種級別的恢復動作,是切換路由還是重啟設備,是DOWN掉異常端口還是改變轉發(fā)路徑等等,這些都是數(shù)據(jù)中心需要慎重考慮的事情。數(shù)據(jù)中心業(yè)務層面的監(jiān)控包羅萬象,涉及到數(shù)據(jù)中心內(nèi)的所有設備,也可以說監(jiān)控屬于運維范疇,要知道數(shù)據(jù)中心運維市場是非常大的,很多數(shù)據(jù)中心廠商都視這一塊為肥肉,都想能盡量多分一杯羹。
第二部分是對環(huán)境的監(jiān)控。數(shù)據(jù)中心里的設備要長期穩(wěn)定運行,需要一個良好的環(huán)境,要知道這里的很多設備都是非常精密和昂貴的,對周圍環(huán)境要求條件也較為苛刻。早期的數(shù)據(jù)中心多采用人為周期性檢查的方式來完成對環(huán)境的監(jiān)控,如今基本實現(xiàn)了自動監(jiān)控,這通過在數(shù)據(jù)中心機房里安裝各種的傳感設備,實時將內(nèi)部的環(huán)境參數(shù)傳遞到監(jiān)控中心,由計算機軟件分析判斷是否正常,如果發(fā)現(xiàn)有超過設定閥值的時候,自動發(fā)出告警,通知到相關運維技術人員,以便及時采取措施。除了監(jiān)控環(huán)境,還可以監(jiān)控供電、放火、漏水等,通過對數(shù)據(jù)中心環(huán)境的監(jiān)控,為數(shù)據(jù)中心里的設備提供良好的運行環(huán)境。
第三部分是對人的監(jiān)控,人是數(shù)據(jù)中心里最為重要的一環(huán),即便是無人值守的數(shù)據(jù)中心,長期運行也離不開人。俗話說“成也蕭何,敗也蕭何”,數(shù)據(jù)中心離不開人,但是往往又是人給數(shù)據(jù)中心帶來了極大的麻煩。經(jīng)統(tǒng)計,以往發(fā)生過的數(shù)據(jù)中心故障,75%左右的都是人為操作事故,規(guī)模越大,越復雜的數(shù)據(jù)中心,人為故障越多。為了減少人為故障,就必須對人進行監(jiān)控。這包括對出入數(shù)據(jù)中心的人員進行嚴格管理,必須經(jīng)過數(shù)據(jù)中心主要領導批準后,才準進入;進入數(shù)據(jù)中心人員必須得穿戴防靜電衣帽,戴防靜電的手套才能觸碰設備;制定詳細的人為行為規(guī)范,對數(shù)據(jù)中心所有人員行為進行管理,形成良好的工作制度;訪問設備對不同級別的人開放不同的權限,每次訪問設備時,都要做好操作記錄,以便日后進行復查;在數(shù)據(jù)中心里的各個部分都要部署監(jiān)控設備,掌握到所有在里面活動的人員,一旦發(fā)現(xiàn)異常行為,及時進行制止。與此同時,還要對進出數(shù)據(jù)中心的設備、物品進行嚴格檢查,避免出現(xiàn)丟失,一個100G的光模塊就價值數(shù)萬,要通過監(jiān)控避免盜竊行為的發(fā)生。做好對人的監(jiān)控,往往可以消除掉一半以上的數(shù)據(jù)中心故障,大大提升了數(shù)據(jù)中心運行的穩(wěn)定性。
監(jiān)控就是給數(shù)據(jù)中心一雙明亮的雙眼,對數(shù)據(jù)中心運行的各個環(huán)節(jié)進行全面監(jiān)視,及早發(fā)現(xiàn)問題,并最終解決問題,這就是監(jiān)控存在的意義。做好數(shù)據(jù)中心的監(jiān)視,能夠有效減少故障的發(fā)生,減少數(shù)據(jù)中心的業(yè)務損失。不過,監(jiān)控是要數(shù)據(jù)中心投入大量資金的,越完善的監(jiān)控系統(tǒng),所要花費的資金越多,有很多數(shù)據(jù)中心運行良好,認為沒有必要將過多的資金投入到監(jiān)控中來,這樣做短時間內(nèi)是節(jié)省了不少的資金開支,但一旦發(fā)生故障帶來的損失很可能是災難性的,如果有完備的監(jiān)控系統(tǒng),就很可能在故障之前就發(fā)現(xiàn)問題了,從而及時解決掉,避免小問題最終演變成為大故障。為您的數(shù)據(jù)中心增加一雙監(jiān)控明眸吧!