一個(gè)有效的監(jiān)控方案對(duì)于數(shù)據(jù)中心網(wǎng)絡(luò)維護(hù)顯得至關(guān)重要,在某種程度上是因?yàn)閿?shù)據(jù)中心在大部分時(shí)間里往往處于無(wú)人管理的狀態(tài)。多年來(lái),我曾在許多數(shù)據(jù)中心工作,根據(jù)我的經(jīng)驗(yàn),基本上不會(huì)有人被派來(lái)專門盯著數(shù)據(jù)中心等候問(wèn)題出現(xiàn)。事實(shí)上,可能也不會(huì)有人長(zhǎng)時(shí)間地待在數(shù)據(jù)中心。畢竟,數(shù)據(jù)中心往往又冷又吵,因此網(wǎng)絡(luò)管理員更喜歡在其它的地方消磨時(shí)間。有時(shí),管理員的工作地點(diǎn)甚至可能與數(shù)據(jù)中心不在同一幢大樓內(nèi)。一家大型保險(xiǎn)公司的數(shù)據(jù)中心就像一個(gè)地下倉(cāng)庫(kù)。雖然數(shù)據(jù)中心是精心打造的,但只有保安人員定期在那里工作,其他人都在距此幾英里之外的另外一棟大樓內(nèi)工作。
無(wú)論管理員是在數(shù)據(jù)中心大樓內(nèi)還是在幾英里外的地方工作,都必須配置一套有效的警報(bào)機(jī)制。你不能只是設(shè)想恰巧有人走進(jìn)數(shù)據(jù)中心并注意到控制臺(tái)屏幕上顯示了一個(gè)即將出現(xiàn)的問(wèn)題。這就是為什么確保有一個(gè)良好的網(wǎng)絡(luò)管理和監(jiān)控方案是如此重要的原因所在。如果沒(méi)有,那可能只有當(dāng)報(bào)警鈴聲響起時(shí)我們才會(huì)意識(shí)到出了問(wèn)題。
需要監(jiān)控什么?
數(shù)據(jù)中心有很多不同的東西需要監(jiān)控,因此我們需要制定大量的數(shù)據(jù)中心監(jiān)控規(guī)劃。有些人很可能認(rèn)為數(shù)據(jù)中心監(jiān)控就是一直密切地觀察服務(wù)器的運(yùn)行,但實(shí)際操作要復(fù)雜得多。
除了服務(wù)器操作系統(tǒng)和應(yīng)用程序之外,還有很多其它的因素需要我們進(jìn)行監(jiān)控。比如,對(duì)數(shù)據(jù)中心溫度的觀察也很重要。大多數(shù)服務(wù)器都配有內(nèi)置安全機(jī)制,當(dāng)服務(wù)器的溫度超出某個(gè)特定值并且可能損壞服務(wù)器時(shí),它就會(huì)讓服務(wù)器停機(jī)。一個(gè)好的監(jiān)控解決方案必須能夠及時(shí)報(bào)告數(shù)據(jù)中心環(huán)境的溫度,同時(shí)還應(yīng)該能夠在任何一臺(tái)服務(wù)器的溫度開(kāi)始接近臨界水平時(shí)向我們發(fā)出警報(bào)。
電源管理方面的情況也是類似的。當(dāng)發(fā)生電源中斷時(shí),通常來(lái)講備用電源會(huì)保持服務(wù)器在預(yù)先設(shè)定的時(shí)間范圍內(nèi)正常運(yùn)行。更加復(fù)雜的數(shù)據(jù)中心也可能會(huì)依賴備用發(fā)電機(jī)。在任何情況下,我們都必須關(guān)注能源中斷現(xiàn)象,我們也必須知道在任意給定時(shí)間中需要多少備用電源。
一個(gè)好的監(jiān)控解決方案必須能夠提醒我們關(guān)注服務(wù)器硬件問(wèn)題、操作系統(tǒng)故障、應(yīng)用故障、網(wǎng)絡(luò)硬件故障和環(huán)境問(wèn)題。這可以說(shuō)是一個(gè)苛刻的要求,同時(shí)這也是為什么說(shuō)適當(dāng)?shù)囊?guī)劃至關(guān)重要的原因之一。據(jù)我所知,沒(méi)有一個(gè)監(jiān)控解決方案可以同時(shí)執(zhí)行所有這些功能。一般來(lái)講,網(wǎng)絡(luò)架構(gòu)師需要同時(shí)購(gòu)置幾種監(jiān)控解決方案,并且將它們都安裝在系統(tǒng)上以發(fā)揮警報(bào)作用。這個(gè)警報(bào)可以以文本信息的形式發(fā)送到管理員的移動(dòng)通信設(shè)備上,或者以郵件的形式發(fā)送到服務(wù)臺(tái),或是以其它警報(bào)形式提醒管理員。重要的一點(diǎn)是所有的警報(bào)最終都必須被匯集到一個(gè)地方。
虛擬化技術(shù)使數(shù)據(jù)中心網(wǎng)絡(luò)監(jiān)控變得復(fù)雜化
當(dāng)我們采購(gòu)監(jiān)控解決方案時(shí),我們必須銘記這其中有許多因素需要考慮,比如說(shuō)虛擬化,它會(huì)使監(jiān)控過(guò)程變得復(fù)雜化。例如,市場(chǎng)上有各種不同的可以監(jiān)控服務(wù)器硬件失效信號(hào)的監(jiān)控應(yīng)用軟件。諸如此類的應(yīng)用可以監(jiān)控到過(guò)高的服務(wù)器溫度、SMART磁盤警報(bào)、甚至是服務(wù)器制冷電扇的失效。但問(wèn)題在于,如果監(jiān)控解決方案并不知道它是在監(jiān)控一臺(tái)虛擬服務(wù)器,它可能就無(wú)法監(jiān)控到會(huì)潛在影響服務(wù)器可用性的硬件問(wèn)題。
監(jiān)控軟件應(yīng)該可以找出主機(jī)服務(wù)器硬件的問(wèn)題。但是,當(dāng)主機(jī)存在風(fēng)險(xiǎn)時(shí),任何運(yùn)行在主機(jī)上的虛擬機(jī)有可能也會(huì)存在風(fēng)險(xiǎn)。因此,當(dāng)使用虛擬機(jī)時(shí),我們需要有一種方法來(lái)區(qū)分物理服務(wù)器和虛擬服務(wù)器,并且知道哪些虛擬機(jī)是在哪些主機(jī)服務(wù)器上運(yùn)行。同時(shí),當(dāng)發(fā)生硬件問(wèn)題時(shí),我們還必須能夠快速地將客戶機(jī)轉(zhuǎn)移到其它主機(jī)服務(wù)器上。
最后要說(shuō)的是,管理和監(jiān)控是同步進(jìn)行的。只有管理能力到位才可以實(shí)現(xiàn)良好的監(jiān)控,特別是當(dāng)員工不在現(xiàn)場(chǎng)工作的情況下。例如,當(dāng)管理人員無(wú)法及時(shí)到達(dá)出現(xiàn)故障的服務(wù)器來(lái)阻止事故發(fā)生,如果監(jiān)測(cè)軟件可以告知我們將有重大故障出現(xiàn),這該有多好?這就是說(shuō)能夠監(jiān)控每臺(tái)數(shù)據(jù)中心服務(wù)器和硬件核心部件并與它們實(shí)現(xiàn)遠(yuǎn)程交互是如此重要的原因所在。