當許多人在節(jié)假日進行玩樂,遠離工作的時候,數(shù)據(jù)中心的技術人員卻一直在努力確保數(shù)據(jù)中心以及其代表的一切業(yè)務安全無憂。此外,如果確實發(fā)生問題,人們要盡快找到問題所在,以便可以采取相應的行動。
為了實現(xiàn)這一目標,數(shù)據(jù)中心維護需要監(jiān)控系統(tǒng)、流程和人員。人們可能會認為這一切都是很到位的,但數(shù)據(jù)中心維護人員什么時候進行的最后一次測試?冗余水平是什么樣的?誰擁有代碼和備用鑰匙?如何知道警報系統(tǒng)失敗?將如何管理任何災難可能降臨的數(shù)據(jù)中心?這些問題都需要明確的答案。
數(shù)據(jù)中心監(jiān)控需要夜以繼日地持續(xù)進行,而不是確認過程記錄下來并訪問,但他們都知道在保護數(shù)據(jù)中心需要發(fā)揮其作用。這需要時間來檢驗。而這種軍事或航空公司飛行員將通過模擬方式來檢驗故障,數(shù)據(jù)中心工作人員的工作也采取同樣的方式。他們在節(jié)假日隨時待命。每個事件都有可能發(fā)生,工作人員應該知道要采取的步驟,而如果問題比最初想象的更糟或惡化,并超出工作人員的能力范圍的話,工作人員就應該了解更新升級的路徑。
毫無疑問,通過單個服務器和集群之間的故障切換測試,可以確保在數(shù)據(jù)崩潰或硬件故障時,數(shù)據(jù)中心繼續(xù)履行所有的服務,但是當數(shù)據(jù)中心電力中斷的故障發(fā)生時怎么辦?難道切換到發(fā)電機,通知工作人員關閉任何不必要的服務器?這些類型的測試應定期進行,而且還應當在正常運行進行連接測試。
最后的想法是,在數(shù)據(jù)中心正在使用的監(jiān)控系統(tǒng)中,更具體地說,應該了解它們是如何配置的。現(xiàn)在不是提出更換一個新系統(tǒng)的時候,但重要的是要檢查將觸發(fā)一個動作和警報是什么監(jiān)測的條件和參數(shù),
人們最好利用節(jié)假日這段時間充分評估監(jiān)控對企業(yè)的流程和IT問題“紅名單”。大多數(shù)人承認,檢查警報要選擇合適的人。而例如有人兩年前離開公司,卻仍然管理其監(jiān)控軟件,這是比較常見的。
最后,監(jiān)控軟件將會為工作人員帶來好消息。最好每天得到一個報告,知道一切狀況都很好,而不是只配置為與壞消息發(fā)送警報系統(tǒng)!如果監(jiān)控系統(tǒng)沉默則讓人害怕,因為你甚至是會擔心數(shù)據(jù)中心是否已經消失在一個排水孔中。
在節(jié)假日到來的時候,工作人員一定要確保監(jiān)控系統(tǒng)能夠正常運行。