數據中心如何在關鍵時期,做好保障工作呢?俗話說:“養兵千日用兵一時”,大戰在即才想到練兵那是不行的,平日里就要做好練習才行。數據中心在關鍵時期運行能否穩定,需要的是平時一點點的積累。在數據中心日常運維的工作中,就要對數據中心的運行狀態深入了解,關注數據中心里所有設備的運行情況,有隱患及時消除,不能等遇到重大事件前才去搞突擊檢查,這樣必然有漏網之魚,將數據中心置于風險之中。當然,在重大事件發生之前,要做好比平時更密集和認真的檢查是需要的。“冰凍三尺非一日之寒”,數據中心要想做好重保,平時也要多下功夫才行,時刻保持一顆如履薄冰的心態,將平日的小問題或故障作為預演,每次處理都要認真總結經驗,做好技術儲備和積累,沒有實踐就沒有發言權,只有經過數次的歷練才能在關鍵事件中遇事不慌,做好應對一切突發事件處理的能力,這些經驗和能力就是來自平日里的學習和經驗積累,“羅馬不是一天建成的”。
不能打無準備之戰,數據中心一旦進入重保時間之前要做充分的前期準備工作。相比以往,要配備更多的值守人員,增加巡檢次數和頻率,將數據中心的精銳技術力量都要投入到重保中來,根據事件的不同,數據中心靈活做出應對,在不同的方面進行加強。同時對數據中心在重保期間可能出現的突發情況進行預估,比如流量洪峰、突發流量、設備故障、供水供電中斷等等,根據可能出現的異常,制定相應的應急措施。在重保開始之前,要盡可能地進行一些故障演練,通過演練及時發現問題,進行修補,不要讓這些應急方案成為擺設,關鍵時候不起作用。只有準備得充分,重保期間才會輕松。重保還要做好物資準備,主要包括通信裝備、電源設備、輔助設備、后勤保障設備和個體保護設備等應對突發事件所需要的物資,因為這些物資基本只是在重保期間可能會用到。應急物資要科學規劃,既要起到備份作用,又要避免鋪張浪費。
一旦數據中心進入重保時間段,一定要禁止一切的業務變更和操作,嚴格管理訪問數據中心控制,對不同技術人員開放不同層級的設備查看命令,嚴禁使用配置更改命令。數據中心所有人員活動和工作日志都記錄下去,做日后查看或者發生故障后回看。其實,在重保期間,所有技術人員的工作反到輕松得很,只要靜靜觀察數據中心各種運行參數就行。重保時間段內,沒有出現故障,整個重保過程還是相對輕松的。只要前期的準備工作做足,這時反倒沒有什么特別的事情了。還有,如果在重保期間,業務發生了故障,是不會留給技術人員時間去分析故障原因的,而是立即啟動應急措施,以恢復業務為主,事后到重保結束后,再去分析故障的成因。在重保期間,減少了人為活動,反而可以減少人為故障的發生,要知道數據中心里的故障多半都來自人為。重保期間需要加強的就是檢查的頻率和時長,安排技術經驗豐富的人員坐鎮,每個小的隱患點都不要放過,及時消除,避免引發大面積的故障。加強人力的安排,從普通操作員到資深架構師都要參與其中,為重保出力。
重保時間結束后,數據中心的一切活動又恢復了正常,這時還沒有完結。要及時對這次重保工作進行總結,做得好的地方和人員要表揚,做得差的和不足地方要批評和改進。參加了重保工作的人員要有經驗進行輸出,供其它人學習使用,要將重保所取得的成果進行展示。根據重保經驗,對之前制定的各項重保措施進行修改和調整。重保是對數據中心工作成效的一次全面檢驗。如果數據中心在重保期間出問題,平時工作做得再好也沒有用,一定要抓好數據中心的重保工作,只有經歷過多次重保大戰的數據中心,才能不斷提升自己的管理和技術水平。在重保期間表現優良的數據中心也必將得到人們的青睞,人們才會更愿意使用這樣的數據中心,數據中心務必要打好重保的戰役。
版權聲明:本文為企業網D1Net原創,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。