一般的數據中心運維都是在出了事之后去解決,這叫做“遇病治病”。這時候已經影響了數據中心業務的正常運行,已經給數據中心造成了損失,這樣運維的工作是失敗的。隨著數據中心網絡的擴大,業務需求的增加,這樣運維的方式對數據中心發展不利。還好已經有越來越多人意識到這點,于是很多數據中心開始強調預防,這叫做“以預治病”,會預測出數據中心某個設備有問題就提前把它換掉,或者把存在隱患的薄弱環節進行鞏固,對現有系統進行不斷改造,消除一切可能存在的隱患點,以預防為主,這樣可以大大避免一些嚴重故障出現。比如數據中心網絡部分匯聚端口流量在高峰期,偶有帶寬跑滿的情況,這時就要及時增加設備或帶寬,避免對業務有影響;當部分服務器的CPU占用率超過50%,就要檢查服務器上承載的業務是否過重,優化服務器上的業務軟件,關停一些不必要運行的軟件;防火墻上的過濾規則是否過期,不斷增加一些新病毒攻擊流量類型的過濾,避免新的網絡病毒對數據中心造成傷害,這些預防性的防護可以有效減少故障的發生??墒羌偃缫粋€人體質本身就很弱,做再多的防護,也可能有摔倒的那一天,莫不如去積極鍛煉,提升自身體質,強身健體,避免摔倒,就算摔倒也可以很快爬起來,這就是“未病治病”,主動加強身體鍛煉。對于數據中心就是在數據中心建設之前,就要考慮到其未來數年甚至數十年的發展,使得數據中心具有強大擴展性;同時根據網絡狀況、業務承載狀況,設計完善的冗余、備份系統,使得整個數據中心可以高效運轉,堅決要求數據中心不帶“病”運行,只有整個數據中心所有系統都能高效、穩定運行,這樣建設的數據中心才能交付,才能進入到運維階段。在數據中心建設之前,就將未來可能遇到的問題都考慮盡量全面,數據中心設計為未來發展留有至少30%的空間,數據中心采用的技術,應可以實現向未來新技術平滑過渡的能力。
數據中心運維的真正目的,在于能真正做到“防患于未然”,當數據中心建成后,大的框架很難再做變化,尤其是數據中心帶有業務運行后,再去更改設備配置、升級軟件、變更都是非常麻煩的事兒,需要在對業務無影響下進行。有時改變對業務影響太大,根本無法實施。這也是要做到“未病治病”的真正意義。一旦數據中心建成投產后,運維的作用在于發現隱患,已經無法做到“未病治病”,只能做“以預治病”。通過各種運維的工具和手段,數據中心技術人員能夠及時了解到數據中心的運行狀態,一旦出現安全隱患,可以及時預警或者是以其他方式通知相關人員,讓技術人員有時間處理和解決,避免影響數據中心業務的正常使用,將一切問題的根本扼殺在搖籃當中,這種以防為主的運維理念得到越來越多人的認可,數據中心運維,應該主動地去預防,而不是坐等下一次故障的出現。
“以預治病”可不是說說那么簡單,這需要做大量的信息收集和診斷工作?,F在,在市面上就可以找到一些以采集數據為主的運維工具,可以在數據中心里通過部署一些這類的工具,通過這些工具可以獲得數據中心各個環節的運行參數,通過對這些參數進行綜合分析,找出薄弱環節,一一進行改進。數據中心的運行狀態是不斷變化,需要觀察這些參數變化,一旦出現偏離正常的數值,及時糾正。還要周期性對數據中心進行各種故障模擬和演練,通過這些演練找到現有系統中的缺陷,并進行改進,只要演練順利通過,避免真出了故障時,業務無法切換到備用系統中來,確保所有的備用系統都好用,隨時準備投入運行。主動地去預防,找出數據中心里隨時可能出現的隱患,避免小隱患造成大事故。運維的工具還是周期性地采集數據中心所有設備運行日志,一旦設備報出異常日志,運維的工具可以及時發現,并將信息發送給相關技術人員,等待處理,也可以通過提前設定好的執行程序,當發現異常日志,由運維的工具可以自動切換業務流經的端口、鏈路、設備、路由等等,將業務切換到備用系統上來,避免對業務造成影響。
數據中心運維的關鍵在于“防患于未然”,應該重點強調的是“防患于未然”中的“防”。在故障發生之前,將所有隱患都能發現,并在故障出現之前全部消除掉,這才是數據中心運維的真正目的。