數據中心是信息處理的重要場所,里面的設備承載著很多重要的業務,對連續穩定運行都有很高要求。可是業務的運行還是要靠成千上萬臺的電子設備穩定運行來保證,為了確保這些設備運行不出問題,或者出了問題也讓業務層面感知不到,數據中心運維的技術人員想了很多辦法,有些還逐漸成為了行業運維的標準,很多數據中心都效仿和執行。其實,有時技術人員做這些不成文的規定也是實屬無奈,根本目的還是為了保證數據中心業務的連續穩定運行。業務中斷對于數據中心都是天大的事兒,業務中斷的損失很多都是以秒來計費,所有的規定都是為數據中心服務的。那我們就來看看,運維的工作都有哪些好玩的不成文規定。
重大節假日必封網
每逢重大節假日來臨,各大網絡運營商,重要行業企業等的數據中心紛紛進行封網。所謂封網,就是停止一切對數據中心的人為操作和業務變更,讓設備自己運行,不進行人工干預。封網并不是減少人員的值班,而是要加強人員的值守,確保數據中心運行不出問題,若出問題也及時處理和消除。此時封網可以減少一些人為故障,要知道百分之八十的故障都是人為操作產生的,不去動它反而是最安全的。誰也不想在關鍵時刻自己的數據中心掉鏈子,出風頭,就像馬上要召開的十九大,現在所有主流的數據中心都已經封網,不再允許做任何的網絡變更操作(設備出現故障的除外),有的數據中心機房甚至已經上鎖,無人可以進得去。這項制度也是數據中心在運維的工作中摸索出來的,從以往的歷史經驗看,只要減少人為干預,讓設備自己運行,出現問題概率會大大下降,所以在關鍵時期堅決不做任何變更操作,就讓數據中心自行運行,發生故障的概率最低。
定期重啟設備
我們的手機如果用久了速度會變慢,如果重啟一下再用會發現好很多。其實對于數據中心里的設備也是這樣,數據中心里的設備常年不中斷運行,運行時間久了,各種內存垃圾,各種軟件BUG就容易暴露出來,設備出問題的風險隨之增加,定期對設備進行重啟,將有助于減少故障的發生,延長設備使用壽命。如果設備上業務沒有備份,重啟設備可能對業務造成影響。所以,在重啟設備前要做好評估,避免主動重啟給業務造成影響。如果重啟一次設備對業務造成的中斷時間可以接受,那么可以定期,比如半年或一年對設備主動進行一次重啟,如果設備使用的軟件版本較老,也可以借此進行軟件升級,不要認為重啟了設備就是一件很丟人的事情。這就像馬拉車,走的時間久了,馬也需要休息一下。有的數據中心每年都做一兩次的故障模擬演練,這其中就包括對設備的重啟,來檢查數據中心系統的穩定性和冗余性,有這個演練就很好,不僅可以讓設備臨時休息一下,也可以及時發現數據中心運行的漏洞,進行修補。千萬不要被動等出了嚴重問題時,再考慮重啟設備恢復,這時往往會給業務造成嚴重損失。
加強對設備操作管理
數據中心里有很多設備,不同的設備來自不同的廠家,使用的功能也不同,對這些設備的操作人員要進行嚴格管理。避免不熟悉設備的人誤操作設備,這些人為故障數不勝數。所以一定要對訪問設備的權限做控制,不同的設備由不同的人來管理,由最熟悉它的人來控制。對于一些設備變更操作,要提前做評估,配置是否符合規范,是否有已知風險,讓設備廠商也參與到變更操作中來,以防出現變更未達預期的情況出現。數據中心對登錄設備管理非常嚴格,對不同的人員都有不同的權限要求,如果需要申請相應更高訪問權,需要到高級領導那里去申請,并且將操作的理由和原因說清楚,這是數據中心運維管理工作的重要組成部分。
隔離/離線/重啟三把斧
數據中心運行過程中出現故障,第一時間就是恢復業務,定位故障原因是其次,所以運維人員處理故障時,首先要明確故障位置,如果短時間內無法完全明確,也要嘗試進行恢復業務的操作,這時常用的就是這三把斧:隔離、離線、重啟。這三把斧都是針對具體設備的,因為數據中心故障都是來自具體設備,穩定運行過程中出了故障基本都是其中某個或某些設備出問題了。隔離就是只根據業務故障的范圍,對故障的設備端口、VLAN或流量進行切換,切換到其它正常的通道上來,如果故障范圍無法明確這些細,就考慮對設備盡心離線,即將設備下線,整個設備的業務切換到其它設備上來,比如某個服務器業務異常了,將這個服務器上的虛擬機遷移到其它服務器上來,盡快恢復業務。有時,設備之間沒有備份無法進行離線處理,比如一些核心的網絡設備,離線需要做大量的業務切換工作,這時就考慮對設備進行重啟了,看重啟能否恢復,一般運行異常的設備通過重啟基本都能恢復,在短時間內繼續正常運行,這樣為分析問題原因贏得了寶貴時間。一方面繼續分析原因,一方面讓數據中心業務正常運行下去,找到問題原因后,再將隱患補救。
數據中心運維人員在日常的工作中逐漸摸索出了很多經驗,這些都是一個個血的教訓換來的,是數據中心的寶貴財富。有些規定雖然沒有太深的技術支撐,但卻非常實用,這些也是運維人員面對數據中心故障時想到的辦法。俗話說“話糙理不糙”,這些不成文的規定看似簡陋,關鍵時刻卻非常管用。
版權聲明:本文為企業網D1Net原創文章,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。