精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:數據中心技術專區 → 正文

數據中心運維祖訓“沒有折騰,就沒有故障”

責任編輯:cres 作者:harbor |來源:企業網D1Net  2018-05-21 10:12:52 原創文章 企業網D1Net

“沒有折騰,就沒有故障”這句話雖糙,但卻很有道理,尤其在運維上。據有關咨詢機構統計,數據中心的故障中有百分之七十是人為故障,也就是與人的活動強相關,可見人對于數據中心來說是多么可怕。人為故障其中也可以分為有意的和無意的。有意的是指明知道一些操作會造成數據中心故障,仍執意去做的,這些人往往希望通過造成數據中心運行癱瘓,而達到不可告人的目的,這種故障占到了人為故障的80%,剩余的就是無意的。數據中心本身是一個復雜龐大的系統,運維的人員不可能面面俱到都精通所有技術細節,當接觸到自己不熟悉或不了解的地方,操作易引發意想不到的結果。還有不少的設備,軟件質量不高,反復操作下發就容易引發軟件問題,從而造成業務中斷。這種情況在數據中心里還不少見,數據中心里設備成千上萬,數量龐大,動一動問題就來了,所以運行穩定的數據中心不要輕易去改動,就讓它自己處于最佳狀態去運行下去。
 
眾所周知,但凡遇到一些重大節日和活動,大型的數據中心都會進行封網,停止一切操作和活動行為,目的就是為了減少故障發生,將人為操作風險降低,將觸發BUG的風險降低。這種方式行之有效,除了可能出現一些硬件故障外,幾乎很少發生其它類問題。我們都知道烏龜的壽命很長,活上幾百年輕飄飄的,就是因為烏龜很少動,移動緩慢,這大大延長了它的生存壽命。數據中心運維也喜靜不喜動,少動慎動,這能最大程度減少故障發生。金融銀行業的數據中心對可靠性要求很高,為了避免出故障,銀行的數據中心內部制定了嚴格的操作制度,所有的操作都要遵守統一規范,任何命令的下發和變更都要經過行里提前審核,甚至在模擬環境中驗證過沒問題,才開始到現網中去實施操作,銀行業的數據中心操作最為規范,使得數據中心的可靠性也最高。
 
不過,為了快速響應業務需求和提高資源利用率,運維又不得不頻繁折騰,不動基本做不到。一個數據中心可能每周晚上都有安排變更,還有設備軟件升級、配置優化、設備替換等工作,數據中心總是有沒完沒了的變更操作,這樣不可避免地在操作過程中出現一些新問題,導致數據中心總是無法穩定下來,業務經常受到影響,這其實就違背了運維祖訓的宗旨。數據中心里需要的技術知識太多,涵蓋多個學科幾十個門類,沒有誰能全部掌握,完全掌握一門都很難,這時制定相應的操作,受限知識面,總會有考慮不周的地方,一旦有漏掉就可能在操作過程中產生問題。對于變更操作,任何人都沒有絕對的把握,凡事都可能有意外,就像是做手術,再小的手術也是有風險的,也要家屬簽字,萬一出了事故手術操作者能免責。
 
既然不能避免折騰,那就想辦法不讓折騰出問題。首先要分治。分治就是把風險高的和風險低的分開、重要性高的和不高的分開、簡單的和復雜的分開、頻繁變動的和不頻繁的分開。歸根到底都在做兩件事:封裝復雜度、隔離變化。運維架構層的分治,在業界已經非常普遍了,比如應用服務器和數據庫服務器分離、交易數據庫和用戶數據庫分離,生產環境和測試環境隔絕。數據中心是有很多小系統組成的,相互之間要松耦合,最好是隔離的,這樣一個小系統故障,影響是局部的,不會影響全局。其次是管人。要減少人為折騰出的故障,就要加強對人的約束和管理。不同技術等級的人能做的操作權限是不同的,一個新手要上線操作,必須要由老工程師來指導。要制定詳細的人員管理規章制度,對運維的人員形成約束力,對運維的人員進行考核、監控、管理,增強運維人員工作的責任心,有獎有罰。制定嚴格的各項規章制度,一般的數據中心都需要24小時常年不間斷向外提供服務,所以要給數據中心人員充分的休息時間,按時的上下班,避免長時間工作、疲勞工作,減少出錯概率。第三是管事。當數據中心需要變更和優化操作時,需要運維團隊的人員進行整體討論,對預知的風險進行分析,確保操作不會對運行業務造成影響。每個變更都是整個技術團隊的討論通過做出的決定,而不是個人的行為,這樣能將技術性人為故障降到最低。要制定好回退方案,一旦出現異常情況立即回退,事后將原因分析情況后再進行二次變更。畢竟運維的人員都不是專業搞設備的,對設備內部處理和實現并不見得很清楚,重大的變更操作可以邀請設備廠家的技術人員參與和支持,降低操作錯誤的風險。每次操作都要做好充分準備,必要的模擬演練、提前的業務搬移、緊急通道的準備等都需要,這樣才能降低故障發生的風險。
 
“沒有折騰,就沒有故障”是金口良言,聽上去很有道理,實際卻很難做得到。數據中心本就是一個數據高速流動的場所,業務需求時時都在變化,為了滿足業務部署和發展的需求,不讓對數據中心變更、折騰,根本就是做不到,“沒有折騰”只是一種理想的狀態罷了。不過,的確是應該最大限度地去主動降低數據中心操作頻率,盡量少動,這樣可極大降低故障發生概率。人是數據中心活動中的最重要因素,沒有人的參與哪里來的數據中心,而偏偏人也同時給數據中心帶來成長的煩惱,人在運維的過程中作用依然舉足輕重。作為數據中心的運維人,要時刻牢記祖訓。
 
版權聲明:本文為企業網D1Net原創,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。

關鍵字:數據中心

原創文章 企業網D1Net

x 數據中心運維祖訓“沒有折騰,就沒有故障” 掃一掃
分享本文到朋友圈
當前位置:數據中心技術專區 → 正文

數據中心運維祖訓“沒有折騰,就沒有故障”

責任編輯:cres 作者:harbor |來源:企業網D1Net  2018-05-21 10:12:52 原創文章 企業網D1Net

“沒有折騰,就沒有故障”這句話雖糙,但卻很有道理,尤其在運維上。據有關咨詢機構統計,數據中心的故障中有百分之七十是人為故障,也就是與人的活動強相關,可見人對于數據中心來說是多么可怕。人為故障其中也可以分為有意的和無意的。有意的是指明知道一些操作會造成數據中心故障,仍執意去做的,這些人往往希望通過造成數據中心運行癱瘓,而達到不可告人的目的,這種故障占到了人為故障的80%,剩余的就是無意的。數據中心本身是一個復雜龐大的系統,運維的人員不可能面面俱到都精通所有技術細節,當接觸到自己不熟悉或不了解的地方,操作易引發意想不到的結果。還有不少的設備,軟件質量不高,反復操作下發就容易引發軟件問題,從而造成業務中斷。這種情況在數據中心里還不少見,數據中心里設備成千上萬,數量龐大,動一動問題就來了,所以運行穩定的數據中心不要輕易去改動,就讓它自己處于最佳狀態去運行下去。
 
眾所周知,但凡遇到一些重大節日和活動,大型的數據中心都會進行封網,停止一切操作和活動行為,目的就是為了減少故障發生,將人為操作風險降低,將觸發BUG的風險降低。這種方式行之有效,除了可能出現一些硬件故障外,幾乎很少發生其它類問題。我們都知道烏龜的壽命很長,活上幾百年輕飄飄的,就是因為烏龜很少動,移動緩慢,這大大延長了它的生存壽命。數據中心運維也喜靜不喜動,少動慎動,這能最大程度減少故障發生。金融銀行業的數據中心對可靠性要求很高,為了避免出故障,銀行的數據中心內部制定了嚴格的操作制度,所有的操作都要遵守統一規范,任何命令的下發和變更都要經過行里提前審核,甚至在模擬環境中驗證過沒問題,才開始到現網中去實施操作,銀行業的數據中心操作最為規范,使得數據中心的可靠性也最高。
 
不過,為了快速響應業務需求和提高資源利用率,運維又不得不頻繁折騰,不動基本做不到。一個數據中心可能每周晚上都有安排變更,還有設備軟件升級、配置優化、設備替換等工作,數據中心總是有沒完沒了的變更操作,這樣不可避免地在操作過程中出現一些新問題,導致數據中心總是無法穩定下來,業務經常受到影響,這其實就違背了運維祖訓的宗旨。數據中心里需要的技術知識太多,涵蓋多個學科幾十個門類,沒有誰能全部掌握,完全掌握一門都很難,這時制定相應的操作,受限知識面,總會有考慮不周的地方,一旦有漏掉就可能在操作過程中產生問題。對于變更操作,任何人都沒有絕對的把握,凡事都可能有意外,就像是做手術,再小的手術也是有風險的,也要家屬簽字,萬一出了事故手術操作者能免責。
 
既然不能避免折騰,那就想辦法不讓折騰出問題。首先要分治。分治就是把風險高的和風險低的分開、重要性高的和不高的分開、簡單的和復雜的分開、頻繁變動的和不頻繁的分開。歸根到底都在做兩件事:封裝復雜度、隔離變化。運維架構層的分治,在業界已經非常普遍了,比如應用服務器和數據庫服務器分離、交易數據庫和用戶數據庫分離,生產環境和測試環境隔絕。數據中心是有很多小系統組成的,相互之間要松耦合,最好是隔離的,這樣一個小系統故障,影響是局部的,不會影響全局。其次是管人。要減少人為折騰出的故障,就要加強對人的約束和管理。不同技術等級的人能做的操作權限是不同的,一個新手要上線操作,必須要由老工程師來指導。要制定詳細的人員管理規章制度,對運維的人員形成約束力,對運維的人員進行考核、監控、管理,增強運維人員工作的責任心,有獎有罰。制定嚴格的各項規章制度,一般的數據中心都需要24小時常年不間斷向外提供服務,所以要給數據中心人員充分的休息時間,按時的上下班,避免長時間工作、疲勞工作,減少出錯概率。第三是管事。當數據中心需要變更和優化操作時,需要運維團隊的人員進行整體討論,對預知的風險進行分析,確保操作不會對運行業務造成影響。每個變更都是整個技術團隊的討論通過做出的決定,而不是個人的行為,這樣能將技術性人為故障降到最低。要制定好回退方案,一旦出現異常情況立即回退,事后將原因分析情況后再進行二次變更。畢竟運維的人員都不是專業搞設備的,對設備內部處理和實現并不見得很清楚,重大的變更操作可以邀請設備廠家的技術人員參與和支持,降低操作錯誤的風險。每次操作都要做好充分準備,必要的模擬演練、提前的業務搬移、緊急通道的準備等都需要,這樣才能降低故障發生的風險。
 
“沒有折騰,就沒有故障”是金口良言,聽上去很有道理,實際卻很難做得到。數據中心本就是一個數據高速流動的場所,業務需求時時都在變化,為了滿足業務部署和發展的需求,不讓對數據中心變更、折騰,根本就是做不到,“沒有折騰”只是一種理想的狀態罷了。不過,的確是應該最大限度地去主動降低數據中心操作頻率,盡量少動,這樣可極大降低故障發生概率。人是數據中心活動中的最重要因素,沒有人的參與哪里來的數據中心,而偏偏人也同時給數據中心帶來成長的煩惱,人在運維的過程中作用依然舉足輕重。作為數據中心的運維人,要時刻牢記祖訓。
 
版權聲明:本文為企業網D1Net原創,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。

關鍵字:數據中心

原創文章 企業網D1Net

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 定西市| 五常市| 武汉市| 松原市| 大同县| 岢岚县| 景德镇市| 道孚县| 宣武区| 安徽省| 海门市| 游戏| 桦甸市| 化隆| 宜章县| 明水县| 宜君县| 闽侯县| 赤峰市| 高碑店市| 衡南县| 金沙县| 隆子县| 庆城县| 城固县| 麟游县| 扎囊县| 徐闻县| 宣城市| 盘锦市| 临江市| 彝良县| 烟台市| 额敏县| 汝阳县| 白水县| 高雄县| 沙河市| 当涂县| 新田县| 武汉市|