精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

如何應對數據中心突發事件

責任編輯:editor004

作者:CC編譯

2017-03-31 10:40:45

摘自:機房360

摘要:數據中心運維團隊需能夠在沒有任何預警的情況下,能夠迅速、有效地應對突發狀況。例如:UPS冗余出現故障,發電機燃料用盡,UPS電池組故障等)  災難或緊急: - 導致系統嚴重損壞、停機,業務中斷或人身傷害的事件或情況。

數據中心運維團隊需能夠在沒有任何預警的情況下,能夠迅速、有效地應對突發狀況。對于不可預見的問題,故障、危險可導致人身傷害或宕機的情況,都需有應對措施。只有做好充分準備,才可以迅速響應,最大限度降低突發狀況對數據中心影響,并有效防止事故再次發生。文章描述對關鍵設備有效應急準備以及響應戰略體系。內容由7部分組成,分為3類:緊急響應程序,緊急演習和事件管理。

即使經過專業設計與Tier IV認證的數據中心,也不能保證其100%的可靠性。由于IT系統意外停機,業務中斷始終是一種潛在風險。做足準備是一種最好的抵御方式,并有助于確保及時應對。

準備工作從為確定高風險故障(例如冷卻設備受損,發電機啟動失敗等)到開啟緊急操作程序(EOP),還需要制定和演練升級程序,以確保通知指揮系統,并隨著形勢的發展調派資源。

應定期對運維團隊成員進行情境演練,評估團隊面對突發狀況的反應與應激能力、個人對應急事件響應的狀態與效果。一旦遇到突發狀況,為降低其帶來的影響,應在事后進行充分分析,找到發生事件根本原因,分析響應應急措施在處理這狀況時的效果以及待改善的地方。對重大設備事件故障分析是全部完善過程的基本組成部分,最終目的在于降低故障率,并提高應對未來發生不可預見事件的處理速度。

表1:簡要概述數據中心有效應急準備和響應計劃的主要方面。有七部分,被分組在三個分類中。

首先我們來看EOP,需要對突發狀況現場進行快速、安全地隔離,同時盡快恢復服務、提供急救是緊急響應流程中的最重要與關鍵的方面。

接下來,危機管理計劃(CMP)被描述為處理數據中心緊急情況、危機的總體計劃,如果不定期檢查,將導致災難。(關于術語“危機”和“災難”的解釋,見下)。最后,應急演練和事件管理的作用被解釋為一個方案的重要方面,以便為問題不斷做好準備,并更好地發現問題在他們成為一個危機或更糟的,一場災難。

一、應急操作流程

*名詞釋義:

危機 :遇到緊急的,重要事件,如不能及時響應,將最終導致系統中斷、業務虧損或人員受傷。

危機管理計劃(CMP)涉及準備,發現和緩解危機。

緊急操作程序(EOP)用于應對危機,因為它正在發展以防止災難的希望。例如:UPS冗余出現故障,發電機燃料用盡,UPS電池組故障等)

災難或緊急: - 導致系統嚴重損壞、停機,業務中斷或人身傷害的事件或情況。

一、應急操作流程(EOP):用于應對災難或緊急

示例:在UPS電池能源耗盡,火災,開關設備時出現電弧爆炸等任何可能導致立即停機或受傷的情況。

(說明:構成“危機”和“災難”的事件因數據中心自身不同而不同,取決于各自認為關鍵或緊急的事件。)

緊急操作流程(EOP):

被就用于處理危機和災難。 EOP流程應作為文檔被留存,詳細記錄針對應對危機或災難被批準的流程。響應流程包括:如何安全隔離故障;如何恢復服務或冗余。 EOP旨在使運維人員對遇到的突發事件做出正確的反應,從而達到安全的目的,并最大限度地減少緊急情況的持續時間與影響。

EOP具有多重功能:

首先,它幫助運維人員盡快將受影響的系統置于受控或穩定的狀態。

第二,它提供逐步指導,以確保所有活動都以安全和有效的方式進行。這樣做是為防止進一步(或范圍更廣的)的服務中斷,設備損壞或人身傷害。這些負面或可能甚至毀滅性的影響是由于以不受控制的方式執行工作,通過省略必要的步驟,或者通過不正確地執行,或半心半意地執行。

第三是作為新操作員的培訓工具。它們應被用作在員工培訓計劃中進行場景演練和測試的基礎。在客戶或管理層審計或評估時,它們也很重要,以證明有效的應急準備和響應。

將EOP等同于標準操作程序(SOP)是一個常見的錯誤。 SOP為執行日常正常操作類型任務(例如將UPS置于旁路或其它維護任務)提供通用指導或指示。

SOP涉及如何操作或維護系統。它沒有描述如何處理和從故障或緊急情況中恢復系統。

如果運維人員僅僅依靠SOP來了解設備如何運行與維護,其結果就導致應對緊急情況經驗不足。導致故障發生原因與產生的后續影響通常與多個系統有關。另一方面,SOP通俗點兒說,就是固定的流程,靈活性不強。因此,SOP對于運維人員了解各個系統之間相互聯系而言,并不實用。不過,具備這些知識卻對于快速診斷和解決問題至關重要。此外,沒有針對高風險故障情況的特定EOP流程,無法提前進行模擬演練,無法為此狀況做更多準備。

應將EOP文檔副本流程張貼在執行區域周圍。正本文件放在辦公室保存。持續跟進EOP使用情況、實時根據需要修訂EOP,確保使用執行時流程清晰簡明。

EOP是在故障發生后,保障系統運行穩定、和恢復系統的最重要的工具。EOP執行過程中需要運維人員具備豐富經驗、參加過EOP模擬演練的,從而在EOP執行過程中明確他們擔負的責任與任務,可以做到迅速響應。在開發EOP之前,先將所有可能的、或高風險的故障情況列出一份清單。最常見的故障見表2。應為每一個故障寫一個EOP。當然,運維人員和他們的經理不能預見所有的問題,但他們可以預估最壞的情況,做好最壞的準備。

所有這些文件都應被妥善保存。EOP執行只能由在現場的運維人員進行操作,外部承包商在某些情況下可以在運維人員指導下執行EOP中一些步驟。經驗表明,經過一定培訓的運維人員,可以有效地抵消遇到緊急情況下心理的恐慌感。對運維人員而言,做足充分準備意味著在千鈞一發的那一刻,運維人員根據現場突發狀況迅速做出判斷,可以在緊要關頭為數據中心挽回一部分損失。

有效的訓練方法是情境演練,通過預先設定好的情境,模擬故障發生時的情境。必要時,可以使用道具(如彩色便利貼)來模擬面板指示器或開關位置,以此鍛煉運維人員的操作能力并評估他們對現場問題的反應能力。

表2:

  2.危機管理計劃(CMP)

危機管理要素:

規劃

程序

實施

測試和培訓

危機類型

災難類型

第一反應

通知

咨詢

授權

緩解

迭代

事件后分析

報告

危機管理計劃(CMP)是一系列規定與流程,是幫助運營商在遇到真正緊急狀況或災難時,提前做好準備、了解如何應對,根據EOP流程進行應對 。在危機管理的過程中,CMP應對所有參與者尤其是利益相關者進行密切審查。這包括運維人員,運營商,以及在數據中心內工作的IT經理以及和他們團隊的工作人員。該計劃旨在指導工作人員發現、預防以及應對各種危機狀況,最終目標為數據中心提供一個安全,響應迅速、可靠的執行方案,盡最大限度的為防止意外狀況演變成一場災難做出努力。

準備和預防

最好的危機管理工具是什么? 是預防。眾所周知,大部分數據中心業務中斷是人為錯誤導致的直接或間接的結果。這些錯誤大部分發生在工作人員在對設備進行安裝與維護期間,由于操作不當導致的意外狀況發生。

為盡可能最大限度減少此類錯誤,運維人員應接受在專業領域方面的密集培訓,以確保在對設備進行維護與巡檢時,表現出操作的專業水準,減少人為故障。應將為數據中心所有工作內容建立標準操作流程作為首要目標(標準操作程序或“SOP”),工作人員可通準操作流程對設備進行維護、保養,降低人員操作風險。建議將建立的標準流程全部由業界專業人士進行測評,并由業界專家對其技術與流程方面的精準性進行額外審查。尤其要對各種風險情況進行合理分類,做好安全準備,工作任務排序以及退出流程。

另一項重要的活動是識別極有可能發生的故障或間接導致系統發生故障的模式,這是是否使用緊急操作程序(EOP)的先決條件。這項練習不僅確定在此之前有無必要執行EOP,而且也將有助于防止此類事件發生,這是做好識別與準備過程的必然結果。流程一旦建立,需定期做EOP演習,提前協調工作人員按時參加。

檢測和事件分類

當危機發生時,如何識別危機?不是所有的事件一眼就能看出機關。通常,一個完全可控的情況會隨著時間的變化演變成一場危機,這會讓運維人員措手不及。 對于運維人員而言,識別事件的早期預警標志以及了解各類設備臨界值時很必要的。

緊急情況和危機時有區別的。通過使用已經通過審核的流程來管理的緊急情況通常不會被視為危機。例如UPS冗余出現問題或空調機組冷量不夠可能被認為危機,按照既定流程執行EOP,則可以以有序、受控的方式解決這次事件,而不會等到發生宕機或傷害的災難級別。

危機特征就是失控;如果突發情況已超越可控管理范圍,現場局面已構成威脅,這種情況確立為危機。危機的另一個特征是意外狀況造成損害嚴重,有可能危及到整個系統。例如,關鍵負載突然中斷,雖然由與之對應的響應計劃,但遇到這種狀況需確立為危機。

數據中心基礎設施管理(DCIM)軟件工具可以有效幫助數據中心對環境設備進行集中監控,了解數據中心設備系統狀態變化和報警的有效方法,從而在遇到危機或災難的問題和狀況時,能及時通知運維人員。DCIM軟件同時還提供變更管理、工作訂單以及模擬添加、移動和其他更改等功能,確保操作不會導致任何問題。

在危機或災害的情況下,快速識別分類事件的能力是危機管理中至關重要的第一步,這對及時響應以及策略性的溝通是有必要的。

反應和緩解

一旦危機或災難被宣布,通常,運營商會馬上采取行動解決這個問題。然而,在充分了解情況并制定周全的響應計劃之前,立即行動有可能導致進一步危害或停機的風險。除非在事件非常明顯的情況下才需要立即采取行動(例如火災),合理的行動是圍繞發生的事件制定計劃,并與相關專家以及利益攸關方共同制定。從長遠來看,將時間放在制定計劃上,比起倉促行動更能為數據中心提供更安全、可靠以及更持久的解決方案。

當然,如果對人身安全、配電設備造成直接威脅,應立即采取行動,降低設備損失。如果某人正在或即將受到傷害,就需要立即采取行動,無需通過審議,只要這種草率行為不會傷及任何人。同樣,如果有手段控制火情或者用安全手段熄滅它,立即采取行動是可行的。這只是兩個可能的例子,做出第一反應是合理、謹慎的。話雖如此,當遇到需要立即做出第一反應的情況,都需特別小心。只有當風險高,并且能預見后果,才可考慮立即做出反應行動。

做出第一反應行動后,首要任務是立即對事故進行評估,需將關于情況涉及的范圍、嚴重性等所有信息進行評估,同時將設備的狀態、穩定性也進行評估。必須快速收集這些數據,以及隨著事故變化不斷更新數據,以便對事故做出適當補救措施,同時保證溝通的有效性。能夠做到這一點的運維人員,都經過專業知識的培訓,以及大量的情境演練,具備良好的心理素質,才能應對這樣的場面。

恢復與分析

一旦事故解決,應將事故分析報告第一時間發給相關部門人員,最好是在事件解決方案制定后的一星期內發出。故障分析報告應包括:

主要原因分析:

· 經驗教訓報告 :參與者反思事件如何發生,以及從中學到的教訓

· 執行過程: 包含具體建議和一系列行動,以改善團隊對特定事件的響應。

· 對現有運營商以及新員工持續培訓,確保他們了解行動的意義與價值。

· 所有這一切旨在防止同樣的危機或緊急情況再次發生。

升級程序:

隨著情況從正常到緊急再到潛在危機,甚至到災難級別,隨之帶來的問題就是對設備升級。這是為保證設備在恰當的時間內獲得恰當的知識與資源。升級管理可能是一項緊迫的任務,但正確的流程將有助于其盡可能輕松有效地管理升級。

對業務進行適當升級以及 “幸免于難”是應急準備與響應策略的一個重要因素。運維人員,團隊管理層,客戶和供應商之間的有效溝通是確保情況已受到控制,所有相關資源都集中在事件的處理上。雖然沒有單一的逐步升級程序保證解決每個問題,但有一些基本要素可以確保內部流程成功。為升級程序提供框架,下面的表3示意升級過程與時間示例。它可以被修改,從而適應任何組織具體要求與期望。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 紫云| 汝州市| 安溪县| 潞西市| 沾益县| 信丰县| 石棉县| 焉耆| 柏乡县| 临沭县| 镇平县| 康马县| 万源市| 湘阴县| 张北县| 光泽县| 青河县| 安丘市| 尖扎县| 芮城县| 淄博市| 双桥区| 北海市| 中超| 扬中市| 河间市| 中西区| 沙河市| 刚察县| 渭南市| 大新县| 平度市| 满城县| 商南县| 靖安县| 武宣县| 疏附县| 乾安县| 辽源市| 清水河县| 阜南县|