數(shù)據(jù)中心檢查清單:響應概要
在遇到數(shù)據(jù)中心宕機的初始階段,我們可以參考如下的清單來判斷我們需要做什么。具體需要根據(jù)發(fā)生的事情的情況來決定選擇哪些步驟以及其順序是怎樣的。比如說,掉電故障應對的步驟和火災應對的步驟就不太相同。在制定災備計劃的時候,請考慮到如下的方面。
場景 1: 電源故障
步驟采取措施備注
1了解電源故障的程度,查看是否有備用電力系統(tǒng)撥打相關(guān)人員手機,檢查電力供應,在檢查的時候使用可充電的手電筒照明
2檢查確保是否需要人員疏散盡快與核心IT管理人員協(xié)商以判斷
3評估電源故障對公司的潛在損害;確保核心數(shù)據(jù)有備份并得到了妥善的管理盡快與核心IT管理人員協(xié)商以判斷
4 聯(lián)系高層管理人員告知高層管理人員最新情況
5聯(lián)系公用事業(yè)公司如果電話不能使用的話就使用手機聯(lián)系,并安排緊急搶修
6判定電源故障的原因,并采取補救措施配合公用事業(yè)公司、電力技師以及相關(guān)人員的工作
7預估何時數(shù)據(jù)中心能重新恢復運行與核心IT管理人員、公用事業(yè)公司及相關(guān)人員協(xié)商
8再次聯(lián)系高層管理人員并及時告知最新進展告知響應及補救措施并匯報掉電后的進展情況
場景2:服務器故障
步驟采取措施備注
1了解服務器故障程度,數(shù)據(jù)丟失情況以及其他的潛在風險撥打相關(guān)負責人的手機并堅持出故障的服務器
2開展補救措施,比如檢查電源供給,嘗試服務器重啟,運行診斷程序根據(jù)需要聯(lián)系相應的設備提供商
3評估服務器宕機對公司的影響,確保核心應用和運行在該服務器上的數(shù)據(jù)都有備份并得到了妥善的保管盡快與核心IT管理人員協(xié)商以判斷
4判斷服務器宕機的原因,并采取補救措施配合相關(guān)負責人和廠商的工作
5預估何時服務器能恢復正常運行與核心IT技術(shù)人員及廠商協(xié)商以判定
6聯(lián)系高層管理人員并及時告知最新進展告知響應及補救措施并匯報服務器宕機后的進展情況
場景3:數(shù)據(jù)中心火災
步驟采取措施備注
1評估火情以及相關(guān)損失程度撥打相關(guān)負責人員的手機
2使用現(xiàn)有滅火措施比如灑水裝置以及手提式滅火器如果火勢難以控制,需要盡快封鎖相關(guān)區(qū)域以免人員傷亡
3撥打119并告知相關(guān)情況
4疏散建筑物里的人員盡快與核心IT人員在指定集合地匯合
5如果有可能激活數(shù)據(jù)備份方案以保護當前數(shù)據(jù)如果遠程站點的存儲設備可用,馬上使用它們
6一旦火情結(jié)束,開始預估火情與IT負責人、建筑物負責人以及設施管理負責人協(xié)商判定
7聯(lián)系高層管理人員并及時告知最新進展告知響應及補救措施并匯報火災后的進展情況
大規(guī)模災難的響應清單
如上所描述的響應順序多半是應對典型的數(shù)據(jù)中心災難。不同的企業(yè)組織遇到不同情況的時候需要采取的響應步驟也不盡相同。因此在采取響應措施的時候需要靈活處理,根據(jù)遇到問題的特點和嚴重程度來修改響應步驟。
在應對較大規(guī)模數(shù)據(jù)中心災難的時候可以參考如下的數(shù)據(jù)中心清單。在做這些步驟之前,需要根據(jù)具體的問題參看之前建議的步驟,并確保這些步驟也在災備計劃中。
響應清單:建筑物損毀
步驟采取措施備注
1聯(lián)系受影響的業(yè)務部門,建議他們準備搬到另一地點(或者在災難恢復計劃中指明的方案)按照災難恢復方案,向主要的內(nèi)部和外部工作人員/組織做出建議
2聯(lián)系外部組織(比如,廠商、供應商、快遞公司和存儲公司)來安排緊急服務安排按照災難恢復方案,向主要的內(nèi)部和外部工作人員/組織做出建議
3如果硬件系統(tǒng)被損壞或摧毀,激活恢復硬件的程序按照災難恢復方案,向主要的內(nèi)部和外部工作人員/組織做出建議
4如果軟件(比如,操作系統(tǒng)、應用)已經(jīng)被損壞或摧毀,激活恢復損壞軟件的程序按照災難恢復方案,向主要的內(nèi)部和外部工作人員/組織做出建議
5如果通信系統(tǒng)和網(wǎng)絡服務受到損壞或影響,激活恢復它們的程序按照災難恢復方案,向主要的內(nèi)部和外部工作人員/組織做出建議
6如果郵件/黑莓服務被損壞或摧毀,激活恢復這些操作的程序按照災難恢復方案,向主要的內(nèi)部和外部工作人員/組織做出建議,在郵件/黑莓服務被損壞時,業(yè)務部門可能需要使用其他的通信方式,比如,短消息、社交網(wǎng)絡等
7如果關(guān)鍵數(shù)據(jù)被損壞或摧毀,激活數(shù)據(jù)恢復程序按照災難恢復方案,向主要的內(nèi)部和外部工作人員/組織做出建議
8如果文件或文檔被損壞或摧毀,激活恢復損壞文檔的程序按照災難恢復方案,向主要的內(nèi)部和外部工作人員/組織做出建議,如果通過備份重新恢復數(shù)據(jù)的方式,在一天內(nèi)無法解決這個問題的話,請與員工或其他股東討論如何管理現(xiàn)有的操作
9如果文件或文檔被損壞或摧毀,激活恢復損壞文檔的程序按照災難恢復方案,向主要的內(nèi)部和外部工作人員/組織做出建議,如果通過備份重新恢復數(shù)據(jù)的方式,在一天內(nèi)無法解決這個問題的話,請與員工或其他股東討論如何管理現(xiàn)有的操作
10與管理層確認是否數(shù)據(jù)中心工作人員需要搬到新的位置與主要的IT員工,公司管理層或其他人會面
11與公司工作人員和其他內(nèi)部或外部的工作組一起開始討論新數(shù)據(jù)中心的選址,比如臨時服務托管安排,以及在新數(shù)據(jù)中心建好之前租賃一個臨時的數(shù)據(jù)中心供使用災備計劃應該包含這部分內(nèi)容,因此主數(shù)據(jù)中心和輔數(shù)據(jù)中心都應該被安排好
12開始并協(xié)調(diào)各方面資源為搬遷到新的數(shù)據(jù)中心做準備災備規(guī)劃中應該已經(jīng)包含了這部分內(nèi)容
13定期給公司管理層匯報最新進展災備規(guī)劃中應該已經(jīng)包含了這部分內(nèi)容
14組織并定期開展恢復團隊會議災備規(guī)劃中應該已經(jīng)包含了這部分內(nèi)容
以上步驟的前提是相關(guān)的方案已經(jīng)被制定出來,用于針對列出來的各種場景,比如郵件系統(tǒng)恢復,硬件和軟件系統(tǒng)恢復、數(shù)據(jù)恢復、文檔恢復和搬到另一個數(shù)據(jù)中心。
災難后的評估
一旦情況得到了緩和,恢復過程可以開始之后,就應該評估這個事件,確認發(fā)生了什么,采取了什么行動,還有什么沒有做。要經(jīng)常地組織和開展實用性的會議以幫助匯總一些重要的數(shù)據(jù),因為有些可能在后面的保險索賠甚至法律訴訟上需要用到。
補充的數(shù)據(jù)中心災難恢復規(guī)劃資源
根據(jù)需要制定的詳細程度不同,數(shù)據(jù)中心災難響應的過程可以非常復雜。一個讓過程變得更容易的方式是看看現(xiàn)有的標準以及數(shù)據(jù)中心操作流程。下面將列舉三條有用的準則:
標準與科技美國國家實驗室的SP 800-34標準 “信息技術(shù)系統(tǒng)應急計劃指南”
2008年國際標準化組織標準ISO 24762 “信息與通信技術(shù)災難恢復服務指南”
2011年國際標準化組織標準ISO 27031“信息與通信技術(shù)業(yè)務可持續(xù)性的準備指南”
在規(guī)劃一個數(shù)據(jù)中心災難恢復計劃的時候,需要注意下面的幾點:
1.需要得到高層管理的支持,這樣計劃就會有資金上的扶持,有文件證明并且能被有規(guī)律的執(zhí)行。
2.認真的執(zhí)行數(shù)據(jù)中心災難恢復過程:計劃不需要很長,但需要包含現(xiàn)在準確的信息。
3.在流程中考慮使用曾經(jīng)使用過的標準。
4.在收集并整理了足夠的正確信息后,盡可能的讓流程簡潔明了。
5.制定好流程后和其他核心部門再共同審閱一次,以確保對環(huán)境的估計準確無誤。
數(shù)據(jù)中心受損將可以嚴重的影響到業(yè)務的正常運行。當有些公司決定通過再建一個新的機房或者從第三方機構(gòu)租賃一個機房作為災備方案的時候,我們建議詳細評估數(shù)據(jù)中心的運用情況以及潛在風險,這對災備過程的開始是有著重要意義的。當我們有著一份做足準備的災難恢復計劃在手,尤其是包含有詳細的復原和恢復的步驟,這對讓數(shù)據(jù)中心受損程度最小化是有很大幫助的。