如果你的公司擁有一個或多個數據中心,你必須確保在正常運行受到威脅的情況下,它們是有足夠的恢復能力的。
當今的數據中心常被安置在以下地點,比如:經過重建的倉庫里;辦公樓宇的地板上;具備防御地震、颶風、龍卷風及其他災害性天氣的堅固的建筑物中等等。
盡管以上任何一個選址地點都可以用于建立數據中心,但是你必須確保該建筑能有效地規避對你的數據中心有潛在威脅的因素。本文就將針對如何使您的數據中心變得更有回彈力和恢復力這個問題,給出若干建議。
在數據中心恢復力評估開始之前,請完成以下幾項:
1. 確定你的數據中心物理上是否安置于低度或中度風險的地區,比如:不太可能發生自然災害(地震、災難性天氣)的地方;連入兩個或多個電網做冗余設計;坐落于地勢高的地方以減少洪水襲擊的可能;遠離主干高速公路、鐵路或河流。
2. 如果你的數據中心所處的位置不能滿足以上條件,它就可能有較大的危險,因此請繼續完成以下風險評估:
· 找出可能使得數據中心缺乏恢復力及生存力的潛在原因
· 找出并分析那些會對數據中心正常運行造成威脅的因素,比如:自然災害;人為災害(盜竊、蓄意破壞、安全侵入、環境危害如化學泄露等)
· 列出那些現有的控制措施(管理上的、運營上的和技術上的)來解決這些問題
以下表格更深入地分析了這些問題,并提出了針對每一項的解決之道。
表格1:管理、運營及技術控制
控制 |
要解決的問題 |
解決的方法 |
風險評估 |
最近做過有關于風險和威脅的評估么?
|
· 安排并完成年度的風險/威脅評估,以檢查內在以及外部的威脅 · 根據風險評測結果更新數據中心應急方案 |
保險 |
有沒有啟用保險的方式來應對數據中心遭到破壞的可能? |
· 回顧檢查數據中心的保險覆蓋情況 · 根據需要更新保險覆蓋面 |
服務等級協議 |
· 有沒有與供應商簽訂服務等級協議? · 最后一次回顧和更新服務等級協議是在什么時候? |
· 確保服務等級協議是恰當的 · 確保服務等級協議能在系統或服務遭受災難時是起作用的 |
現場安全 |
· 是否有一套現場安全計劃方案? · 現場安全系統對于數據中心是否合適? |
· 準備一個現場安全計劃并且每年至少測試一次 · 確保安全系統(比如,閉路攝像頭,訪問控制系統)要定期測試 |
文檔 |
· 所有的數據中心運營流程都有文檔記錄么? · 緊急情況處理流程有文檔記錄么? |
· 確保數據中心運行的規章路程都有文檔記錄并且做到每年回顧 · 確保數據中心緊急處理流程有文檔記錄并且每年回顧 |
軟硬件備份 |
· 關鍵的硬件設備(如服務器)有備份么? · 數據存儲系統(包括SANs)有備份么? · 關鍵應用的備份能成功恢復出來么? · 有備份的網絡設備么,比如路由器,交換機,網關等 |
· 確保有備份系統及其組件 · 把備份存放在安全的有采暖通風系統的地方 · 保持備份記錄的實時更新 |
應急流程 |
· 有沒有事件發生時對應的處理流程? · 有沒有疏散撤離的流程? · 有沒有非法進入的對應流程? · 有沒有針對恐怖襲擊或類似事件的處理流程? · 有沒有針對盜竊或蓄意破壞的處理流程? · 有沒有針對槍擊事件的對應流程? · 有沒有技術上的災難恢復的預案? |
· 確保針對各種可能威脅數據中心的事件有相應的恰當的處理流程 · 確保所有的流程都有文檔記錄在案 · 確保所有的流程都會經過定期測試 |
災備的數據中心方案 |
· 如果無法訪問數據中心怎么辦? · 如果數據中心無法正常工作怎么辦? |
· 建立一套數據中心的恢復方案 · 找到有可能為數據中心提供備份服務的公司的其它場地 · 如果另建一個災備數據中心的構想無法實現,考慮使用第三方或云平臺上的數據中心方案 |
表格2:自然威脅
威脅 |
要解決的問題 |
解決的方法 |
地震 |
數據中心能抵擋地震引起的震動或地表運動么? |
· 確保建筑物對于地震有足夠的應對能力 · 確保員工在需要時能安全撤離 · 確保建立了應急流程并經過了地震測試 |
洪水 |
洪水來臨時,數據中心能被轉移或抵御洪水襲擊么? |
· 為洪水準備沙袋 · 確保有排水泵 · 確保員工可以安全撤離 · 確保建立了應急流程并經過了洪水測試 |
閃電 |
數據中心能夠抵擋閃電的侵襲么? |
· 定期檢查閃電保護系統的狀況 · 確保在臨界電力饋電情況下,過載保護系統能正常工作 · 測試建筑物的接地情況 |
暴風雨和龍卷風 |
數據中心能抵御大風及飛行碎屑么? |
· 確認建筑物對大風的影響有所準備 · 確保員工在必要時能安全撤離 · 確保應急流程是完備的并且經過大風測試 |
服務器過冷/過熱 |
空調系統能使數據中心維持在能正常運行的環境腫么? |
· 確保空調系統經過恰當的維護和定期測試,比如每月測試一次 |
表格3:人為以及安全威脅
威脅 |
要解決的問題 |
解決問題的方法 |
內亂、恐怖襲擊、蓄意破壞、非法入侵 |
· 數據中心在面對非法入侵時是否安全? · 員工在這些情況下能否安全撤離? |
· 確保建筑物的安保系統是正常工作的 · 確保員工在必要時能安全撤離 · 確保應急流程完備并經過建筑物安保測試 · 確保已經流程完備并經過內亂或其他相關事件的測試 · 確保在建筑物入口處有安保人員 · 確保安保攝像頭能記錄下建筑物內部外部所發生的情況 |
表格4:環境威脅
威脅 |
要解決的問題 |
解決問題的方法 |
斷電 |
· 商用電力斷電 · 電力保護系統,比如,電涌抑制器 · 備用的電力系統 · 柴油機的燃油供給或天然氣發電機 |
· 與當地電力公司共同討論電力供給的方案 · 在整個數據中心的范圍內連接電力保護設備來保護系統 · 確保斷電時會觸發警報 · 購買備用電力系統,比如,發電機和UPS設備 · 定期測試備用電力系統 · 定期充滿燃料箱;至少要有兩臺供應設備 |
通信失敗 |
· 內網連接失敗 · 英特網連接失敗 |
· 確保本地連接服務來自于安全的管道 · 考慮為數據中心增加冗余的供給 · 確保英特網連接是受保護并且有冗余設計 · 定期測試網絡服務以保證可用性 |
空調采風系統故障 |
空調,加熱,空氣過濾系統無法運行 |
· 確保空調采風系統是正常運行的并且經過定期測試 · 確保備用針對空調的電力系統存在 · 考慮增加冗余的空調采風系統 · 確保空調采風系統故障會觸發警報 |
火災 |
數據中心能對內部和外部的火災作出正確響應么? |
· 確保滅火系統是正常工作并經過定期測試的 · 安裝“切斷開關”來制止意外的系統放電 · 確保有足夠數量的滅火器 · 確保員工在必要時能安全撤離 · 確保應急流程完備并經過火災測試 |
水質問題,比如水污染 |
· 有沒有監控水質的流程? · 有沒有水過濾系統? · 內部管道是否原理關鍵系統以防止對水質造成影響? · 有沒有其它水源和供給? |
· 與建筑物的所有者共同協商主要水源供給的監控問題以及應急流程 · 與建筑物所有者共同協商備用水源 |
危險物品 |
· 有沒有分析危險物質的流程? · 有沒有應急流程來應對發現危險物品的情形? |
· 與當地環境管理部門商議應對危險物品的流程 · 建立應急流程 |
總結
綜上可見,當我們在試圖構建數據中心的恢復力時,有許多問題需要解決。不論你是建造一個新的數據中心,遷移至另一個數據中心還是更新一個業已存在的設施,都要確保在整個建筑物的設計和/或增建的過程中考慮并解決這些問題,以保護你對于數據中心的投資不受損失。