對(duì)于災(zāi)難恢復(fù)計(jì)劃首要的是風(fēng)險(xiǎn)評(píng)估,但是理解如果不理解風(fēng)險(xiǎn)的影響,單單只是明白風(fēng)險(xiǎn)本身,這也沒什么意義。想要發(fā)展一個(gè)IT災(zāi)難恢復(fù)計(jì)劃,在考慮如何構(gòu)成最高效的恢復(fù)策略時(shí),兩個(gè)重要的問題需謹(jǐn)記于心。
1、哪些災(zāi)難恢復(fù)方案在我們的IT環(huán)境中切實(shí)可行?
2、已有的方案如何影響現(xiàn)有IT環(huán)境支撐的業(yè)務(wù)?
這些問題能夠反映評(píng)估IT環(huán)境風(fēng)險(xiǎn)和判斷風(fēng)險(xiǎn)結(jié)果需要什么因素,還能體現(xiàn)它對(duì)組織的效果。
風(fēng)險(xiǎn)到底是什么?
從IT的角度我們可以用多種方法定義什么構(gòu)成了風(fēng)險(xiǎn)?最普及的觀點(diǎn)是“暴露在了已知的威脅存在中,有發(fā)生的可能。”如果我們想好好把工作完成,就不要把專業(yè)術(shù)語掛在嘴邊,而是簡(jiǎn)潔地解釋好。比如說,危險(xiǎn)暴露可能是因?yàn)槿哂喾?wù)器硬件缺乏,威脅就是經(jīng)常會(huì)硬件故障,就這就構(gòu)成了一個(gè)風(fēng)險(xiǎn)。
評(píng)價(jià)風(fēng)險(xiǎn)
在災(zāi)難恢復(fù)過程應(yīng)該很早就查處風(fēng)險(xiǎn),同樣重要的一點(diǎn)是:不要再風(fēng)險(xiǎn)發(fā)現(xiàn)了才做災(zāi)難恢復(fù)策略。
檢查硬盤故障很簡(jiǎn)單,但是作為風(fēng)險(xiǎn)來說就不算事兒,因?yàn)橛袛?shù)據(jù)備份,磁盤故障可以很快解決。真理是風(fēng)險(xiǎn)存在,但是控制手段要就位,以便減少影響。
最佳實(shí)踐是先評(píng)估每個(gè)風(fēng)險(xiǎn),分析其對(duì)業(yè)務(wù)的影響,然后評(píng)價(jià)現(xiàn)有的控制手段能否在壞影響發(fā)生的時(shí)候解決問題。
也就是說風(fēng)險(xiǎn)無論如何都會(huì)存在,但是得有控制手段解決。
盡管評(píng)價(jià)風(fēng)險(xiǎn)是重要的,但這是建立在有理有據(jù)的基礎(chǔ),需要評(píng)價(jià)它有多少可能發(fā)生。要承認(rèn)計(jì)劃外的斷電確實(shí)可能會(huì)發(fā)生,而主觀去想象更重要。
你需要尋找什么?
評(píng)估風(fēng)險(xiǎn)時(shí)要避免把所有可能的危險(xiǎn)全都列舉出來。而是著重于可能性較為合理 的。由于“飛機(jī)撞數(shù)據(jù)中心”或者“太陽能燒了處理器”這種事情只能分類在范圍更廣的類別中。
把所有可能發(fā)生的風(fēng)險(xiǎn)因素列舉好,然后考查現(xiàn)有的控制手段,確保它們適合。 比如說,你不能因?yàn)橛幸粋€(gè)故障轉(zhuǎn)移站點(diǎn),就忽視颶風(fēng)的風(fēng)險(xiǎn),即使沒發(fā)生你也得考慮如何最小化這種潛在的破壞。
IT環(huán)境可能要面對(duì)以下潛在威脅:
缺乏冗余數(shù)據(jù)中心關(guān)鍵架構(gòu)。包括UPS或者配電路徑,沒有后備發(fā)電機(jī),有單點(diǎn)故障的冷卻系統(tǒng)或者不完善的防火等等。
地理和氣候相關(guān)的威脅。無論數(shù)據(jù)中心和IT架構(gòu)的冗余程度如何,整個(gè)設(shè)施如果受到氣候影響,還是會(huì)發(fā)生單點(diǎn)故障。
缺乏冗余IT架構(gòu)部件或存在單點(diǎn)故障。這部分范圍較廣,從高級(jí)部件比如單獨(dú)網(wǎng)絡(luò)連接和關(guān)鍵應(yīng)用服務(wù)器,到粒狀的單獨(dú)電源服務(wù)器。
物理和邏輯安全不足。不鎖門,或者安保系統(tǒng)薄弱。
數(shù)據(jù)備份步驟不一致。通常是失敗的備份、報(bào)告或者監(jiān)控,缺乏站外的備份拷貝或者不一致的站外備份傳輸。
未定義恢復(fù)時(shí)間或者恢復(fù)點(diǎn)。這會(huì)導(dǎo)致對(duì)數(shù)據(jù)備份的錯(cuò)誤評(píng)估,通常方法對(duì)了,但是結(jié)果錯(cuò)誤。
不完善的變更管理步驟。缺乏合適的變更控制,通常會(huì)成為計(jì)劃外斷電或者人為數(shù)據(jù)丟失的起因。
配置文件材料缺乏。高度依賴IT人員是不能完全代替基礎(chǔ)的配置文件。
缺乏災(zāi)難恢復(fù)計(jì)劃。在災(zāi)難評(píng)估步驟,早就不斷強(qiáng)調(diào)了這一點(diǎn)。