六月的時(shí)候,國(guó)家臺(tái)風(fēng)中心宣布2015年的大西洋臺(tái)風(fēng)季應(yīng)該平靜度過。如果這是真的,那確是個(gè)好消息。不太好的消息是,錯(cuò)誤的預(yù)測(cè)以及2013和2014年比較平靜的臺(tái)風(fēng)季結(jié)合起來似乎哄騙得很多人對(duì)防災(zāi)產(chǎn)生了放任心理。我則比任何時(shí)候都感覺這像Alfred E. Neuman(那個(gè)Mad雜志上說“什么?我會(huì)擔(dān)心?”的家伙)的態(tài)度——讓人有些不安。
話說,國(guó)家海洋氣象管理局(NOAA)的預(yù)測(cè)就只是預(yù)測(cè)而已,基于過去的天氣記錄和氣候特征。有些人說氣候變化正在挑戰(zhàn)現(xiàn)有的模型,上部大氣層中的粒子能量水平正在發(fā)生變化。這可能會(huì)削弱周期性事件——例如厄爾尼諾現(xiàn)象,大氣壓變化和風(fēng)速,以及其它——對(duì)暴風(fēng)雨發(fā)生概率的影響。這也不是說預(yù)測(cè)暴風(fēng)雨預(yù)測(cè)就曾經(jīng)那么精確過。例如,NOAA預(yù)測(cè)2013年是臺(tái)風(fēng)年,現(xiàn)實(shí)是那年沒有什么極端天氣。還有一些影響很大的暴風(fēng)雨,例如1992年的臺(tái)風(fēng)Andrew就發(fā)生在NOAA預(yù)測(cè)不會(huì)有什么動(dòng)靜的季節(jié)。然而,我訪問的很多公司都沒有做任何的災(zāi)難恢復(fù)計(jì)劃。
有些業(yè)務(wù)和IT人士告訴我,技術(shù)的進(jìn)步已經(jīng)讓我們不需要災(zāi)難恢復(fù)計(jì)劃了。在很多大型機(jī)用戶那里,他們?cè)谡f服自己如果用了IBM的虛擬化引擎(TS7700),就可以讓他們?cè)谌魏五礄C(jī)情況下跳到最近的RUN(Tape Rewind Unload磁帶回退卸載)點(diǎn)來自動(dòng)恢復(fù)環(huán)境。他們相信那就像把一個(gè)進(jìn)程回退到故障前的一個(gè)點(diǎn),再?gòu)哪屈c(diǎn)重新開始那么簡(jiǎn)單。當(dāng)然,閱讀產(chǎn)品Redbook(紅書——IBM產(chǎn)品手冊(cè))能得到非常不同的觀點(diǎn)。要重啟的話,在RUN點(diǎn)之外還有很多因素需要考慮,要保證你有所有恢復(fù)業(yè)務(wù)所需的東西需要仔細(xì)地計(jì)劃和測(cè)試。激進(jìn)的廠商銷售代表和客戶的選擇性接受可能會(huì)在他們需要恢復(fù)業(yè)務(wù)的時(shí)候給他們帶來很多煩惱。
業(yè)務(wù)連續(xù)性的真實(shí)含義
x86的世界里也在發(fā)生類似的問題。一些Hypervisor市場(chǎng)言論告訴用戶“災(zāi)難恢復(fù)過時(shí)了”HA(高可用性)架構(gòu)(指切換集群)消滅了其必要性。VMware開始把它們的切換集群配置稱作內(nèi)置“業(yè)務(wù)連續(xù)性”。
當(dāng)然業(yè)務(wù)連續(xù)性的實(shí)際含義不是在一對(duì)集群服務(wù)器之間切換業(yè)務(wù)處理。根據(jù)ISO標(biāo)準(zhǔn)對(duì)“業(yè)務(wù)連續(xù)性”的定義,這個(gè)過程不只是在意外中斷事件中恢復(fù)技術(shù)堆棧和數(shù)據(jù),還包括恢復(fù)業(yè)務(wù)流程,人員和辦公場(chǎng)所。我對(duì)那些傻到相信切換服務(wù)器集群和ISO里定義的業(yè)務(wù)連續(xù)性是一回事的人表示憐憫——特別是當(dāng)他們?yōu)榱藵M足法律或者監(jiān)管合規(guī)而需要滿足ISO標(biāo)準(zhǔn)的時(shí)候。
讓我把話說得再直接一點(diǎn)。丟掉根據(jù)規(guī)章(例如HIPAA——Health Insurance Portability andAccountability Act, 醫(yī)療保險(xiǎn)可以移動(dòng)性和可靠性法案)需要留存的數(shù)據(jù)會(huì)給一個(gè)醫(yī)療機(jī)構(gòu)帶來雙重災(zāi)難。首先,運(yùn)營(yíng)成本會(huì)非常大,因?yàn)閬G掉數(shù)據(jù)可能影響對(duì)病人的醫(yī)療服務(wù)。其次,如果該機(jī)構(gòu)聲稱遵循ISO 22301標(biāo)準(zhǔn),而這個(gè)“合規(guī)”僅僅是基于Hypervisor廠家把他們的服務(wù)器切換功能標(biāo)榜為“即時(shí)業(yè)務(wù)連續(xù)性”,那就可能會(huì)有一堆法律問題了。
為什么災(zāi)難恢復(fù)很重要
我知道沒有人想要做災(zāi)難恢復(fù)計(jì)劃。還有,類似臺(tái)風(fēng)這樣在廢墟上升起濃煙的大型災(zāi)難只占IT故障時(shí)間的5%。最大的一部分下線時(shí)間是計(jì)劃停機(jī)時(shí)間,軟件故障,硬件故障,用戶操作錯(cuò)誤,惡意軟件和病毒。所以某種切換(帶有持續(xù)的數(shù)據(jù)復(fù)制)可能可以幫助公司在95%的可能引起停機(jī)的事件中保持業(yè)務(wù)持續(xù)運(yùn)行。
但是,那不是業(yè)務(wù)連續(xù)性也不是災(zāi)難恢復(fù)——這是災(zāi)難避免。當(dāng)然也是一個(gè)很重要的能力,不過不是同一回事。災(zāi)難恢復(fù)和業(yè)務(wù)連續(xù)性計(jì)劃人員需要考慮不可抗力摧毀業(yè)務(wù)流程的情況。你需要考慮假如你不能訪問你的系統(tǒng)和數(shù)據(jù)的話,如何在異地重啟業(yè)務(wù),不管原因是什么。
首先,你要打造一個(gè)真正高可用的數(shù)據(jù)架構(gòu)——它的可用性可以測(cè)試也驗(yàn)證。數(shù)據(jù)復(fù)制加上祈禱是不夠的。你要嚴(yán)重你的鏡像和副本,保證數(shù)據(jù)在連續(xù)復(fù)制而副本存儲(chǔ)在一個(gè)足夠遠(yuǎn)的地方,不會(huì)和主站受到同一個(gè)自然災(zāi)害的威脅。
很多公司都做不到這點(diǎn)。在一對(duì)集群服務(wù)器,甚至在一對(duì)本地服務(wù)器和一個(gè)站外遠(yuǎn)程集群后面的一對(duì)直連存儲(chǔ)之間鏡像數(shù)據(jù)是遠(yuǎn)遠(yuǎn)不夠的。你要分析和發(fā)現(xiàn)在另一個(gè)主機(jī)上重啟業(yè)務(wù)所需要的所有數(shù)據(jù)——包括業(yè)務(wù)數(shù)據(jù)和支持文件(還有hypervisor軟件,驅(qū)動(dòng)程序,等等)。然后你要確定你的目標(biāo)恢復(fù)集群的物理位置,并理解距離產(chǎn)生的延遲和網(wǎng)絡(luò)抖動(dòng)會(huì)對(duì)你的數(shù)據(jù)實(shí)時(shí)性以及可用性有何影響。后一個(gè)目標(biāo)需要你經(jīng)常性地拆掉鏡像并檢查本地和遠(yuǎn)程數(shù)據(jù)集的一致性。
把頭伸進(jìn)云里
如果你的備份目標(biāo)是一個(gè)“云”, 你需要知道這個(gè)服務(wù)的物理位置在哪里。一個(gè)云可以提供頂級(jí)的災(zāi)難恢復(fù)服務(wù)等級(jí)協(xié)議(SLA),但是距離會(huì)很大程度上影響服務(wù)商提供服務(wù)的能力。
另一方面,如果你的DRaaS(災(zāi)難恢復(fù)即服務(wù))是通過SONET或者M(jìn)PLS這樣的城域網(wǎng)來訪問的,你要自己考量一下距離是不是足夠遠(yuǎn)了,來避免相同的災(zāi)難會(huì)同時(shí)降臨到他們那里,不過是一個(gè)城市大規(guī)模停電或者是一個(gè)100千米或者更大規(guī)模的颶風(fēng)。如果DRaaS的服務(wù)商就在街對(duì)面的話,你的數(shù)據(jù)是不安全的。
另一方面,如果你的云服務(wù)商是通過WAN(廣域網(wǎng))來訪問的,它可能就不一定適合作為那些對(duì)由延遲的差別比較敏感的事務(wù)數(shù)據(jù)。
每種情況都需要測(cè)試。讓你的策略就能夠通過計(jì)劃的和臨時(shí)的測(cè)試。很多所謂的“DRaaS”服務(wù)其實(shí)是“DR靈機(jī)一動(dòng)”——那些主機(jī)托管服務(wù)商把DR當(dāng)作他們菜單上的一個(gè)新項(xiàng)目,而并沒有真
的理解DR的真正含義。有很多軟件廠家都在給備份或者鏡像軟件開發(fā)“簡(jiǎn)單易用”的前端界面,這些軟件可以為客戶提供云接口。通過網(wǎng)絡(luò)界面提供一個(gè)復(fù)雜的數(shù)據(jù)保護(hù)軟件不意味著這個(gè)廠家了解DR/BC的相關(guān)規(guī)劃原則,或者能夠提供有效的業(yè)務(wù)連續(xù)性。
總結(jié)一下:DR/BC規(guī)劃對(duì)那些打算應(yīng)對(duì)那些100%引起財(cái)務(wù)危機(jī)的5%宕機(jī)的人來說是個(gè)挑戰(zhàn)。你不能用災(zāi)難事件的概率和頻率來麻痹自己。準(zhǔn)備好應(yīng)對(duì)那5%,你也能輕松應(yīng)對(duì)剩下的95%。