對于企業(yè)而言,制定災(zāi)難恢復(fù)計劃并非只是一個選擇項,而是必須采取的至關(guān)重要的舉措。事實上,頻發(fā)的自然災(zāi)害促進(jìn)了許多組織考慮制定和實施其業(yè)務(wù)連續(xù)性計劃。
像哈維、艾瑪、瑪麗亞等颶風(fēng)事件,美國中西部和南部的龍卷風(fēng),加利福尼亞州的火災(zāi)和洪水,以及席卷美國各地的風(fēng)暴影響了成千上萬的企業(yè)運營,導(dǎo)致部分企業(yè)在幾天、幾周甚至幾個月內(nèi)沒有電力和互聯(lián)網(wǎng)連接。
根據(jù)美國國家海洋和大氣管理局(NOAA)的數(shù)據(jù),2017年是美國有史以來損失最為慘重的一年,其中大多是自然災(zāi)害。美國經(jīng)歷了16次不同的自然災(zāi)害事件,每次造成超過10億美元的損失,總損失成本高達(dá)3062億美元。
影響企業(yè)的不僅僅是自然災(zāi)害,大量的人為事件導(dǎo)致企業(yè)業(yè)績下滑或停工。勒索軟件、內(nèi)部騷亂、恐怖主義以及更多突發(fā)事件可能會導(dǎo)致企業(yè)的數(shù)據(jù)中心出現(xiàn)故障組件、意外刪除文件、錯誤配置硬件、錯誤地切斷電源線,并可能導(dǎo)致業(yè)務(wù)宕機(jī)。
為了對這些不可避免的情況做好準(zhǔn)備,專家建議企業(yè)應(yīng)該制定災(zāi)難恢復(fù)/業(yè)務(wù)連續(xù)性(DR/BC)計劃。而且,由于當(dāng)今的業(yè)務(wù)大多是以數(shù)字方式進(jìn)行的,這意味著要制定一個計劃,以便在停電之后讓IT系統(tǒng)重新聯(lián)機(jī)。
什么是災(zāi)難恢復(fù)?
有些人錯誤地認(rèn)為如果他們有備份就足夠了。但是真正的災(zāi)難恢復(fù)不僅僅是從備份中恢復(fù)文件。
在發(fā)生自然災(zāi)害的情況下,企業(yè)需要一種在停電或互聯(lián)網(wǎng)中斷期間保持關(guān)鍵應(yīng)用程序和服務(wù)在線運營的方式。如果電話線路、小區(qū)服務(wù)和網(wǎng)絡(luò)出現(xiàn)故障,則需要一種讓員工進(jìn)行溝通的方法。如果辦公室遭到災(zāi)難的破壞或損壞,需要一種方法讓技術(shù)工作人員繼續(xù)工作。盡管所有這些情況都有可能發(fā)生,而企業(yè)需要確保其繼續(xù)履行安全和合規(guī)義務(wù)。
此外,根據(jù)企業(yè)所在的行業(yè)可能有其他特殊需求。例如,醫(yī)療機(jī)構(gòu)需要一些方法和措施保障病人安全。教育機(jī)構(gòu)需要為教師提供一種與學(xué)生互動的方式。制造商可能需要采用替代的工廠或倉庫,零售商可能需要使用不同的方法將商品送到他們的商店,等等。完整的災(zāi)難恢復(fù)計劃將考慮所有這些需求。
災(zāi)難恢復(fù)最佳實踐
•制定書面計劃。企業(yè)在災(zāi)難恢復(fù)方面犯的最大錯誤是沒有計劃。如果企業(yè)沒有書面計劃,還必須在緊急情況中把所有事情都弄清楚。這實際會犯一些錯誤,損失更多的成本,并且離線中斷的正常運行時間超過企業(yè)的估計。
•遵循3-2-1規(guī)則。專家通常建議遵循3-2-1規(guī)則進(jìn)行備份:擁有三份數(shù)據(jù)副本,使用兩種不同類型的存儲設(shè)備,并將至少一份副本存儲在數(shù)據(jù)中心之外的場合。例如,企業(yè)可以通過創(chuàng)建一個本地備份和一個基于云計算的備份來遵循此規(guī)則。這為他們提供了三份數(shù)據(jù)副本(主要備份、本地備份和云備份),兩種不同類型的存儲(本地部署和云計算)以及一份存儲在公共云平臺的副本。
•測試制定的計劃。災(zāi)難恢復(fù)計劃在寫入文件后如果沒有測試或?qū)嵤瑒t幾乎沒有用處。為了確保計劃可行,企業(yè)需要在實際情況下對其進(jìn)行測試。這意味著在電力和互聯(lián)網(wǎng)中斷后嘗試使系統(tǒng)聯(lián)機(jī)時創(chuàng)造條件。顯然,企業(yè)不想中斷自己的生產(chǎn)應(yīng)用程序,但應(yīng)該盡可能地模擬這樣的環(huán)境。
•定期更新自己的計劃。企業(yè)的IT環(huán)境一直在變化。也許正在添加新應(yīng)用程序、新硬件和新員工。這意味著企業(yè)的災(zāi)難恢復(fù)計劃也需要發(fā)展。定期按月、季度或年度定期進(jìn)行災(zāi)難恢復(fù)測試是一個不錯的主意,并通過企業(yè)在測試期間學(xué)到的知識和經(jīng)驗更新災(zāi)難恢復(fù)計劃。
災(zāi)難恢復(fù)解決方案的類型
為了從災(zāi)難中恢復(fù),企業(yè)還將需要一個故障切換站點,在這里企業(yè)可以存儲備份數(shù)據(jù),并在主要的數(shù)據(jù)中心脫機(jī)時運行生產(chǎn)工作負(fù)載。在選擇災(zāi)難恢復(fù)站點時,組織有幾個不同的選擇,每個組織都有自己的優(yōu)勢和弱點。一般來說,企業(yè)需要在成本和組織對流程的控制量之間找到平衡點。其正確的選擇取決于公司的規(guī)模、內(nèi)部的技能、環(huán)境的復(fù)雜性、安全性和合規(guī)性需求以及其他各種因素。
•內(nèi)部操作。企業(yè)自己的災(zāi)難恢復(fù)數(shù)據(jù)中心通常是成本最昂貴的故障切換站點選項,但在某些情況下,對于擁有眾多熟練員工的大型組織來說是有意義的。例如,在合并、收購或數(shù)據(jù)中心整合項目之后,有時全球企業(yè)會發(fā)現(xiàn)自己擁有額外的數(shù)據(jù)中心空間。在某些情況下,將某個數(shù)據(jù)中心用作災(zāi)難恢復(fù)站點可能是最具成本效益的。
這種方法的最大好處是企業(yè)可以完全控制備份和恢復(fù)過程。但最大的弱點也是在于企業(yè)完全控制了備份和恢復(fù)過程。其內(nèi)部員工可能沒有災(zāi)難恢復(fù)供應(yīng)商擁有的專業(yè)技能,這可能是災(zāi)難恢復(fù)專家認(rèn)為內(nèi)部災(zāi)難恢復(fù)在發(fā)生實際緊急情況時最有可能失敗的原因之一。
•企業(yè)可以采用托管成本較低的選項來管理自己的災(zāi)難恢復(fù)站點。通過傳統(tǒng)托管服務(wù),企業(yè)可以共享其數(shù)據(jù)中心設(shè)施中的空間、電源、散熱和網(wǎng)絡(luò)連接。托管服務(wù)供應(yīng)商將為企業(yè)提供物理安全性,但是企業(yè)將購買、部署和配置將在數(shù)據(jù)中心設(shè)施中運行的硬件和數(shù)據(jù)恢復(fù)軟件。
此選項可能會減少一些成本,并消除了管理企業(yè)的災(zāi)難恢復(fù)站點相關(guān)的一些負(fù)擔(dān),節(jié)省了大量時間、精力和技能。但是,它確實將大部分控制權(quán)留在了客戶手中,這對于一些有嚴(yán)格合規(guī)要求的組織來說可能是必要的。
•主機(jī)托管也有時稱為“主機(jī)托管”或“托管宿主”,主機(jī)托管將更多災(zāi)難恢復(fù)的負(fù)載轉(zhuǎn)移到托管服務(wù)提供商。除物理數(shù)據(jù)中心空間和實用程序外,托管的托管服務(wù)提供商還提供并部署IT基礎(chǔ)設(shè)施,以及監(jiān)視和維護(hù)軟件,以便客戶遠(yuǎn)程訪問站點。一些供應(yīng)商也可能提供數(shù)據(jù)恢復(fù)軟件、測試或災(zāi)難恢復(fù)服務(wù)。
這種方法給供應(yīng)商的備災(zāi)帶來了更多的負(fù)擔(dān),但它也需要獲得客戶的一些控制權(quán)。其價格和可用服務(wù)可能差別很大,因此組織需要執(zhí)行總擁有成本(TCO)或投資回報(ROI)分析,以確定這是否是最具成本效益的選項。
•災(zāi)難恢復(fù)即服務(wù)(DRaaS)。近年來,一些托管服務(wù)提供商(MSP)和云計算供應(yīng)商已經(jīng)開始提供DRaaS解決方案。這些解決方案通常涉及備份和故障轉(zhuǎn)移到云計算環(huán)境。該選項將幾乎所有的處理備份和災(zāi)難恢復(fù)的控制權(quán)交給供應(yīng)商。對于沒有大量IT人員的小型組織而言,DRaaS可能是災(zāi)難恢復(fù)的唯一可行且經(jīng)濟(jì)實惠的選擇。
但是,DRaaS可能無法滿足某些行業(yè)大型組織面臨的所有合規(guī)要求。他們通常也不會提供與其他災(zāi)難恢復(fù)站點選項一樣多的定制范圍。
災(zāi)難恢復(fù)解決方案 |
優(yōu)勢 |
劣勢 |
內(nèi)部部署 |
·企業(yè)保留對數(shù)據(jù)、應(yīng)用程序和流程的控制
?·完全可定制
|
?·價格昂貴
?·需要工作人員的時間和技能
?·更容易在災(zāi)難中失敗 |
托管 |
?·可能比擁有自己的數(shù)據(jù)中心便宜
?·比擁有自己的數(shù)據(jù)中心需要更少的時間和專業(yè)知識
?·企業(yè)保留對數(shù)據(jù),應(yīng)用程序和流程的大部分控制權(quán)
•需要一些員工時間和技能 |
·企業(yè)保留對數(shù)據(jù),應(yīng)用程序和流程的大部分控制權(quán)•需要一些員工時間和技能
?·工作人員必須親自前往主機(jī)托管站點部署硬件 |
主機(jī)托管 |
?·供應(yīng)商處理IT基礎(chǔ)設(shè)施部署
?·遠(yuǎn)程基礎(chǔ)架構(gòu)管理
?·可能比其他選項更具成本效益 |
?·減少客戶對物理基礎(chǔ)設(shè)施的控制
?·定制能力較差
|
災(zāi)難恢復(fù)即服務(wù) |
?·供應(yīng)商處理災(zāi)難恢復(fù)的各個方面
?·可能比其他選項更具成本效益 |
?·可能不符合法規(guī)要求
·更少的自定義選項
?·客戶對硬件和流程幾乎沒有控制權(quán) |
選擇災(zāi)難恢復(fù)解決方案的關(guān)鍵注意事項
無論企業(yè)是自行設(shè)置災(zāi)難恢復(fù)解決方案還是使用托管主機(jī)或DRaaS供應(yīng)商的服務(wù),都需要確保其滿足自己的需求,并符合自己的預(yù)算。以下問題可以幫助企業(yè)根據(jù)自己的情況指導(dǎo)正確的災(zāi)難恢復(fù)解決方案:
•什么是恢復(fù)點目標(biāo)(RPO),企業(yè)的恢復(fù)時間目標(biāo)(RTO)是什么?企業(yè)的恢復(fù)點目標(biāo)(RPO)決定其數(shù)據(jù)需要備份的頻率。例如,如果企業(yè)的恢復(fù)點目標(biāo)(RPO)是24小時,只需要每24小時備份一次數(shù)據(jù)。如果企業(yè)的RPO為10分鐘,這意味著企業(yè)的業(yè)務(wù)不會丟失超過10分鐘的數(shù)據(jù)。
企業(yè)的恢復(fù)點目標(biāo)(RPO)需要多長時間才能恢復(fù)已恢復(fù)的數(shù)據(jù)和應(yīng)用程序的運行。例如,5分鐘的恢復(fù)時間目標(biāo)(RTO)意味著如果發(fā)生緊急情況,企業(yè)可以將故障轉(zhuǎn)移到災(zāi)難恢復(fù)系統(tǒng),并讓所有人在5分鐘內(nèi)重新開始工作。
許多組織針對不同的應(yīng)用程序有不同的恢復(fù)點目標(biāo)(RPO)和恢復(fù)時間目標(biāo)(RTO)。例如,企業(yè)的電子郵件系統(tǒng)可能有6個小時的恢復(fù)點目標(biāo)(RPO),但企業(yè)的交易處理系統(tǒng)的恢復(fù)時間目標(biāo)(RTO)時間為10秒。
•企業(yè)的合規(guī)要求是什么?根據(jù)企業(yè)所在行業(yè)和開展業(yè)務(wù)的地理位置,法規(guī)可能會要求企業(yè)制定災(zāi)難恢復(fù)/業(yè)務(wù)連續(xù)性計劃,在一段時間后備份數(shù)據(jù)或使用符合特定條件的故障轉(zhuǎn)移站點。企業(yè)的災(zāi)難恢復(fù)計劃可能還需要滿足某些隱私和安全標(biāo)準(zhǔn),以滿足其合規(guī)需求。
•企業(yè)的故障轉(zhuǎn)移站點需要什么級別的可用性?從本質(zhì)上講,企業(yè)需要確定備份系統(tǒng)可用的備份等級。Uptime Institute根據(jù)其冗余等級將數(shù)據(jù)中心分為不同的等級。宣傳Tier 4等級的數(shù)據(jù)中心的托管和云計算供應(yīng)商滿足最高要求(并且價格最高),而提供最低可用性的托管商和云計算供應(yīng)商僅滿足Tier 1標(biāo)準(zhǔn)。
數(shù)據(jù)中心等級 |
冗余要求 |
可用性 |
每年可用性停機(jī)時間 |
Tier 1 |
沒有冗余 |
99.671% |
28.8小時 |
Tier 2 |
電源和冷卻的部分冗余 |
99.741% |
22小時 |
Tier 3 |
所有組件至少有一個備份(N + 1) |
99.982% |
1.6 小時 |
Tier 4 |
所有組件都有備份,即使所有主系統(tǒng)一次失敗(2N + 1),數(shù)據(jù)中心也將保持運行 |
99.995% |
26.3 分鐘 |
•企業(yè)的災(zāi)難恢復(fù)站點應(yīng)距離主要站點有多遠(yuǎn)?在附近設(shè)置故障轉(zhuǎn)移站點意味著更少的延遲,因此恢復(fù)情況下的性能更快。但是,如果企業(yè)設(shè)置故障轉(zhuǎn)移站點離主要的站點太靠近,則可能會出現(xiàn)災(zāi)難恢復(fù)站點受主要站點所遭遇的同一災(zāi)難的影響。要回答這個問題,企業(yè)需要考慮所在的地理位置、自然或人為災(zāi)難的風(fēng)險,以及自己的需求。
•企業(yè)的災(zāi)難恢復(fù)站點是否已做好充分的準(zhǔn)備來應(yīng)對重大災(zāi)難?如果災(zāi)難恢復(fù)站點位于可能受到颶風(fēng)、龍卷風(fēng)、火災(zāi)、洪水或其他事件影響的區(qū)域,則需要確保供應(yīng)商采取足夠的措施來處理這些情況。
•災(zāi)難恢復(fù)解決方案具有哪些測試功能?如前所述,定期測試災(zāi)難恢復(fù)計劃非常重要。確保企業(yè)使用的任何供應(yīng)商都支持其測試需求,并且企業(yè)可以將它們包含在其SLA中。
•災(zāi)難恢復(fù)解決方案是否提供適當(dāng)?shù)陌踩?無論企業(yè)使用哪種災(zāi)難恢復(fù)站點,都需要確保故障切換站點具有良好的物理安全性,包括受控的入口和出口以及監(jiān)控系統(tǒng)。企業(yè)還需要確保其故障轉(zhuǎn)移站點與其他網(wǎng)絡(luò)具有相同類型的IT安全,其中包括防火墻、加密、身份和訪問管理、入侵防護(hù)等。
•災(zāi)難恢復(fù)解決方案能夠處理日益增長的數(shù)據(jù)量嗎?由于企業(yè)的系統(tǒng)正在存儲越來越多的數(shù)據(jù),因此企業(yè)需要確保其災(zāi)難恢復(fù)解決方案也可以擴(kuò)展,而不會浪費自己的預(yù)算。
•災(zāi)難恢復(fù)解決方案的成本是多少?不同的供應(yīng)商以不同的方式收取軟件和災(zāi)難恢復(fù)服務(wù)費用,因此企業(yè)需要進(jìn)行總擁有成本(TCO)和投資回報率(ROI)評估以確保企業(yè)公平地比較不同的選項。
災(zāi)難恢復(fù)服務(wù)
提供災(zāi)難恢復(fù)解決方案的公司名單非常長。以下內(nèi)容僅僅是一些較為知名的災(zāi)難恢復(fù)提供商的示例,以及各自提供的產(chǎn)品和服務(wù)類型的簡要概述:
•Acronis - DR軟件和DRaaS
•Arcserve(以前稱Zetta)- DRaaS
•Axcient - DRaaS
•Bluelock - DRaaS
•Carbonite - DRaaS
•CloudEndure - DR軟件
•Carbonite - DRaaS
•Cordero - DRaaS
•C&W業(yè)務(wù) - 托管和DRaaS
•CloudHPT - 托管和DRaaS
•Carbonite - DRaaS
•Cordero - DRaaS
•Datto - DRaaS
•EvolveIP - 托管和DRaaS
•Expediant-主機(jī)托管和DRaaS
•Flexential(以前的Peak 10) - 托管,托管托管和DRaaS
•Geminare-DR軟件和DRaaS
IBM - DR軟件和DRaaS
•Iland - 托管和DRaaS
•Infrascale - DRaaS
•Iron Mountain - DRaaS
•Microsoft - DRaaS
•Managecast - DRaaS
•OwnBackup - DR軟件
•Quorum-DR設(shè)備和DRaaS
•Quorum-DR設(shè)備和DRaaS
•Recovery Point - 托管和DRaaS
•StorageCraft - DR軟件和DRaaS
•Sungard Availability Services - 托管和DRaaS
•Syncsort Vision Solutions - DRaaS
•TierPoint - 托管和DRaaS
•UltraBac - DR軟件,設(shè)備和DRaaS
•Unitrends - DR軟件,設(shè)備和DRaaS
•Verizon - 托管和DRaaS
•Veeam - DR軟件和DRaaS
•Vembu - DR軟件和DRaaS
•VMware - DR軟件
•WANDisco - DR軟件
•Zerto - DR軟件