隨著社會(huì)發(fā)展和科技進(jìn)步, 數(shù)據(jù)中心面臨的風(fēng)險(xiǎn)和威脅越來越大,一旦數(shù)據(jù)中心因?yàn)橥话l(fā)災(zāi)難造成關(guān)鍵業(yè)務(wù)數(shù)據(jù)丟失或信息系統(tǒng)故障,將嚴(yán)重影響企業(yè)業(yè)務(wù)的正常運(yùn)營,甚至威脅到國家安全 .而包含有大量電子設(shè)備的數(shù)據(jù)中心各系統(tǒng)在運(yùn)行過程中不可避免地都會(huì)發(fā)生因故障而失效的時(shí)候。硬件故障、軟件錯(cuò)誤、人工操作失誤甚至對(duì)系統(tǒng)的惡意破壞,這些都可能導(dǎo)致系統(tǒng)運(yùn)行的非正常中斷,影響系統(tǒng)中數(shù)據(jù)的正確性或破壞系統(tǒng)的數(shù)據(jù)庫,使部分甚至全部數(shù)據(jù)丟失。所以如何保證數(shù)據(jù)中心的業(yè)務(wù)連續(xù)運(yùn)營是數(shù)據(jù)中心管理者們首先要考慮的重要問題。
數(shù)據(jù)中心保持業(yè)務(wù)連續(xù)最大的威脅不是來自于火災(zāi)、地震等小概率、大影響的災(zāi)難, 更多地受到諸如人為錯(cuò)誤、流程缺陷等事件的威脅。這些威脅時(shí)刻潛伏在企業(yè)的周圍, 隨時(shí)一觸即發(fā),會(huì)影響數(shù)據(jù)中心的業(yè)務(wù)連續(xù)性, 使企業(yè)造成重大損失。
今年以來,數(shù)據(jù)中心故障引發(fā)的業(yè)務(wù)故障觸目驚心:
2013年1月31日,亞馬遜Amazon.com主頁出故障,一小時(shí)的中斷時(shí)間讓該公司錯(cuò)失了近500萬美元的收入;2013年1月28日,F(xiàn)acebook網(wǎng)站業(yè)務(wù)中斷;
2013年2月1-2,微軟的Office 365編輯套件和Outlook.com郵件服務(wù)陸續(xù)出現(xiàn)了業(yè)務(wù)中斷;
2013年6月3日,Twitter服務(wù)業(yè)務(wù)中斷,Twitter用戶無法訪問該服務(wù)來發(fā)送或讀取內(nèi)容;
2013年8月19日,因數(shù)據(jù)中心網(wǎng)絡(luò)硬件出現(xiàn)故障,部分微信用戶發(fā)現(xiàn)無法收發(fā)信息,還有人的微信自動(dòng)退回至軟件登錄界面后發(fā)現(xiàn)無法再登錄。
這些大型的互聯(lián)網(wǎng)數(shù)據(jù)中心都會(huì)頻繁出現(xiàn)業(yè)務(wù)中斷的故障,其它的數(shù)據(jù)中心就更是故障不斷了。當(dāng)然這些企業(yè)也知道業(yè)務(wù)持續(xù)中斷意味著什么,可有時(shí)卻又在數(shù)據(jù)中心故障面前顯得無能為力。
表1列出了各個(gè)行業(yè)數(shù)據(jù)中心中斷一個(gè)小時(shí)造成的損失預(yù)估,可見損失是要按分鐘來計(jì)算的,數(shù)據(jù)中心無法提供服務(wù)就意味著業(yè)務(wù)的減少,時(shí)間和金錢都將受損,業(yè)務(wù)連續(xù)性對(duì)數(shù)據(jù)中心來說重要性不言而喻。在當(dāng)今信息高速發(fā)展的社會(huì),人們的工作、生活高度依賴于各類信息的傳遞與管理。而這些信息處理的背后都有數(shù)據(jù)中心在高效運(yùn)轉(zhuǎn),很難想象如果沒有數(shù)據(jù)中心這個(gè)世界怎能運(yùn)轉(zhuǎn)。人們?cè)绞且蕾囉跀?shù)據(jù)中心,數(shù)據(jù)中心對(duì)人們就越重要。而提供穩(wěn)定、持續(xù)的服務(wù),這是人們對(duì)數(shù)據(jù)中心的基本要求。現(xiàn)實(shí)中這種要求卻很難做到,這是因?yàn)閿?shù)據(jù)中心是一個(gè)信息技術(shù)高度集中的場所,技術(shù)實(shí)現(xiàn)復(fù)雜,備份技術(shù)很多但要做到全部備份成本就太高,并且過度的備份也增加了系統(tǒng)運(yùn)行的復(fù)雜性,反而帶來了整體運(yùn)行的不穩(wěn)定。
表1:數(shù)據(jù)中心業(yè)務(wù)中斷造成的損失預(yù)估表
那么如何才能有效保證數(shù)據(jù)中心的業(yè)務(wù)連續(xù)性?
要保持?jǐn)?shù)據(jù)中心業(yè)務(wù)的長期連續(xù)性困難重重,因?yàn)楸3謹(jǐn)?shù)據(jù)中心業(yè)務(wù)連續(xù)是一個(gè)長期、全面、持續(xù)完善的過程。在完成數(shù)據(jù)中心建設(shè)之后,還應(yīng)考慮如何確定業(yè)務(wù)需求和進(jìn)行應(yīng)急響應(yīng)等問題,為保證數(shù)據(jù)中心業(yè)務(wù)連續(xù)性,需要從組織和團(tuán)隊(duì)、IT技術(shù)、基礎(chǔ)設(shè)施、業(yè)務(wù)恢復(fù)到公共關(guān)系管理等各個(gè)方面做工作。這些工作涉還可能涉及機(jī)構(gòu)高管層、科技、財(cái)務(wù)、審計(jì)等各個(gè)部門,因此為保障數(shù)據(jù)中心業(yè)務(wù)的連續(xù)性需要全員參與,是一個(gè)復(fù)雜的即涉及技術(shù)又涵蓋管理的綜合問題。
關(guān)于如何保持業(yè)務(wù)的連續(xù)性問題已經(jīng)引起了各類專家的熱議,對(duì)于數(shù)據(jù)中心更是需要保持業(yè)務(wù)的連續(xù)性。業(yè)務(wù)連續(xù)性管理已經(jīng)演變成了一門管理學(xué)科,在數(shù)據(jù)中心中得到了越來越多的應(yīng)用。所謂業(yè)務(wù)連續(xù)性管理,即Business Continuity Management,簡稱BCM.這個(gè)概念最早脫胎于傳統(tǒng)的IT備份與容災(zāi)恢復(fù)計(jì)劃,業(yè)務(wù)連續(xù)性管理是一個(gè)一體化的管理過程,通過這一過程,可以識(shí)別威脅組織機(jī)構(gòu)的潛在風(fēng)險(xiǎn),并提供一個(gè)指導(dǎo)性框架來建立組織機(jī)構(gòu)的恢復(fù)能力和有效應(yīng)急響應(yīng)能力,從而保護(hù)利益相關(guān)者的資產(chǎn),組織機(jī)構(gòu)的信譽(yù)、品牌及其創(chuàng)造價(jià)值的活動(dòng)。BCM的前身是災(zāi)難恢復(fù)(DR)和業(yè)務(wù)連續(xù)計(jì)劃(BCP),真正受到重視是在20世紀(jì)90年代,尤其是2001年美國911恐怖事件之后,開始了快速發(fā)展。作為一個(gè)相對(duì)較新的概念,業(yè)務(wù)連續(xù)性管理相關(guān)工作在中國剛剛起步,在2003年SARS期間得到重視,并在2008年汶川地震時(shí)災(zāi)后出列方面取得了成就。目前,BCM已經(jīng)在越來越多的企業(yè)中得到普及,尤其是數(shù)據(jù)中心領(lǐng)域。大約有85%的全球性企業(yè)實(shí)施了災(zāi)難恢復(fù)(DR)計(jì)劃,但是僅有15%具備了完善的業(yè)務(wù)連續(xù)性計(jì)劃(BCM),即僅有少數(shù)企業(yè)的災(zāi)難恢復(fù)計(jì)劃是以保障業(yè)務(wù)連續(xù)性為目標(biāo)。如果沒有一個(gè)完善并具可操作的連續(xù)性計(jì)劃,是無法確保達(dá)到災(zāi)備恢復(fù)預(yù)期目標(biāo)的。
BCM主要用于解決數(shù)據(jù)中心業(yè)務(wù)連續(xù)性兩個(gè)方面的問題:
(1) 高可用性。
是指提供在數(shù)據(jù)中心部分故障的情況下,仍能提供繼續(xù)訪問應(yīng)用的能力。不論這個(gè)故障是業(yè)務(wù)流程、物理設(shè)施、IT軟/硬件的故障。
(2) 災(zāi)難恢復(fù)。
是指當(dāng)災(zāi)難破壞數(shù)據(jù)中心時(shí)在不同地點(diǎn)、不同硬件設(shè)備上恢復(fù)數(shù)據(jù)的能力。上述兩個(gè)方面不是相互孤立的,而是相互關(guān)聯(lián)、有交叉的。為保證數(shù)據(jù)中心的業(yè)務(wù)連續(xù)性,高可用性和災(zāi)難恢復(fù)要映射到數(shù)據(jù)中心的各個(gè)層面,從用戶終端到服務(wù)器、 存儲(chǔ)器、甚至包括機(jī)房環(huán)境。國際標(biāo)準(zhǔn)ISO20000和ISO27001建立了規(guī)范的IT服務(wù)和信息安全的管理體系,在ISO20000的框架內(nèi),就包含了可持續(xù)性管理流程的內(nèi)容。
持續(xù)性管理具有以下活動(dòng)和過程:風(fēng)險(xiǎn)和災(zāi)難規(guī)避評(píng)估、確定整體恢復(fù)策略、確定與建設(shè)業(yè)務(wù)持續(xù)性計(jì)劃、設(shè)計(jì)開發(fā)持續(xù)性和災(zāi)備預(yù)案、預(yù)案演練、預(yù)案維護(hù)。通過這些活動(dòng)可以將數(shù)據(jù)中心業(yè)務(wù)中斷的風(fēng)險(xiǎn)有效降低。
數(shù)據(jù)中心的管理者已經(jīng)意識(shí)到了數(shù)據(jù)中心業(yè)務(wù)連續(xù)性的重要性,關(guān)鍵是要采取有效的BCM管理,確保數(shù)據(jù)中心不再發(fā)生業(yè)務(wù)中斷。