業(yè)務(wù)和管理需求使得數(shù)據(jù)中心管理和災(zāi)難恢復(fù)的缺陷更加明顯。二十年前,用貨車(chē)運(yùn)輸磁帶進(jìn)行存儲(chǔ)就能滿足需求了。十年前,兩個(gè)數(shù)據(jù)中心的距離只要能進(jìn)行I/O,就能滿足需求。現(xiàn)在,隨著電子商務(wù)成為首要的負(fù)載,恢復(fù)計(jì)劃還得考慮數(shù)據(jù)中心的地理距離,這一點(diǎn)限制了恢復(fù)時(shí)間。
地理距離與數(shù)據(jù)中心管理
概念上,這是關(guān)于兩個(gè)不同位置的數(shù)據(jù)中心,如圖1所示。在數(shù)目也許會(huì)擴(kuò)展到更多站點(diǎn)。
圖1:地理性分離數(shù)據(jù)中心的示意圖
圖中兩個(gè)數(shù)據(jù)中心是分離的,這對(duì)于進(jìn)行同步磁盤(pán)輸入輸出來(lái)說(shuō),實(shí)在太遠(yuǎn)了,這導(dǎo)致了很多需求。首先每個(gè)數(shù)據(jù)中心必須得有自己的直接存取存儲(chǔ)設(shè)備(Direct Access Storage Device,簡(jiǎn)稱DASD)場(chǎng)所來(lái)進(jìn)行管理。第二是同步硬件復(fù)制會(huì)因?yàn)榫W(wǎng)絡(luò)延遲而無(wú)法工作。最后,距離也意味著,每個(gè)數(shù)據(jù)中心的邏輯分區(qū)(logical partition,簡(jiǎn)稱LPAR)不能處于同一個(gè)Sysplex(Systems Complex,系統(tǒng)聯(lián)合體)里面。
網(wǎng)絡(luò)在數(shù)據(jù)中心管理中占了重要位置,是兩個(gè)數(shù)據(jù)中心之間的切換開(kāi)關(guān)。有了合適的內(nèi)部通訊系統(tǒng),以后的要求都可以基于不同標(biāo)準(zhǔn),按路線分給每個(gè)數(shù)據(jù)中心。其實(shí),有了現(xiàn)在基于瀏覽器的應(yīng)用,用戶可以實(shí)現(xiàn)不同數(shù)據(jù)中心的不間斷切換。
因?yàn)橛布?fù)制不可用,數(shù)據(jù)必須在邏輯數(shù)據(jù)庫(kù)或者訪問(wèn)方式(access method)的級(jí)別上被獲取。有幾個(gè)產(chǎn)品可以做這件事。部分產(chǎn)品得通過(guò)讀數(shù)據(jù)庫(kù)或Virtual Storage Access Method(簡(jiǎn)稱VSAM)記錄來(lái)升級(jí)。變更投到其他數(shù)據(jù)中心,通過(guò)通信線路使用多種的傳輸協(xié)議。在接收端,由另一個(gè)軟件發(fā)給數(shù)據(jù)庫(kù)或訪問(wèn)方式命令來(lái)完成遠(yuǎn)程升級(jí)。
為相隔兩地的數(shù)據(jù)中心配置
分離的數(shù)據(jù)中心有好幾種方式來(lái)配置,能想到的有以下幾種:
Hot-warm
企業(yè)中一個(gè)數(shù)據(jù)中心被指派成為所有網(wǎng)絡(luò)流量的目標(biāo)。在第一個(gè)數(shù)據(jù)中心的升級(jí)會(huì)被復(fù)制到第二個(gè)數(shù)據(jù)中心站點(diǎn),第二個(gè)會(huì)接收并把這些改變用在本地的DASD場(chǎng)所。一旦第一個(gè)數(shù)據(jù)中心故障,若第二個(gè)站點(diǎn)在線,混亂會(huì)降至最低。
升級(jí)-查詢
在升級(jí)-查詢的方案中,一個(gè)數(shù)據(jù)中心地區(qū)全體升級(jí),而其他只允許查詢。升級(jí)的站點(diǎn)為只讀的系統(tǒng)聯(lián)合體及時(shí)帶來(lái)改變。如果升級(jí)數(shù)據(jù)中心失敗,負(fù)責(zé)查詢的系統(tǒng)聯(lián)合體得負(fù)全責(zé)。
網(wǎng)絡(luò)在進(jìn)行這種安裝時(shí),起決定性作用,它必須能問(wèn)信息內(nèi)容,來(lái)區(qū)分詢問(wèn)和升級(jí)事務(wù)。工作站可能也會(huì)使用網(wǎng)絡(luò)來(lái)平衡負(fù)載,使每個(gè)數(shù)據(jù)中心能夠帶上屬于自己的只讀流量。
升級(jí)-升級(jí)
這是個(gè)實(shí)實(shí)在在的事。每個(gè)數(shù)據(jù)中心支持所有數(shù)據(jù)的所有升級(jí)。兩種方式的復(fù)制流經(jīng)通信連接,保持?jǐn)?shù)據(jù)庫(kù)的同步。一旦發(fā)生故障,沒(méi)有出問(wèn)題的數(shù)據(jù)中心承擔(dān)所有即將到來(lái)的流量。
注意當(dāng)兩個(gè)數(shù)據(jù)中心都升級(jí)時(shí),數(shù)據(jù)在邏輯上可能會(huì)分離。比如說(shuō)對(duì)用戶的初級(jí)數(shù)據(jù)庫(kù)在密西西比河西邊的“A數(shù)據(jù)中心”,第二個(gè)只讀的數(shù)據(jù)在“B數(shù)據(jù)中心”。用戶在哪一邊都可能是反向的。最終,這意味著網(wǎng)絡(luò)必須足夠智能,知道客戶的初級(jí)數(shù)據(jù)在哪。
其他的問(wèn)題
相信各位深思熟慮的讀者已經(jīng)想到不少這些問(wèn)題。但是還有更多令人不安的不穩(wěn)定因素。
批處理——在升級(jí)-升級(jí)的模式下,生產(chǎn)量會(huì)問(wèn)題多多。企業(yè)得決定哪一方進(jìn)行批處理,如果批處理兩方都得進(jìn)行就更頭疼了。還得考慮對(duì)帶寬的需求,用以從I/O相關(guān)批處理事務(wù)中擠出空間升級(jí),通過(guò)復(fù)制鏈接。
復(fù)制的延遲——現(xiàn)代通信連接又快有可靠,但還會(huì)有問(wèn)題。就算是最快最完美的通信線也不能和DASD I/O一樣同步和快速。因此,系統(tǒng)基礎(chǔ)架構(gòu)和一部分應(yīng)用必須準(zhǔn)備好應(yīng)對(duì)延遲和“過(guò)時(shí)”的數(shù)據(jù)。
沖突問(wèn)題——數(shù)據(jù)庫(kù)管理系統(tǒng)(Database Management Systems,簡(jiǎn)稱DBMS)在不同的系統(tǒng)聯(lián)合體中,不能從太寬的距離鎖定數(shù)據(jù)庫(kù)記錄。這導(dǎo)致在不同數(shù)據(jù)中心內(nèi),相同的數(shù)據(jù)庫(kù)記錄可能會(huì)同時(shí)升級(jí)。基礎(chǔ)設(shè)施和應(yīng)用需要準(zhǔn)備好應(yīng)對(duì)混亂。
控制改變——基礎(chǔ)設(shè)施、應(yīng)用和數(shù)據(jù)庫(kù)設(shè)計(jì)的改變一定得認(rèn)真管理,避免破壞在不同數(shù)據(jù)中心復(fù)制的一致性。
漂移——沒(méi)有異步復(fù)制技術(shù)在邏輯I/O層面是完美的,企業(yè)會(huì)發(fā)現(xiàn)分叉數(shù)據(jù)存儲(chǔ)變慢。整理這些不同需要周期性的調(diào)和進(jìn)程。
死亡——對(duì)于數(shù)據(jù)中心來(lái)說(shuō),什么算死?數(shù)據(jù)中心通過(guò)復(fù)制流量和heartbeat來(lái)保持聯(lián)系。但是復(fù)制流量的減慢可能預(yù)示著一個(gè)數(shù)據(jù)中心工作做的少了。同樣地,一些遺落的heartbeat也暗示著網(wǎng)絡(luò)故障或減慢,而不是數(shù)據(jù)中心故障。
探查和遵照這些察覺(jué)到的故障來(lái)行事,要求精心策劃的政策、高度自動(dòng)化和仔細(xì)的管理。好消息是數(shù)據(jù)中心的地理分離逐漸變得平常,解決這些問(wèn)題的政策也變得更加便于學(xué)習(xí)。