為了實(shí)現(xiàn)重要商業(yè)應(yīng)用的零誤工,一些企業(yè)把數(shù)據(jù)中心也聯(lián)合起來(lái),這樣一來(lái)當(dāng)某個(gè)數(shù)據(jù)中心出現(xiàn)故障時(shí),上面的應(yīng)用可以切換到另外一個(gè)數(shù)據(jù)中心。服務(wù)器虛擬化技術(shù)的出現(xiàn),如VM遷移,使這一選擇更具靈活性。有些企業(yè)更勝一籌,通過(guò)創(chuàng)建相互連接的數(shù)據(jù)中心同時(shí)在兩個(gè)不同的數(shù)據(jù)中心里運(yùn)行相同的應(yīng)用。
雖然有許多關(guān)于此部署的架構(gòu)決策,但或許最關(guān)鍵的是兩個(gè)數(shù)據(jù)中心如何通過(guò)DCI連接。應(yīng)用與虛擬化軟件的要保持同步,則需要兩個(gè)數(shù)據(jù)中心之間的延時(shí)非常短,通常要控制在毫秒范圍。這一要求在IT和數(shù)據(jù)中心設(shè)計(jì)師創(chuàng)建DCI架構(gòu)性時(shí)起到了舉足輕重的作用。
由DCI連接的應(yīng)用需要使用以太網(wǎng),這樣就會(huì)帶來(lái)巨大的挑戰(zhàn),包括延時(shí)問(wèn)題,還可能創(chuàng)建環(huán)路從而導(dǎo)致網(wǎng)絡(luò)崩潰。有多種方案可以應(yīng)對(duì)這種挑戰(zhàn),包括使用運(yùn)營(yíng)商服務(wù),如Virtual Private LAN服務(wù),但是這些方案也存在自身局限性。
例如,當(dāng)VPLS 可用來(lái)阻止運(yùn)營(yíng)商網(wǎng)絡(luò)中的循環(huán)時(shí),它不會(huì)阻止客戶內(nèi)部網(wǎng)絡(luò)中出現(xiàn)循環(huán)。VPLS可能帶來(lái)延時(shí)并因此影響應(yīng)用的使用。客戶或許想使用Multichassis Link Aggregation之類的技巧,在這種技巧中,兩到多個(gè)以太網(wǎng)交換機(jī)在本地合并到一起使兩條以太網(wǎng)連接成為一條。
其他選擇還包括使用暗光纖和DWDM,二者都可以提供很快的連接。雖然暗光纖和DWDM都很貴,但是它們能為DCI提供最優(yōu)連接。
數(shù)據(jù)中心互聯(lián)增強(qiáng)應(yīng)用有效性
應(yīng)用如果出現(xiàn)故障,對(duì)企業(yè)的損失是比較大的,特別那些關(guān)乎關(guān)鍵業(yè)務(wù)的系統(tǒng)。阻止應(yīng)用故障的策略之一就是創(chuàng)建數(shù)據(jù)中心的互聯(lián),或是用DCI連接兩個(gè)數(shù)據(jù)中心,這樣當(dāng)故障出現(xiàn)在一個(gè)數(shù)據(jù)中心的時(shí)候,應(yīng)用會(huì)繼續(xù)在另一個(gè)數(shù)據(jù)中心里運(yùn)行。在ITIL推薦要發(fā)揮所有固有資產(chǎn)價(jià)值以及使用積極數(shù)據(jù)中心模式的倡導(dǎo)下,這種方法得到了進(jìn)一步發(fā)展。
有兩種方法可在兩個(gè)數(shù)據(jù)中心中創(chuàng)建可用性較高的應(yīng)用。第一是選擇一個(gè)應(yīng)用,在其中一個(gè)數(shù)據(jù)中心中使用這個(gè)應(yīng)用,而另外一個(gè)數(shù)據(jù)中心則作為備用。這樣,當(dāng)?shù)谝粋€(gè)數(shù)據(jù)中心出現(xiàn)故障時(shí),應(yīng)用會(huì)轉(zhuǎn)換到另一個(gè)數(shù)據(jù)中心繼續(xù)運(yùn)作。監(jiān)控管理技術(shù),如VMmare的vMotion,可以讓虛擬機(jī)從一個(gè)物理服務(wù)器轉(zhuǎn)移到另一個(gè)服務(wù)器上,通過(guò)此項(xiàng)操作來(lái)實(shí)現(xiàn)進(jìn)程的持續(xù)運(yùn)作。
第二種選擇是應(yīng)用同步化,這樣就可以在兩個(gè)數(shù)據(jù)中心里同時(shí)運(yùn)行應(yīng)用。群集,共享和存儲(chǔ)復(fù)制等技術(shù)都有助于實(shí)現(xiàn)同步化。
但是許多有應(yīng)用運(yùn)行的群集和復(fù)制技術(shù)都需要共享一個(gè)以太網(wǎng),而且以太網(wǎng)數(shù)據(jù)會(huì)通過(guò)單點(diǎn)播放/多點(diǎn)播放或廣播的形式發(fā)送給集群中的所有要素(服務(wù)器,數(shù)據(jù)庫(kù)和存儲(chǔ))。
問(wèn)題在于,雖然以太網(wǎng)可在數(shù)據(jù)中心電纜上傳輸幾百米,但是它的局限性也會(huì)對(duì)企業(yè)創(chuàng)建DCI形成阻礙。這些阻礙包括延時(shí)和帶寬挑戰(zhàn)。
運(yùn)營(yíng)商也提供了一些服務(wù)期望能應(yīng)對(duì)諸如此類的挑戰(zhàn),但是這些服務(wù)在部署方面仍然存在局限性,而且還不足以保障應(yīng)用的高可用性。我們將審查這些挑戰(zhàn)并介紹一些可創(chuàng)建DCI連接的替代物。最佳選擇是使用Multichassis Link Aggregation (MLAG)等技術(shù),因?yàn)樗鼈兪褂昧税倒饫w和DWDM服務(wù)。
延時(shí)問(wèn)題
延時(shí)是一個(gè)比較麻煩的問(wèn)題。造成延時(shí)的原因主要有三個(gè),最主要的就是距離。距離越遠(yuǎn),電子信號(hào)的傳輸時(shí)間就越長(zhǎng)。
兩個(gè)數(shù)據(jù)中心之間最常見的延時(shí)底線由VM遷移來(lái)決定,如用于VMware vSphere服務(wù)器的vMotion,它可以讓虛擬機(jī)從一個(gè)物理機(jī)組遷移到另一個(gè)機(jī)組。VMware稱,源服務(wù)器和目標(biāo)服務(wù)器之間的延時(shí)必須小于5毫秒 (vMotion Metro 許可證更改了vMotion TCP堆棧使其支持動(dòng)態(tài)套接緩沖,這樣便調(diào)整了TCP協(xié)議堆棧中里的內(nèi)存數(shù)據(jù)包緩沖,按照延時(shí)/帶寬情況優(yōu)化性能,可以容許稍長(zhǎng)一點(diǎn)的延時(shí))。
你的企業(yè)有沒有為改善網(wǎng)絡(luò)制定預(yù)算?
▲圖一:改善網(wǎng)絡(luò)連接的預(yù)算
實(shí)踐結(jié)果是數(shù)據(jù)中心的距離在50-75 公里范圍內(nèi)可以進(jìn)行可靠的VM遷移。
遺憾的是,這個(gè)距離對(duì)于較嚴(yán)重的災(zāi)難恢復(fù)計(jì)劃而言還不夠(如颶風(fēng),地震或是區(qū)域性的電信故障)。因此企業(yè)要平衡應(yīng)用應(yīng)對(duì)災(zāi)難恢復(fù)要求的彈性。
延時(shí)還會(huì)影響存儲(chǔ)復(fù)制,特別是在同步復(fù)制中,數(shù)據(jù)塊寫入必須在兩個(gè)站點(diǎn)間在5-10毫秒內(nèi)復(fù)制完,這要取決于恢復(fù)點(diǎn)的目標(biāo)恢復(fù)時(shí)間。
對(duì)于同步操作而言,延時(shí)的影響比較小,因?yàn)閷懭氪_認(rèn)可以在不影響存儲(chǔ)源的情況下被接收到,而且請(qǐng)求/響應(yīng)順序沒有通過(guò)寫入確認(rèn)來(lái)限制。但是如果你計(jì)劃進(jìn)行亞秒故障轉(zhuǎn)移,通常需要進(jìn)行同步存儲(chǔ)來(lái)確保數(shù)據(jù)不被丟失。
另一個(gè)導(dǎo)致延時(shí)的不顯著因素是運(yùn)營(yíng)商往往使用隧道協(xié)議,如MPLS,ATM或SONET.MPLS網(wǎng)絡(luò)的問(wèn)題在于運(yùn)營(yíng)商不能保障網(wǎng)絡(luò)中兩站點(diǎn)之間的路徑。運(yùn)營(yíng)商網(wǎng)絡(luò)可能在一個(gè)城市的多個(gè)節(jié)點(diǎn)跳動(dòng),這樣以太網(wǎng)絡(luò)幀在轉(zhuǎn)發(fā)時(shí)會(huì)增加處理延時(shí)。
最后一個(gè)導(dǎo)致延時(shí)的要素是帶寬。網(wǎng)速快當(dāng)然延時(shí)就短;例如,1G接口的延時(shí)為5.7毫秒,但是10G接口的延時(shí)僅為0.57毫秒。簡(jiǎn)而言之,改善延時(shí)問(wèn)題的簡(jiǎn)單方法就是使用高帶寬網(wǎng)絡(luò)。
QoS挑戰(zhàn)
應(yīng)用在兩個(gè)數(shù)據(jù)中心之間的有效性也會(huì)影響QoS設(shè)置的限制。以太網(wǎng)有五個(gè)可用的QoS類可以對(duì)數(shù)據(jù)流進(jìn)行分類管理,這樣便能限制第二層數(shù)據(jù)中心互聯(lián)可以處理的服務(wù)量。
同時(shí),在DCI上你還有兩股不同類型的數(shù)據(jù)來(lái)維持應(yīng)用的有效性:突發(fā)性,高帶寬應(yīng)用和低延時(shí),持續(xù)爆發(fā)的監(jiān)控遷移數(shù)據(jù)流。因此,你必須設(shè)計(jì)好QoS設(shè)置使其滿足兩種數(shù)據(jù)的需求。
注意,不論有多少帶寬可用,都可能出現(xiàn)瞬時(shí)數(shù)據(jù)爆發(fā)占用所有帶寬,從而使你的QoS設(shè)置失效。這種情況可能出現(xiàn)在數(shù)據(jù)路徑的任何一處,即便是以微秒來(lái)計(jì)算的數(shù)據(jù)爆發(fā)都嚴(yán)重影響整體傳輸性能。網(wǎng)絡(luò)阻滯可能導(dǎo)致各種數(shù)據(jù)回流,致使問(wèn)題復(fù)雜化。
Traffic Trombone
創(chuàng)建DCI過(guò)程中以太網(wǎng)面臨的另一種挑戰(zhàn)是“Traffic Trombone(網(wǎng)絡(luò)內(nèi)部的信息往返流動(dòng))”(圖3)。以在線商務(wù)為例: 它有面向公眾的Web/應(yīng)用服務(wù)器,該服務(wù)器可連接至內(nèi)部數(shù)據(jù)庫(kù)服務(wù)器。假設(shè),有一個(gè)VLAN已被擴(kuò)展到第二個(gè)數(shù)據(jù)中心。
如果該Web服務(wù)器在兩個(gè)數(shù)據(jù)中心間徘徊,它會(huì)保留相同的IP地址,所有數(shù)據(jù)都必須穿過(guò)DCI鏈接。如圖3所示,里面包括了出入外部用戶端的數(shù)據(jù)以及出入數(shù)據(jù)庫(kù)的數(shù)據(jù)。
另需增加的帶寬嚴(yán)重限制了該方案的可擴(kuò)展性而且還增加了帶寬的成本。供應(yīng)商正推出DNS負(fù)載平衡之類的傳輸系統(tǒng),因?yàn)檫@樣的系統(tǒng)可以隨時(shí)將數(shù)據(jù)流發(fā)送到新地址,不過(guò)它們的實(shí)用性還不足。例如,如果你的數(shù)據(jù)庫(kù)沒有用類似Web服務(wù)器這樣的監(jiān)管平臺(tái)進(jìn)行虛擬化,你如何能對(duì)推動(dòng)數(shù)據(jù)庫(kù)服務(wù)器及其相關(guān)應(yīng)用和Web服務(wù)器機(jī)制進(jìn)行管理呢?
阻止循環(huán)
以太網(wǎng)為DCI的創(chuàng)建帶來(lái)了另一個(gè)技術(shù)性障礙。以太網(wǎng)創(chuàng)建于30年前,是一種本地網(wǎng)絡(luò)協(xié)議,所以當(dāng)時(shí)沒有考慮到跨機(jī)器擴(kuò)展。就設(shè)計(jì)而言,以太網(wǎng)是一種多路存取技術(shù),所以可通過(guò)網(wǎng)絡(luò)上的所有端點(diǎn)接收以太網(wǎng)廣播和多點(diǎn)傳播幀。
因此,當(dāng)主機(jī)發(fā)送以太網(wǎng)廣播或多點(diǎn)播幀時(shí),這個(gè)幀必須通過(guò)所有以太網(wǎng)進(jìn)行轉(zhuǎn)發(fā),包括DCI.當(dāng)廣播幀循環(huán)回到以太網(wǎng)網(wǎng)絡(luò)時(shí),它就會(huì)被所有交換機(jī)轉(zhuǎn)發(fā),即便它此前已被廣播。這就制造了一種快速消耗所有網(wǎng)絡(luò)帶寬的條件,而結(jié)果便是導(dǎo)致網(wǎng)絡(luò)癱瘓。
數(shù)年前開發(fā)的生成樹協(xié)議就是為了阻止這種循環(huán),而且它現(xiàn)在仍在沿用,盡管Rapid Spanning Tree Protocol (RSTP)已經(jīng)在可靠性和速度方面有所超越。
問(wèn)題是Spanning Tree不能在長(zhǎng)距離傳輸中效果不好。當(dāng)網(wǎng)絡(luò)延時(shí)超過(guò)250毫秒時(shí),RSTP就不再能阻止循環(huán)。
結(jié)論便是Spanning Tree不能在創(chuàng)建DCI時(shí)有效阻止循環(huán)。試一下你就會(huì)發(fā)現(xiàn)它易受單向數(shù)據(jù)流的影響,而其他操作都會(huì)出現(xiàn)故障。雖然存在單向鏈路檢測(cè)協(xié)議(UDLD)這樣的補(bǔ)丁,但是運(yùn)營(yíng)商的服務(wù)很有可能會(huì)攔截UDLD或是其他減少STP限制的功能。
供應(yīng)商開發(fā)出了很多技術(shù)復(fù)雜的方案用于解決循環(huán)問(wèn)題。三種最常見的方案就是VPLS,MLAG/PortChannel和OTV.