一種復雜的網(wǎng)絡結構設計方法有望幫助大型數(shù)據(jù)中心的運營人員應對硬件故障,并且讓他們得以購買不大昂貴的IT設備。許多公司試圖把多個數(shù)據(jù)中心連接起來時,一些網(wǎng)絡問題會隨之出現(xiàn);中國國防科技大學一名攻讀博士學位的中國學生試圖解決這些問題。
這種方法試圖為由多套1000至2000臺服務器模塊組成的數(shù)據(jù)中心確保擁有可靠的網(wǎng)絡性能——這些數(shù)據(jù)中心相互連接起來,組成所謂的“特大數(shù)據(jù)中心”。哪怕萬一出現(xiàn)多個硬件故障,這種方法也讓分布式應用軟件可以保持性能。
集裝箱式數(shù)據(jù)中心可能會帶來網(wǎng)絡問題,于是一名中國研究人員在著手解決這些問題。
在一篇題為《SCautz:一種面向模塊化數(shù)據(jù)中心的容錯網(wǎng)絡架構》的論文中,首席研究員Feng Huang撰文道,由于云計算提供商看到自己管理的IT系統(tǒng)數(shù)量不斷增加,于是求助于這種方法:把設備塞入到貨運集裝箱中,然后把這些集裝箱連接起來。雖然谷歌和亞馬遜網(wǎng)絡服務公司等許多云計算公司采用了這種方法,但是Huang認為,集裝箱之間的網(wǎng)絡性能一旦受到限制,都會給數(shù)據(jù)中心設施帶來巨大的影響。
Huang撰文道:“作為模塊化數(shù)據(jù)中心(MDC)的關鍵部件,模塊化數(shù)據(jù)中心網(wǎng)絡(MDCN)不完整的結構應該盡力保持網(wǎng)絡性能。最重要的問題是,MDCN的性能必須比MDC的計算和存儲部件更平穩(wěn)地退化,以便不至于成為致命的薄弱環(huán)節(jié),從而使集裝箱的總體性能提前低于閾值標準。”
細述SCautz方法
為了處理這個問題,Huang及其團隊想出了一種新的網(wǎng)絡結構設計方法,名為“SCautz”。
SCautz讓服務器可以執(zhí)行網(wǎng)絡交換機的許多典型功能,讓實際的交換機專門負責集裝箱之間的數(shù)據(jù)傳輸。這種方法采用了與軟件定義網(wǎng)絡(SDN)這個新興領域一樣的理念。像最近被VMware收購的Nicira這些公司涉足這個新興領域,試圖把網(wǎng)絡部分遷離專有硬件,改而轉移到基本服務器上。
SCautz方法假設:運營人員使用價格低廉的大眾化現(xiàn)成交換機——這種精簡版交換機并沒有各大網(wǎng)絡公司生產(chǎn)的許多額外的軟硬件。
研究團隊在模擬時將SCautz與微軟牽頭研發(fā)的為模擬化數(shù)據(jù)中心設計的試驗型網(wǎng)絡架構(名為BCube)進行了比較。
SCautz在測試中的表現(xiàn)幾乎與BCube一樣好,但是它所需要的交換機數(shù)量少得多,因而降低了數(shù)據(jù)中心網(wǎng)絡的總體成本。
此外,在10%到20%的網(wǎng)絡硬件出現(xiàn)故障的情況下,SCautz網(wǎng)絡的網(wǎng)絡吞吐量下降了6.91%到3.74%;相比之下,BCube的網(wǎng)絡吞吐量卻下降了15.3%到25.23%。
因而,SCautz能夠足夠巧妙地避開出現(xiàn)故障的硬件、進行路由傳送,因而網(wǎng)絡性能的下降幅度小于出現(xiàn)故障的硬件所占比例數(shù)。因而,SCautz網(wǎng)絡適應硬件故障的能力更強,為數(shù)據(jù)中心運營人員在應對硬件危機時提供了更大的靈活性。
Huang撰文道,研究的下一個階段就是,把多只基于SCautz的集裝箱連接起來,設計一種集裝箱之間的網(wǎng)絡。Huang目前正在中國國防科技大學攻讀博士學位。