上周,德克薩斯州的天空湛藍,陽光溫潤,我心情很好地坐在梯子上休息。一群小孩子咯咯直笑,鬧鬧哄哄地在游泳池邊潑水嬉戲。突然,撲通一聲,有一個物體以慢動作從十英尺扶梯高度滑落到地板,并且反彈了一下。
幸運的是,不是我從梯子上跌下來了,而是我信賴的iPhone,它現在像泰坦尼克號一樣沉沒在深水區。我親愛的,昂貴的智能手機就這樣離我而去。
但是,令人驚訝的是,它幸免于難了!將它吹干,并且做了一下清潔之后,重新啟動就像什么事也沒發生過一樣。事實上,我的iPhone是被融合拯救了,每天相同的基礎設施融合補救措施讓數千個數據中心避免災難爆發。
數據中心薄弱的地方
不是我想要點燃戰火,但是iPhone6可能真的是我擁有的最偉大的一個小發明。是的,我很喜歡Fluke meter多用表;無人機也非常有趣;并且我一定不會讓你奪走我的家用802.11ac Aironets.然而,iPhone還是那么地與眾不同。也許是因為我略過了4S、5/5S,才特別珍惜它;又或許我只是很高興終于有一個屏幕和Android一樣大的iPhone,或許僅僅只是因為iPhone6的設計。更有可能的是,iPhone6永遠不會造成麻煩。是的,超級怪胎——我使用iOS系統是因為我不用去考慮別的事情。(Android系統的粉絲會說我沒有能力去思考,他們可能是正確的。)
作為資深的網絡工程師,我們也應該差不多受夠了反反復復的緊急維修,雖然這曾經是我們職業生涯的標志。在某種程度上,我們使用改進的規劃,供應商提供的新性能,主動網絡監控和管理消除了大部分可避免的問題。與此同時,我們數據中心基礎設施的一個變化也大大降低了硬件故障,雖然創造了新的復雜性。這一變化就是基礎設施的加速融合。
我遇到了99個問題,但是不包括交換機
先舉一個融合基礎設施帶來可用性好處的例子:架頂式(top-of-rack, ToR)交換機。曾幾何時,各種金屬服務器努力互連。架頂式(top-of-rack, ToR)交換機采用的是標準做法,通過一些昂貴的高速鏈路與匯聚交換機互連。然而,在現代數據中心中,10 GbE和40 GbE端口很常見。于是架頂式交換機基本上都被替換:一開始是被end-of-row交換機,后來直接被大型、多模式匯聚機架替換。這可能意味著更多地互連電纜,但是電纜和端口比原有的多機箱要可靠得多。
除了集裝箱式數據中心拓撲結構的高度模塊化,我們還將數十個架頂式設備匯聚成單一元素。其結果是,服務失敗率有所下降。乍一看這似乎有悖常理,畢竟,融合會減少并行。因此,會出現單點故障,可能會產生較大的潛在影響。然而,現實是大部分匯聚交換機已經存在單點故障。在這樣的前提下,提高基礎設施融合度將帶動供應商提高可靠性。此外,更少的機箱意味著更少的故障。更妙的是,它意味著更少的跨配置運作。
對于系統管理員而言,融合基礎設施可靠性帶來的好處更加明顯。隨著虛擬化的實施,機箱、電源供應器、內存條等數量都會大量減少。同樣,在少量主機上部署的100個虛擬機看起來像針對單點故障開得處方。但是,對于風扇和內存這種分立元件故障錯誤,一個獨立的機箱容錯率會更高。同時,存儲區域網絡使存儲變得更可靠。最后,物理服務器數量大大減少讓我們以主動-主動待機和災難恢復形式上有真正的彈性。
手持設備上融合的縮影
縱觀融合基礎設施的下一次改革,歷史經驗表明,日益趨同等于提高了可用性,前提是正確部署。這也恰恰是iPhone設備上發生了的變化。2015年,iPhone由于溺水淘汰的比例不到20%,某種程度上是因為iPhone或Android Galaxy手機中組件互連的數量只是前兩代的一小撮。那么,就沒有什么地方可以讓水進去很久,即使是玻璃和屏幕間的薄薄空間也被密封。相應地,在我們的數據中心,也只有越來越少的空隙可以被破壞。
極客們發現,在緊急情況下,如果融合性夠高真正的災難不太會發生。在我的iPhone濕了之后,我用真空吸塵器處理了每一個端口,然后將其放在一袋大米中。約24小時候,即使將其放在水下八尺整整一分鐘,它還是可以重啟并工作。完美,令人難以置信的適應能力,很大的原因是因為組件變少。
當然,此后不久,我的實用主義觀念占據上風。我認為長期腐蝕可能會對設備造成不良影響,于是備份設備,驅車直奔最近的蘋果專賣店,換了一個全新的iPhone。