每當向Amazon問起其AWS數據中心時,大家得到的回應都是:Amazon方面不會討論與其數據中心有關的話題。然而就在當下,該公司首席技術官終于打破了這一僵局。
一身全黑著裝證實了AWS所使用的可不止是“白”盒設備
Werner Vogels在本周三剛剛閉幕的倫敦AWS峰會上為與會者們開啟了一扇小窗,而我們也借此機會得以通過他作出的題為《AWS在數據中心領域的創新》的演講中一窺Amazon數據中心的神秘真容。
Vogels在會上身穿清一色黑色長褲、夾克及襯衫(他在自己上午的主題演講中穿著的則是一件阿明·范·比倫的主題T恤),并象征性地掀起了自己的夾克、開始大談AWS業務背后隱藏多年的技術體系。
AWS如今已經實現了許多當初只有Windows才取得過的成就:一臺用于承載業務的通用型平臺。作為起步目標,AWS最初僅僅是希望幫助企業客戶從自行構建服務器體系所帶來的諸多煩惱當中解脫出來。然而時至今日,AWS已經開始為使用者提供種類繁多的新型服務。
客戶基礎中的另一大重要群體屬于純粹的互聯網企業,他們并不需要建立并運行屬于自己的服務器及相關基礎設施。其中包括以Just Giving為代表的個人及團體資金籌集類在線服務以及Omnifore——由SiriusXM及索尼音樂有限公司共同建立的音樂流基礎設施體系——等服務項目。
Just Giving與Omnifore恰好介于客戶以及原始AWS基礎設施之間,事實上非技術人員很難把這二者聯系在一起。雙方業務正常運行所依托的數十萬臺服務器及網絡交換機全部由Amazon方面負責定制設計與構建,并由后者同英特爾及其它廠商協同完成。大量服務器集合起來就構成了——沒錯,數據中心。其中包括Amazon的Availability Zones,而其本身又構成了多個區域組成部分——具體來講,其中共包含十大區域與二十八個分區。
Vogels在此次AWS峰會上探討了宏觀布局背后的架構設計思路。很明顯,根據Vogels的說法,Amazon公司經常會收到大量針對其數據中心所提出的問題。
每個區域由兩個或者更多Availability Zones所構成,而每個分區都至少擁有一座數據中心。沒有任何一座數據中心同時服務于兩個Availability Zones,而且某些Zones甚至擁有六座數據中心作為資源支撐。這些數據中心必須隸屬于不同電網體系,這是為了保證任何供電中斷狀況都不至于一次性令整個分區陷入癱瘓。
三個R:復制、復制、還是復制
Availability Zones正是AWS用于解決備份及延遲等一直困擾著遠距離大范圍計算體系難題的答案。從傳統角度看,位于紐約的企業往往會將災難備份設施設立在新澤西州,但其數據同時也會橫跨整個美國比復制到洛杉磯地區作為冗余。
不過根據Vogels的說法:“這種老式復制機制事實上并不適應規模化體系下的實際情況。如何單一事務的傳輸過程會耗時1到2毫秒,那么復制過程將令延遲猛增至100毫秒。在此之后,如果大家需要從紐約指向洛杉磯以實現故障轉移,那么噩夢般的狀況將隨即出現——故障之后的負載回歸甚至更加糟糕。總而言之,將發生了故障的系統整合到實時系統當中本身就是一場災難。”
為了解決延遲問題,Amazon公司將數組緊密耦合在一起的數據中心共同構建成Availability Zones。該分區內的每座數據中心在進行彼此交互時都擁有低于25毫秒的延遲水平,而數據包的整體網絡傳輸能力則為102Tbps。
AWS需要解決的另一大難題則是跳動,這主要是因為各虛擬化應用程序會相互爭奪對原始I/O的訪問、進而拖慢處理速度。Amazon給出的答案非常明確——構建自己的網絡設備。
“這種跳動狀況在虛擬化情況下成了大問題——也就是對受控網絡訪問權的激烈爭奪。大家實際感受到的就是網絡狀況經常跳動、無法實現平順與穩定,因此我們下了一番力氣將其徹底清除出AWS體系之外。為了實現這一點,我們將網絡處理負載從服務器端轉移到專用的網卡當中,從而發揮其單一根I/O虛擬化技術,最終帶來了堅實而具備統一性的網絡性能。這讓TCP/IP性能順利實現了平衡表現,”Vogels表示。他同時補充稱:
“我們能夠為大家帶來如泰山般巋然不動的延遲表現。”
這些數據中心每座都擁有最高八萬臺服務器的可容納能力——這一數字為優化的最高極限——而且其實際服務器容納量至少為五萬臺。這些服務器由Amazon公司親自構建,并與英特爾及其它制造商合作完成。別誤會,這些設備可絕不是什么便宜的地攤貨,Vogels強調稱。
“別以為這些都是白盒服務器,”他指出。“這些服務器都是能夠滿足最為嚴苛的企業級需求的好貨色。”
Amazon公司已經通過與英特爾方面的合作進行了芯片調整以獲得更為出色的性能表現。就以最近剛剛推出的C4實例為例,其配備有英特爾的Haswell處理器家族,所采用的生產規格能夠以更低的CPU功耗水平滿足AWS對于高性能表現提出的諸多要求。
Amazon方面還去掉了當前標準化現成服務器當中那些不必要的功能。音頻芯片與電源變壓裝置都被剔除了出去,這不僅有助于降低功耗水平、同時也幫助AWS顯著節約了冷卻成本。“在傳統服務器環境下,仍有很多元素的存在讓我感到莫名其妙,”Vogels總結道。