由于越來越多的服務器被虛擬化,因此服務器之間的連接也自然而然地主要通過運行在服務器上的虛擬交換機來進行。如此便出現了一個問題:架頂式數據中心交換機(ToR)最終會被并入服務器嗎?
支持者們認為答案是肯定的,尤其是因為現在的服務器一般都是多核的、2層智能的和高密度光接口的。因此上行的內核連接可由光交叉連接來提供,這不過是把流量從服務器轉移到方向引導器上而已。
比較保守的人則認為答案是否定的,或者說短期內不可能。服務器還將繼續承擔虛機間的交換責任,而架頂式交換機則將繼續存在下去。
在問及服務器是否最終會取代ToR交換機時,Dell’Oro的交換機分析師Alan Weckel說:
“這個問題沒辦法簡單作答。歸根結底,機架服務器還是要連接到ToR交換機上去的。這就是目前80%的市場現狀。所以說,ToR不會很快消失。”
Fiber Mountain的觀點與此不同。這家新創企業專門設計軟件控制的光交叉連接,就是為了盡可能避免太多的數據包在數據中心服務器端口之間的點對點光纖鏈路上進行處理。
“我們正準備擯棄層的概念:交換機層、交換機之間的鏈路層,等等,”Fiber Mountain的創始人兼CEO MH Raza說。“交換作為一種功能正在從交換機盒子里分離出來,成為服務器盒子里的與其他功能共存的功能。假如我們把交換功能放入服務器里,其邏輯就和機架前端的很多服務器一樣,服務器內置交換機就跟內置了眾多的虛機一樣。為何不能在服務器上進行交換呢?這在服務器上是可以做到的。”
Raza說,他知道有一家廠商(名字略去) 制作的英特爾多核主板就帶Broadcom Trident II交換芯片和一個高容量光纖連接器。這個1U設備有一個光纖接口,可支持最多64個 25Gbps通道,容量可從800G到1.6Tbps——這一容量與英特爾和Corning MXC連接器的一樣。利用MXC以及相同的硅光子技術,服務器之間也能直接通信,而無須使用任何交換機。
“交換是可以由服務器來做的,”他說。“我可以分配數據包走右邊的通道。它還需要去多少個地方?10個、12個,還是40個?都不成問題。只要你有MXC連接器,你就能讓數據包去32個不同的目的地。”
Raza 稱,實現這一點現在就是可能的,而之所以沒人談論它,是因為這一前景極具顛覆性。我們依然還帶著傳統網絡思維的眼罩。“有沒有人談論它,要取決于市場采用硅光子技術的速度有多快,”Raza說。“但它現在肯定是可以做到的。具體時間表要取決于技術和市場上的投資和轉移。”
鑒于VMware的 NSX產品可在VMware虛擬服務器環境中處理虛擬交換,你或許會認為該公司就是服務器最終包容交換機這一概念的最大支持者。但VMware網絡安全事業部的首席技術戰略官Guido Appenzeller稱,盡管服務器作為ToR交換機架構模式是為超大規模環境而提出的,也從未見到它被實際使用過。
“總之,如果想放棄ToR,那服務器就得增加類似包分類引擎的新的芯片,”Appenzeller說。“可能需要在服務器內增加一個微型交換機。但今天的服務器架構還無法支持它。”
微型交換機應該是以太網設備,能夠實現服務器-to-服務器的光纖直連。另一種選擇是1層交叉連接和服務器主板上的多路復用,Appenzeller說。
Appenzeller 之所以贊成以太網微型交換機,是因為此類交換機對于服務器圈子來說相當熟悉,而且它對VLAN的分隔能力也是有些光交叉連接無法做到的。“但我從未見到有誰部署過這兩者,”Appenzeller說。可能是因為ToR交換機的端口價格下跌得很快,而使兩者都顯得不太可行吧。
Dell’Oro對此也表贊同。該咨詢機構的報告稱,2011年到2016年間,10G以太網的平均端口售價從715美元跌到了212美元。
據 Cumulus網絡公司CEO兼聯合創始人JR Rivers說,網絡芯片廠商如Broadcom和Mellanox所提供的網絡處理器的性價比要高于通用CPU。還有,帶網絡功能的中央CPU的性能會下降,從而會使其價值降低。就像Rivers所言:“要在CPU上多增加一個方塊,回報肯定會受損。”
River稱,之前也曾有企業評估過光纖互連和背板,但由于成本太高,太過復雜而沒能啟動。而解耦和池化計算、網絡及存儲資源則可以通過軟件讓IT機架更為靈活、敏捷,利用硅光子互連架構可將所有這些池化資源都連接起來。
然而這種方式仍可能被證明過于復雜而不切實際,Rivers稱。
“光背板太過復雜,所以才沒能普及開來,”他說。“RackScale與今天的數據中心環境耦合得相當緊密,而且是經過良好設計的系統,這一點與能夠在全網上快速遷移的松耦合系統是不同的。RackScale似乎想一招鮮吃遍天,但這是不可能的,而且其客戶往往也無法從中獲益。”
他將這種努力比喻做嵌入刀片服務器中的刀片式交換機,用戶一般都會忽略其存在,仍然會繼續讓刀片與思科的交換機端口連接。
依照同樣的思路,River對數據中心使用光技術,繞開ToR交換機,直連服務器的做法也表示了懷疑。
“傳輸一個大文件不到一秒,所以很難看到這種技術的好處,”River說。“要想看到光交叉技術成為永久改變網絡的基礎技術要素也很困難。更何況它們已存在了相當一段時間了。”
按照英特爾的說法,即便服務器將會承擔更多的交換智能和本地功能,但ToR仍將作為物理上獨立的交換機存在。
“ToR 仍將在數據中心內部發揮重要作用,”英特爾通信基礎設施部門總經理Steve Price說。“目前的趨勢是,在服務器機架上還會不斷增加網絡智能。例如,策略執行和多租戶隧道功能今天或者發生在vSwitch上,或者發生在ToR上。隨著機架內計算密度的增加,以及服務器上SDN和NFV的出現,機架內每個隔板上跨虛擬和物理交換機的東西向流量將會增加。服務器將會成為能夠通過IA架構上的軟件處理數據包的混合平臺,利用隔板內的交換可匯聚和管理跨多臺服務器的工作負載。”
Price說,隔板內交換可以為本機架內的多臺服務器提供低延遲的連接性,然后通過100G以太網將流量匯聚給 ToR。不過他也承認,在每個服務器隔板上提供高密度端口的交換會增加布線成本,所以英特爾建議可將所有服務器隔板上的流量匯聚起來,通過100G以太網再上行鏈路給ToR。
英特爾的戰略就是增加在Open vSwitch社區項目上的投入,關注數據平面開發工具套件(DPDK),同時提升 IA架構上虛擬交換的性能,在需要的時候可以讓硬件卸載流量給NIC和/或物理交換機。Price稱,DPDK目前已計劃納入 Open vSwitch 2.4。
Price認為,RackScale架構更關注的則是超大規模數據中心,此類數據中心的管理者希望降低TCO,提高資源的靈活性和敏捷性。
思科計算系統產品事業部的技術營銷總監Dan Hanson說,英特爾和思科之間已對RackScale架構,以及一般地對服務器/交換機的解耦和分布式內存體系都進行了討論。Hanson認為,思科對交換機解耦的觀點是與英特爾互補的,但在如何最好地實現解耦方面存在分歧。
“這個概念包含了很多的承諾,也有很多人在推動這件事情,”Hanson說。“思科只是想尋找到實現它的最佳途徑。”
Hanson 認為,英特爾的DPDK是一種可能的途徑,因為它可以用一些硬件來輔助思科的UCS服務器在網絡功能虛擬化應用中能力的發揮,而通用的x86平臺是缺乏這些功能的。但如何最佳地實現分布式、非匯聚交換以及內存管理,業界何時才能做好這方面的準備,目前依然處在開放討論階段。
“我們之所以跟英特爾討論RackScale架構的原因就在于這是一種補充架構,我們可以從中尋找到向服務器更多部分擴展的途徑,”Hanson說。“到目前為止,我們還只是在UCS機架內共享這些組件中的一部分,但尚未擴展到英特爾所關注的內存層面。”
Hanson指出,思科3個月前所發布的在其UCS M系列服務器上所使用的System Link技術就有可以映射到 RackScale上的功能。System Link是一塊芯片,可以為M系列提供連接非匯聚子系統到fabric架構的能力,后者是軟件定義的、基于策略配置的、可部署和管理每個應用資源的架構。
但是和Dell’Oro的Weckel一樣,Hanson認為,客戶采用System Link、RackScale或服務器/交換機解耦的速度將最終將決定服務器能否或何時會取代ToR交換機。
“問題在于,這個過程發生的速度,以及相互間結合的深度,”Hanson說。“目前還有一些底層技術問題亟待解決。客戶消化技術變革的能力將成為主要的推動因素。我們一直在尋求我們所能帶來的新的和更好的技術,但是這一過程還是會更多地取決于客戶愿意接受的某項技術的滲透率。”