當(dāng)前位置：數(shù)據(jù)中心 → 行業(yè)動態(tài) → 正文

數(shù)據(jù)中心網(wǎng)絡(luò)交換設(shè)備架構(gòu)之戰(zhàn)

責(zé)任編輯：cres 作者：harbor |來源：企業(yè)網(wǎng)D1Net 2018-03-12 11:26:21 原創(chuàng)文章企業(yè)網(wǎng)D1Net

交換技術(shù)是網(wǎng)絡(luò)中的重要技術(shù)之一，尤其是在數(shù)據(jù)中心里二三層的網(wǎng)絡(luò)中，應(yīng)用極其普遍。交換機(jī)是交換技術(shù)的典型產(chǎn)物，在數(shù)據(jù)中心里到處都是，是搭建數(shù)據(jù)中心局域網(wǎng)的必選設(shè)備。交換機(jī)分為盒式交換機(jī)和框式交換機(jī)，最大的區(qū)別是盒式交換機(jī)一般只有1~2U高，只有一塊交換芯片或者只有幾塊交換芯片自己互聯(lián)，不需要橋接芯片，而框式交換機(jī)因為有多塊插卡，每個插卡都是1U高，這樣插卡之間就需要橋接芯片來完成插卡之間的數(shù)據(jù)轉(zhuǎn)發(fā)。框式交換機(jī)在數(shù)據(jù)中心網(wǎng)絡(luò)匯聚和核心的位置，處理著海量數(shù)據(jù)的轉(zhuǎn)發(fā)。框式交換機(jī)將交換技術(shù)發(fā)揚(yáng)光大，尤其是在插卡之間的數(shù)據(jù)交換處理上，不斷做出各種各樣的設(shè)計，以便在交換容量、降低設(shè)計成本等方面不斷提升。單從交換架構(gòu)方面來說，當(dāng)前存在兩種最為主要的交換架構(gòu)：一種是傳統(tǒng)的基于報文選路轉(zhuǎn)發(fā)的交換;另一種是新興的基于信元轉(zhuǎn)發(fā)的交換，兩種架構(gòu)各有優(yōu)缺點，引爆了交換架構(gòu)選擇之戰(zhàn)。

基于報文選路轉(zhuǎn)發(fā)交換

這種方式從有框式交換機(jī)以來就存在，通過橋接芯片將多個插卡連接起來，橋接芯片的數(shù)量直接決定了插卡之間的轉(zhuǎn)發(fā)帶寬，最開始很多設(shè)備將橋接芯片放在了一塊集中插卡上，發(fā)現(xiàn)受限于橋接芯片的轉(zhuǎn)發(fā)能力，根本無法滿足多塊插卡之間的流量線速轉(zhuǎn)發(fā)，隨著框式設(shè)備的槽位設(shè)計的越來越多，插卡線速轉(zhuǎn)發(fā)能力越來越低。于是有人開始設(shè)計多插卡方式，用包含有多塊橋接芯片的查看來實現(xiàn)插卡連接，每塊橋接插卡都會為交換插卡提供一部分帶寬，多塊橋接插卡一起工作就可以為每塊交換插卡提供很大帶寬，實現(xiàn)每個插卡都可以線速轉(zhuǎn)發(fā)，這種實現(xiàn)方式一度在數(shù)據(jù)中心網(wǎng)絡(luò)中盛行十年之久，幾乎所有的框式設(shè)備都是基于這樣的架構(gòu)實現(xiàn)。不過，隨著數(shù)據(jù)中心流量的不斷增長，插卡上的所有端口都被用上，就發(fā)現(xiàn)在一些特殊流量場景中，這些插卡出現(xiàn)了無法線速的情況，這與理論測試不符。其實出現(xiàn)這種情況和這種架構(gòu)有關(guān)，一個插卡上來的流量要基于報文特征來選路，將報文送到不同的橋接插卡上，在橋接插卡上實現(xiàn)流量的負(fù)載分擔(dān)，因為單塊的橋接插卡無法滿足框式交換機(jī)所有交換插卡的線速需求，由于進(jìn)入插卡的報文特征變化并不是完全均勻的，從而選路到不同橋接插卡的流量也不會是完全均勻的，如果橋接插卡設(shè)計的帶寬冗余很小甚至沒有的話，一點點的不均勻都會造成擁塞，從而出現(xiàn)丟包，交換插卡無法達(dá)到線速轉(zhuǎn)發(fā)，這種情況在實際網(wǎng)絡(luò)中并非少見，一旦碰到只能調(diào)整選路算法(未必有用)，或者換帶寬容量更大的設(shè)備，盡可能多地留出一些冗余帶寬來。

基于信元轉(zhuǎn)發(fā)交換

正因為報文選路轉(zhuǎn)發(fā)交換架構(gòu)具有天生的缺陷，基于信元方式轉(zhuǎn)發(fā)架構(gòu)誕生。這種方式也需要多塊橋接插卡，交換插卡具備了一種分片能力，它可以將進(jìn)來的報文，分解成多個大小相同的信元，然后分別發(fā)向不同的橋接插卡，這樣發(fā)給每個橋接插卡的報文大小都是相同的，去往不同橋接插卡的流量就永遠(yuǎn)都是均勻的，就不會存在選路不均的問題。這種方式徹底解決了以往交換架構(gòu)內(nèi)部流量不均，擁塞的問題，成為新的主流交換架構(gòu)。不過，基于信元轉(zhuǎn)發(fā)也有其技術(shù)固有缺陷。交換插卡將每個報文都要做分片(一般是按照固定的64字節(jié)或者128字節(jié)分片，最后一片字節(jié)不夠也要補(bǔ)齊到64或者128字節(jié))，經(jīng)過橋接插卡轉(zhuǎn)發(fā)后，還要在出口插卡上重組，還原出來經(jīng)過轉(zhuǎn)發(fā)后的完整報文，而基于報文選路方式就不需要，這無疑增加了設(shè)備的轉(zhuǎn)發(fā)開銷，所以這種架構(gòu)相比基于報文選路，轉(zhuǎn)發(fā)效率要低，轉(zhuǎn)發(fā)時延要高，因為很多報文分片后最后一片都要添加空的數(shù)據(jù)補(bǔ)齊，每個信元也要有自己的轉(zhuǎn)發(fā)頭，這些數(shù)據(jù)都要多占用一些數(shù)據(jù)帶寬，浪費掉了部分內(nèi)部帶寬。這種方式還會增加故障概率，只要有一塊橋接插卡出了問題，整個設(shè)備的轉(zhuǎn)發(fā)都會受到影響，因為幾乎每個報文的信元都要經(jīng)過這塊橋接插卡，基于報文選路轉(zhuǎn)發(fā)則不會，哪塊橋接插卡出問題，影響的只是HASH選路到這塊橋接插卡的業(yè)務(wù)，走到其它橋接插卡上的業(yè)務(wù)不受影響。還有一旦報文進(jìn)入交換插卡，到橋接插卡都是信元轉(zhuǎn)發(fā)，極不利于問題定位，這時在橋接插卡上根本看不到報文內(nèi)容，發(fā)給每個橋接插卡的報文長度特征都一樣，到底是交換插卡出了問題，還是橋接插卡出了問題，區(qū)分不清，往往要通過替換測試才能明確。基于報文選路的架構(gòu)就很容易，根據(jù)報文特征在內(nèi)部端口上做統(tǒng)計，確認(rèn)問題發(fā)生的位置，可以很快找到問題原因，方便維護(hù)，這樣也使得不少人又轉(zhuǎn)頭追逐基于報文的選路交換架構(gòu)。

經(jīng)過以上的介紹，兩種交換架構(gòu)各有優(yōu)缺點，誰也無法替代誰。兩種架構(gòu)技術(shù)目前都較為成熟，具備實際應(yīng)用的水平，設(shè)計成本差別也不大。具體在數(shù)據(jù)中心里使用哪種交換架構(gòu)設(shè)備(一臺設(shè)備無法同時具備兩種架構(gòu))，還是要從實用角度來考慮，要看數(shù)據(jù)中心更看重哪個方面。如果數(shù)據(jù)中心里的流量不夠大，報文特征也比較單一，變化比較均勻，就可以考慮方便維護(hù)的基于報文選路的交換設(shè)備;如果數(shù)據(jù)中心的流量超大，交換插卡的端口基本全要用上，并且?guī)捓寐屎芨撸ㄗh選用基于信元轉(zhuǎn)發(fā)的交換設(shè)備，避免出現(xiàn)無法達(dá)到線速的問題，兩種交換架構(gòu)將在未來的一段時間里長期存在，供數(shù)據(jù)中心選擇。

版權(quán)聲明：本文為企業(yè)網(wǎng)D1Net原創(chuàng)，轉(zhuǎn)載需注明出處為：企業(yè)網(wǎng)D1Net，如果不注明出處，企業(yè)網(wǎng)D1Net將保留追究其法律責(zé)任的權(quán)利。

關(guān)鍵字：數(shù)據(jù)中心