行業(yè)對(duì)軟件定義網(wǎng)絡(luò)的理解千人千面,普通認(rèn)為SDN誕生于校園網(wǎng),發(fā)揚(yáng)光大于擁有中大型數(shù)據(jù)中心的互聯(lián)網(wǎng)公司。阿里集團(tuán)技術(shù)保障部從2010年在飛天集群規(guī)模使用定制TOR交換機(jī)開(kāi)始,不斷的嘗試和探索Software Defined Everything。本文介紹SDN在阿里集團(tuán)網(wǎng)絡(luò)運(yùn)維方面的實(shí)踐及未來(lái)研發(fā)思考。
每年雙十一網(wǎng)購(gòu)狂歡節(jié),一次次刷新世界交易、支付峰值,對(duì)基礎(chǔ)設(shè)施的要求和運(yùn)維壓力都是巨大的,如何在大規(guī)模、低成本的要求下,還要達(dá)到高可靠性、高穩(wěn)定性、彈性調(diào)度、快速交付是系統(tǒng)網(wǎng)絡(luò)平臺(tái)部面臨的挑戰(zhàn),也是嘗試SDN的驅(qū)動(dòng)力。
阿里巴巴對(duì)SDN的理解不是簡(jiǎn)單的轉(zhuǎn)發(fā)面和控制面分離,也不是自己做個(gè)“SDN交換機(jī)”這么簡(jiǎn)單,阿里集團(tuán)的SDN架構(gòu)專(zhuān)注于系統(tǒng)性達(dá)到電子商務(wù)、云計(jì)算的特定場(chǎng)景應(yīng)用的相關(guān)特性對(duì)操作系統(tǒng)、數(shù)據(jù)庫(kù)、網(wǎng)絡(luò)、服務(wù)器、數(shù)據(jù)中心的需求,提升系統(tǒng)、網(wǎng)絡(luò)整體運(yùn)營(yíng)能力。讓業(yè)務(wù)不再感知網(wǎng)絡(luò)變化、擁有無(wú)物理尺度調(diào)度業(yè)務(wù)池。
先梳理下大規(guī)?;ヂ?lián)網(wǎng)公司數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)維都遇到哪些問(wèn)題:
1、快速交付問(wèn)題;
2、大量的變更問(wèn)題;
3、網(wǎng)絡(luò)故障處理對(duì)業(yè)務(wù)影響的問(wèn)題、
4、千差萬(wàn)別的廠家CLI、版本、設(shè)備型號(hào);
5、網(wǎng)絡(luò)規(guī)劃永遠(yuǎn)趕不上業(yè)務(wù)的變化;
6、網(wǎng)絡(luò)流量流向無(wú)序;
一言概之,網(wǎng)絡(luò)在其他團(tuán)隊(duì)看來(lái)就是個(gè)黑洞,網(wǎng)工就是些不靠譜地人,業(yè)務(wù)要自己監(jiān)控網(wǎng)絡(luò)運(yùn)行狀態(tài),網(wǎng)工顏面掃地。
阿里技術(shù)團(tuán)隊(duì)針對(duì)上述問(wèn)題做了如下工作:
一、自動(dòng)化
1、交付:網(wǎng)絡(luò)集群(萬(wàn)臺(tái)規(guī)模)交付:1小時(shí);
2、變更:封裝各個(gè)廠家CLI,提升變更效率;
二、業(yè)務(wù)拓?fù)?br />
無(wú)論是運(yùn)營(yíng)商、銀行、企業(yè)或是互聯(lián)網(wǎng)公司長(zhǎng)期以來(lái)網(wǎng)絡(luò)運(yùn)維關(guān)注的管道級(jí)網(wǎng)絡(luò)拓?fù)?。業(yè)務(wù)與網(wǎng)絡(luò)之間的對(duì)應(yīng)關(guān)系停留在資深網(wǎng)絡(luò)工程師的腦袋中。
千萬(wàn)不要認(rèn)為下圖就是一張普通的拓?fù)鋱D,一個(gè)VIP對(duì)應(yīng)的全部Realserver所在網(wǎng)絡(luò)物理位置和機(jī)房的全部信息都一目了解,這個(gè)業(yè)務(wù)IP帶來(lái)的多少流量,此流量單位成本一切變成那么清晰。網(wǎng)絡(luò)規(guī)劃不再是拍拍腦袋,抓抓爪子,按按計(jì)算器,SDN理想的業(yè)務(wù)級(jí)調(diào)度有理有據(jù)。
三、專(zhuān)家系統(tǒng)
英劇“black mirror”帶給我們的沖擊是什么?對(duì),大數(shù)據(jù)分析后是可以復(fù)活一個(gè)人。每天在技術(shù)保障部產(chǎn)生的運(yùn)維日志、網(wǎng)絡(luò)log,告警信息經(jīng)過(guò)數(shù)據(jù)挖掘,引入機(jī)器學(xué)習(xí)從Data轉(zhuǎn)發(fā)成information對(duì)網(wǎng)絡(luò)運(yùn)維網(wǎng)絡(luò)事件做到Re-active和Pro-active,我們不再需要資深網(wǎng)式運(yùn)維網(wǎng)絡(luò)。這其中有著巨 大的想象空間,我們?cè)诼飞稀?/p>
四、定制Openflow特性的交換機(jī)
不是用了OF switch才叫運(yùn)用了SDN,但Controller與switch/router要說(shuō)話,我們選擇嘗試Openflow協(xié)議,2013年阿里巴巴加入ONF,共同推進(jìn)產(chǎn)業(yè)對(duì)標(biāo)準(zhǔn)接口的支持及推動(dòng)網(wǎng)絡(luò)產(chǎn)業(yè)的開(kāi)放程度。
五、虛擬網(wǎng)絡(luò)及虛擬網(wǎng)絡(luò)操作系統(tǒng)
網(wǎng)絡(luò)操作系統(tǒng)和網(wǎng)絡(luò)硬件天生是個(gè)封閉系統(tǒng),行業(yè)中有了交換套片后,國(guó)內(nèi)涌現(xiàn)出一批杰出的網(wǎng)絡(luò)設(shè)備供應(yīng)商。雖然生產(chǎn)交換機(jī)公司不再是高富帥,但網(wǎng)絡(luò)操作系統(tǒng)仍然是個(gè)封閉系統(tǒng)。“路由器丟包是太陽(yáng)黑子活動(dòng)頻繁引起的”真不是個(gè)網(wǎng)絡(luò)笑話,它的確是廠家給出的故障分析報(bào)告。Laas開(kāi)發(fā)工程師一想到網(wǎng)絡(luò)中的VLAN/網(wǎng)關(guān)/IP腦仁都痛。我們要做的是Network as a Service,交換機(jī)要跟服務(wù)器裝機(jī)一樣的標(biāo)準(zhǔn)化,網(wǎng)絡(luò)的管理和使用要像自來(lái)水一樣方便快捷。因此我們思考將網(wǎng)絡(luò)硬件與網(wǎng)絡(luò)操作系統(tǒng)分離,抽象出虛擬網(wǎng)絡(luò)操作系統(tǒng)。
六、虛擬光網(wǎng)絡(luò)也是我們重點(diǎn)關(guān)注的技術(shù)之一,Google B4是個(gè)過(guò)去式。
人說(shuō)SDN落地最大的阻礙是CCIE,是資深網(wǎng)絡(luò)工程師。阿里網(wǎng)工就要將技術(shù)做深做透,革掉傳統(tǒng)網(wǎng)絡(luò)運(yùn)維習(xí)慣。