近年來,隨著直播等大流量互聯(lián)網(wǎng)業(yè)務的興起,CDN業(yè)務隨之呈現(xiàn)飛速的發(fā)展。傳統(tǒng)CDN廠商與各大云服務提供商搶占市場,紛紛降價的同時也大規(guī)模擴張著CDN節(jié)點。
快速的擴張容易忽視一個重要的問題:業(yè)務規(guī)模的快速發(fā)展,若沒有一套完備的支撐系統(tǒng),會引起諸多質(zhì)量問題。輕則引起業(yè)務時延變高、成功率下降;重則有可能導致災難性的長時間、大面積的系統(tǒng)癱瘓。
回顧2016年,多家CDN廠商頻頻被爆出大大小小的事故。就連國內(nèi)一些云計算巨頭,近來也由于服務的不穩(wěn)定,引發(fā)了多起大規(guī)模的故障,導致客戶業(yè)務長時間不可用,用戶利益受到直接損害。反觀騰訊云CDN,十年的運營過程中,其服務穩(wěn)定性方面的表現(xiàn),在業(yè)內(nèi)有口皆碑。
本文將從影響CDN穩(wěn)定性的幾個因素出發(fā),探究騰訊云CDN穩(wěn)定背后的秘密。一、網(wǎng)絡質(zhì)量
網(wǎng)絡質(zhì)量是影響CDN穩(wěn)定性的首要因素,運營商的網(wǎng)絡環(huán)境會發(fā)生間歇性、地域性的抖動甚至服務中斷,在用戶看來癥狀往往是網(wǎng)絡速度變慢、訪問成功率下降,嚴重的會引起大規(guī)模的業(yè)務投訴。
為了避免運營商網(wǎng)絡質(zhì)量對CDN的影響,需要從兩個層面來規(guī)避:
1)快速精準的感知網(wǎng)絡質(zhì)量的變化,在故障出現(xiàn)的初期將業(yè)務調(diào)離故障區(qū)域。做為CDN平臺,對質(zhì)量的監(jiān)控是標準動作,但如何快速精準卻是最大的挑戰(zhàn)。
騰訊云CDN,擁有全國最準確的IP庫,同時背靠騰訊的大數(shù)據(jù)平臺,可以從海量的業(yè)務上報信息中快速感知網(wǎng)絡波動。騰訊網(wǎng)絡路由質(zhì)量評測系統(tǒng)Q調(diào),以QQ和QQ空間秒級上報的海量數(shù)據(jù)為基準,可快速分析出地區(qū)運營商級的時延遲、成功率波動,并智能化的結(jié)合歷史、外圍信息分析,給出鏈路質(zhì)量的定性評估。給GSLB調(diào)度系統(tǒng)更加快速、準確、合理的調(diào)度提供依據(jù)。
對于深度合作的客戶業(yè)務,騰訊云CDN會將其上報的質(zhì)量信息納入決策系統(tǒng),更加真實的反應業(yè)務實時的網(wǎng)絡質(zhì)量情況。
快速感知到網(wǎng)絡質(zhì)量問題把業(yè)務調(diào)走只是第一步。可以調(diào)度到合理的節(jié)點,業(yè)務質(zhì)量不受影響,才是最終的目的,這個時候資源覆蓋的廣度和合理性顯得更加重要。
騰訊云CDN在全國部署了500+加速節(jié)點,這些節(jié)點合理地分布在了各省市自治區(qū),同時涵蓋了移動、聯(lián)通、電信三大運營商以及數(shù)十家中小型運營商,對于重點的省份、地區(qū)、運營商實現(xiàn)多節(jié)點覆蓋。當部分節(jié)點服務不佳,GSLB有很多選擇將用戶調(diào)度到相同服務質(zhì)量的節(jié)點,并且有足夠的冗余承載這些服務,同時盡量避免跨區(qū)域調(diào)度,保證低時延。
騰訊云全國CDN節(jié)點分布圖
SOC是騰訊云CDN近期大力建設的資源之一,在全國多個重點區(qū)域部署超大存儲量、帶寬資源豐富、網(wǎng)絡質(zhì)量高的超級節(jié)點。這樣在邊緣節(jié)點出現(xiàn)大面積網(wǎng)絡故障時,就可以無縫承接附近大面積邊緣節(jié)點的負載。此外,通過全網(wǎng)監(jiān)控、智能調(diào)度、多節(jié)點覆蓋、SOC容災等方案,騰訊云CDN能夠輕松應對運營商日常的各種網(wǎng)絡問題。
騰訊云SOC節(jié)點示意圖
二、節(jié)點異常
第二個可能影響到CDN質(zhì)量的問題是節(jié)點異常。因此應對個別節(jié)點出現(xiàn)磁盤、網(wǎng)卡等硬件故障,以及系統(tǒng)、程序等軟件故障,甚至是業(yè)務突增帶來的系統(tǒng)高負載等等各種異常,則必須考慮保持CDN系統(tǒng)穩(wěn)定性。
騰訊云CDN在全國有500多個加速節(jié)點,涉及到萬臺設備,在節(jié)點故障這個可控性更高的問題上,有著充分的話語權(quán)。同時騰訊業(yè)務多年海量服務的運營經(jīng)驗,為騰訊云CDN保障客戶業(yè)務運維正常,提供了技術(shù)、服務支撐:
1) 在節(jié)點軟硬件故障上,通過將秒級監(jiān)控與切換、版本灰度發(fā)布、柔性可用、過載保護等海量技術(shù)融合到CDN具體的業(yè)務場景中,實現(xiàn)了節(jié)點、設備的有效管理與容災。
2) 在業(yè)務突增上,快速感知節(jié)點流量的變化并進行調(diào)度是基本的手段,在此基礎(chǔ)上,騰訊云CDN同時也根據(jù)具體的業(yè)務特點,作了不少針對性的優(yōu)化:以當下很火的直播為例,不同于其他業(yè)務類型,直播業(yè)務都會在短時間內(nèi)突發(fā)大量的用戶請求。為了能快速、準確地預估節(jié)點的請求量與負載情況,騰訊云CDN采用SNMP協(xié)議采集交換機流量,代替以往應用層上報流量的方式,將數(shù)據(jù)采集延遲由分鐘級降低到秒級,同時將機器學習算法應用于節(jié)點負載曲線的預測中。對于可能超負載的節(jié)點,能夠做到實時預測、提前感知、事前預防。
騰訊云視頻直播預測調(diào)度效果
三、系統(tǒng)安全
系統(tǒng)安全是任何一個CDN服務商都無法回避的問題。不論是各種形式的DNS攻擊,還是DDos攻擊、CC攻擊,任何一種攻擊,都足以讓CDN大面積甚至是全部癱瘓。
在這一點上,騰訊云CDN有一整臺完善的立體防護體系。DDos防護,本質(zhì)上是拼的是資源消耗。騰訊云CDN獨有的帶寬資源、機器資源,能夠為用戶提供超大帶寬的DDos防護。從入口的高防DNS,到第一跳的高防CDN節(jié)點,再到源站的高防專區(qū),保證全鏈路的防護萬無一失。
另一方面,通過模式識別、身份識別等多種手段,騰訊云CDN能夠精確識別惡意訪問者,有效防止CC攻擊。
騰訊云DDoS防護方案全景
四、業(yè)務級故障
來自業(yè)務方自身的問題,往往是最棘手的。由于每個業(yè)務有不盡相同的特性,而且各個業(yè)務自身在資源、能力方面都各有差異,因此常規(guī)的方法,在這種場景下就顯得有些捉襟見肘。
騰訊云CDN另辟蹊徑,一方面,為業(yè)務建立了通用的評估體系——四維質(zhì)量體系,從調(diào)度、傳輸、存儲、回源等角度,考量業(yè)務各方面的質(zhì)量以及合理性,從而評估出各個維度的優(yōu)化空間。另一方面,從主動服務的角度入手,CDN系統(tǒng)盡量減少對業(yè)務的依賴,比如設計多級回源系統(tǒng),將邊緣節(jié)點到客戶源站的回源流量降到最低等。此外,針對重點客戶,騰訊云CDN還專門為客戶量身打造了一套專屬的業(yè)務評估模型,根據(jù)客戶具體的業(yè)務形態(tài),一對一重點優(yōu)化,在保證系統(tǒng)穩(wěn)定運行的前提下,持續(xù)為客戶優(yōu)化各項參數(shù)。
五、服務體系
作為云計算戰(zhàn)場的必爭之地,CDN服務的穩(wěn)定性,在很大程度上體現(xiàn)了一家云服務商的實力,同時也在很大程度上反映了一個云服務商的未來能走站多高、走多遠。騰訊云CDN,配合數(shù)百位7*24小時專業(yè)服務的運維、售后團隊,在系統(tǒng)穩(wěn)定上的杰出表現(xiàn),經(jīng)受了包括堅果手機發(fā)布會“黑色半小時” 、快手GIF、芒果TV、CNTV等多家客戶的多次考驗,確立了行業(yè)領(lǐng)先地位。
基于騰訊在交互領(lǐng)域多年的運維經(jīng)驗,騰訊云CDN在未來的發(fā)展中,憑借其穩(wěn)定、安全的技術(shù)優(yōu)勢加持,將會為云計算行業(yè)賦予更大的動能。