近年來,隨著直播等大流量互聯網業務的興起,CDN業務隨之呈現飛速的發展。傳統CDN廠商與各大云服務提供商搶占市場,紛紛降價的同時也大規模擴張著CDN節點。
快速的擴張容易忽視一個重要的問題:業務規模的快速發展,若沒有一套完備的支撐系統,會引起諸多質量問題。輕則引起業務時延變高、成功率下降;重則有可能導致災難性的長時間、大面積的系統癱瘓。
回顧2016年,多家CDN廠商頻頻被爆出大大小小的事故。就連國內一些云計算巨頭,近來也由于服務的不穩定,引發了多起大規模的故障,導致客戶業務長時間不可用,用戶利益受到直接損害。反觀騰訊云CDN,十年的運營過程中,其服務穩定性方面的表現,在業內有口皆碑。
本文將從影響CDN穩定性的幾個因素出發,探究騰訊云CDN穩定背后的秘密。
一、網絡質量
網絡質量是影響CDN穩定性的首要因素,運營商的網絡環境會發生間歇性、地域性的抖動甚至服務中斷,在用戶看來癥狀往往是網絡速度變慢、訪問成功率下降,嚴重的會引起大規模的業務投訴。
為了避免運營商網絡質量對CDN的影響,需要從兩個層面來規避:
1) 快速精準的感知網絡質量的變化,在故障出現的初期將業務調離故障區域。做為CDN平臺,對質量的監控是標準動作,但如何快速精準卻是最大的挑戰。
騰訊云CDN,擁有全國最準確的IP庫,同時背靠騰訊的大數據平臺,可以從海量的業務上報信息中快速感知網絡波動。騰訊網絡路由質量評測系統Q調,以QQ和QQ空間秒級上報的海量數據為基準,可快速分析出地區運營商級的時延遲、成功率波動,并智能化的結合歷史、外圍信息分析,給出鏈路質量的定性評估。給GSLB調度系統更加快速、準確、合理的調度提供依據。
對于深度合作的客戶業務,騰訊云CDN會將其上報的質量信息納入決策系統,更加真實的反應業務實時的網絡質量情況。
快速感知到網絡質量問題把業務調走只是第一步。可以調度到合理的節點,業務質量不受影響,才是最終的目的,這個時候資源覆蓋的廣度和合理性顯得更加重要。
2) 騰訊云CDN在全國部署了500+加速節點,這些節點合理地分布在了各省市自治區,同時涵蓋了移動、聯通、電信三大運營商以及數十家中小型運營商,對于重點的省份、地區、運營商實現多節點覆蓋。當部分節點服務不佳,GSLB有很多選擇將用戶調度到相同服務質量的節點,并且有足夠的冗余承載這些服務,同時盡量避免跨區域調度,保證低時延。
騰訊云全國CDN節點分布圖
SOC是騰訊云CDN近期大力建設的資源之一,在全國多個重點區域部署超大存儲量、帶寬資源豐富、網絡質量高的超級節點。這樣在邊緣節點出現大面積網絡故障時,就可以無縫承接附近大面積邊緣節點的負載。此外,通過全網監控、智能調度、多節點覆蓋、SOC容災等方案,騰訊云CDN能夠輕松應對運營商日常的各種網絡問題。
騰訊云SOC節點示意圖
二、節點異常
第二個可能影響到CDN質量的問題是節點異常。因此應對個別節點出現磁盤、網卡等硬件故障,以及系統、程序等軟件故障,甚至是業務突增帶來的系統高負載等等各種異常,則必須考慮保持CDN系統穩定性。
騰訊云CDN在全國有500多個加速節點,涉及到萬臺設備,在節點故障這個可控性更高的問題上,有著充分的話語權。同時騰訊業務多年海量服務的運營經驗,為騰訊云CDN保障客戶業務運維正常,提供了技術、服務支撐:
1) 在節點軟硬件故障上,通過將秒級監控與切換、版本灰度發布、柔性可用、過載保護等海量技術融合到CDN具體的業務場景中,實現了節點、設備的有效管理與容災。
2) 在業務突增上,快速感知節點流量的變化并進行調度是基本的手段,在此基礎上,騰訊云CDN同時也根據具體的業務特點,作了不少針對性的優化:以當下很火的直播為例,不同于其他業務類型,直播業務都會在短時間內突發大量的用戶請求。為了能快速、準確地預估節點的請求量與負載情況,騰訊云CDN采用SNMP協議采集交換機流量,代替以往應用層上報流量的方式,將數據采集延遲由分鐘級降低到秒級,同時將機器學習算法應用于節點負載曲線的預測中。對于可能超負載的節點,能夠做到實時預測、提前感知、事前預防。
騰訊云視頻直播預測調度效果
三、系統安全
系統安全是任何一個CDN服務商都無法回避的問題。不論是各種形式的DNS攻擊,還是DDos攻擊、CC攻擊,任何一種攻擊,都足以讓CDN大面積甚至是全部癱瘓。
在這一點上,騰訊云CDN有一整臺完善的立體防護體系。DDos防護,本質上是拼的是資源消耗。騰訊云CDN獨有的帶寬資源、機器資源,能夠為用戶提供超大帶寬的DDos防護。從入口的高防DNS,到第一跳的高防CDN節點,再到源站的高防專區,保證全鏈路的防護萬無一失。
另一方面,通過模式識別、身份識別等多種手段,騰訊云CDN能夠精確識別惡意訪問者,有效防止CC攻擊。
騰訊云DDoS防護方案全景
四、業務級故障
來自業務方自身的問題,往往是最棘手的。由于每個業務有不盡相同的特性,而且各個業務自身在資源、能力方面都各有差異,因此常規的方法,在這種場景下就顯得有些捉襟見肘。
騰訊云CDN另辟蹊徑,一方面,為業務建立了通用的評估體系——四維質量體系,從調度、傳輸、存儲、回源等角度,考量業務各方面的質量以及合理性,從而評估出各個維度的優化空間。另一方面,從主動服務的角度入手,CDN系統盡量減少對業務的依賴,比如設計多級回源系統,將邊緣節點到客戶源站的回源流量降到最低等。此外,針對重點客戶,騰訊云CDN還專門為客戶量身打造了一套專屬的業務評估模型,根據客戶具體的業務形態,一對一重點優化,在保證系統穩定運行的前提下,持續為客戶優化各項參數。
五、服務體系
作為云計算戰場的必爭之地,CDN服務的穩定性,在很大程度上體現了一家云服務商的實力,同時也在很大程度上反映了一個云服務商的未來能走站多高、走多遠。騰訊云CDN,配合數百位7*24小時專業服務的運維、售后團隊,在系統穩定上的杰出表現,經受了包括堅果手機發布會“黑色半小時” 、快手GIF、芒果TV、CNTV等多家客戶的多次考驗,確立了行業領先地位。
基于騰訊在交互領域多年的運維經驗,騰訊云CDN在未來的發展中,憑借其穩定、安全的技術優勢加持,將會為云計算行業賦予更大的動能。