浙江移動(dòng)7*24小時(shí)“技術(shù)流”微服務(wù)不打折
作為中國(guó)移動(dòng)的重要分支,浙江移動(dòng)一直以“追求客戶滿意”為宗旨。為了更好地服務(wù)用戶,浙江移動(dòng)2015年便搭建了微服務(wù)運(yùn)行監(jiān)控平臺(tái),只是隨著新技術(shù)的發(fā)展,該平臺(tái)在一些方面稍顯滯后,如缺乏內(nèi)部核心指標(biāo)的監(jiān)控、異常分類及跟蹤能力不足、調(diào)用鏈代碼對(duì)應(yīng)用有侵入、缺乏實(shí)時(shí)調(diào)控管理手段等問(wèn)題,平臺(tái)的升級(jí)改造被提上日程。
亞信科技作為浙江移動(dòng)多年的合作伙伴,對(duì)該平臺(tái)優(yōu)缺點(diǎn)有很深的了解,在接到優(yōu)化需求后,項(xiàng)目組在原有系統(tǒng)基礎(chǔ)上,基于容器技術(shù)提出了一套完整的升級(jí)改造方案,通過(guò)修改探針埋點(diǎn)等方式減小了上線過(guò)程對(duì)業(yè)務(wù)的影響。而升級(jí)后,浙江移動(dòng)用戶最直接的感受是——真正體驗(yàn)到了7*24小時(shí)的全天候無(wú)間斷服務(wù),而不像以前經(jīng)常因?yàn)橄到y(tǒng)升級(jí)而造成業(yè)務(wù)無(wú)法辦理。
該項(xiàng)目贏得了浙江移動(dòng)的高度認(rèn)可,項(xiàng)目負(fù)責(zé)人陳航、褚小川表示:“新平臺(tái)修復(fù)了運(yùn)營(yíng)中的老問(wèn)題,將業(yè)務(wù)影響壓到最低,新增了實(shí)例運(yùn)行狀態(tài)監(jiān)控,輸出的指標(biāo)數(shù)據(jù)為運(yùn)維人員提供了更多監(jiān)控手段,極大縮短了問(wèn)題定位的時(shí)間,同時(shí)優(yōu)化了調(diào)用鏈數(shù)據(jù)的處理流程,能在“分鐘級(jí)”展現(xiàn)用戶服務(wù)調(diào)用情況,詳細(xì)體現(xiàn)每一筆請(qǐng)求的業(yè)務(wù)調(diào)用關(guān)系,降低了故障排查的復(fù)雜度。”
微服務(wù)監(jiān)控平臺(tái)改造:開著飛機(jī)修飛機(jī)
而此前,浙江移動(dòng)“微服務(wù)運(yùn)行監(jiān)控平臺(tái)”的不足主要體現(xiàn)在:
首先,缺乏內(nèi)部核心指標(biāo)的監(jiān)控:如線程、數(shù)據(jù)庫(kù)連接、GC、網(wǎng)絡(luò)連接、CPU、內(nèi)存等;
其次,調(diào)用鏈代碼侵入: Log4x通過(guò)硬編碼埋點(diǎn),對(duì)應(yīng)用有侵入,影響應(yīng)用以及整個(gè)調(diào)用鏈的性能;
第三,異常分類不足:無(wú)法對(duì)業(yè)務(wù)異常進(jìn)行分析、分類,異常實(shí)例跟蹤能力不足,不能通過(guò)異常信息定位問(wèn)題;
第四,監(jiān)控支撐處理能力不足:隨著接入系統(tǒng)越來(lái)越多,原監(jiān)控系統(tǒng)擴(kuò)展能力不足。同時(shí),缺少實(shí)時(shí)調(diào)控管理手段,監(jiān)控指標(biāo)出現(xiàn)告警時(shí),無(wú)法快速介入;
最后,無(wú)法展示服務(wù)依賴關(guān)系:難以理清服務(wù)間的相互依賴程度,以及某服務(wù)出現(xiàn)異常時(shí)造成的影響范圍。
浙江移動(dòng)希望借助平臺(tái)升級(jí)改造來(lái)消除以上不足,但前提是不能影響業(yè)務(wù)的正常運(yùn)行,其難度比得上“開著飛機(jī)修飛機(jī)”,任何改動(dòng)都牽一發(fā)動(dòng)全身。
亞信科技:以最小代價(jià)實(shí)現(xiàn)最佳改造
于是, “如何以最小代價(jià)完成全面而系統(tǒng)的改造”就擺在了浙江移動(dòng)合作伙伴——亞信科技這一頭兒,在結(jié)合實(shí)踐創(chuàng)新的基礎(chǔ)上,以下方案浮出水面:
1,采用無(wú)侵入式探針埋點(diǎn)對(duì)目標(biāo)系統(tǒng)進(jìn)行數(shù)據(jù)采集,無(wú)業(yè)務(wù)改造量,運(yùn)行數(shù)據(jù)通過(guò)后期清洗、聚合計(jì)算,會(huì)形成各類統(tǒng)計(jì)指標(biāo),并可視化展現(xiàn)在監(jiān)控首頁(yè);
2,用統(tǒng)計(jì)指標(biāo)說(shuō)話,通過(guò)統(tǒng)計(jì)接口、集群、中心的調(diào)用情況,作為擴(kuò)縮容依據(jù);通過(guò)成功和失敗次數(shù)統(tǒng)計(jì),了解系統(tǒng)健康情況,作為系統(tǒng)優(yōu)化基礎(chǔ);通過(guò)耗時(shí)統(tǒng)計(jì),了解系統(tǒng)性能,作為系統(tǒng)調(diào)優(yōu)的基礎(chǔ);
3,優(yōu)化調(diào)用鏈,可展現(xiàn)請(qǐng)求的整個(gè)調(diào)用過(guò)程,每個(gè)調(diào)用環(huán)節(jié)的延時(shí),輕松排查分布式系統(tǒng)下的異常,并定位問(wèn)題所在;
4,對(duì)異常進(jìn)行統(tǒng)計(jì)、分類,便于快速定位異常,實(shí)現(xiàn)高效運(yùn)維;
5,展示服務(wù)的正反向依賴關(guān)系,任何新需求開發(fā)上線,都可以清晰地評(píng)估其影響范圍;
6,監(jiān)控能力可無(wú)限擴(kuò)容,在對(duì)接配置中心后,可在線擴(kuò)容升級(jí)。
亞信科技薛浩表示,“我們以最小代價(jià),完成了對(duì)分布式系統(tǒng)架構(gòu)的全面監(jiān)控,收集監(jiān)控?cái)?shù)據(jù)的耗時(shí)幾乎可以忽略不計(jì)。我們通過(guò)關(guān)鍵節(jié)點(diǎn)數(shù)據(jù)的收集,分析業(yè)務(wù)健康狀態(tài),并通過(guò)獲取系統(tǒng)日志、系統(tǒng)堆棧信息、GC信息、運(yùn)行參數(shù)等一系列運(yùn)維手段,實(shí)現(xiàn)故障排查和系統(tǒng)保障。能夠秒級(jí)響應(yīng)10億級(jí)用戶訪問(wèn)量,并能快速無(wú)感知的定制客戶需要收集的數(shù)據(jù)。”
截至目前,全新微服務(wù)運(yùn)行監(jiān)控平臺(tái)的調(diào)用鏈可覆蓋浙江移動(dòng)26個(gè)業(yè)務(wù)中心,即全省95%的業(yè)務(wù)量,所有的遠(yuǎn)程調(diào)用都納入了監(jiān)控范圍。雖然成績(jī)顯而易見,但薛浩認(rèn)為,“技術(shù)的更迭永無(wú)止境,正如逆水行舟不進(jìn)則退,不斷迭代、讓技術(shù)始終保持先進(jìn)性,是我們的堅(jiān)定追求。”