常見的云上應用的架構
云上應用早期較多的是購買云服務I層資源(多為基礎設施如主機等計算資源)自建各種集群,運維人員多以主機監控為中心進行運維,同時自己搭建應用及數據庫等監控系統進行應用層和業務層運維。隨著容器技術的普及,越來越多的企業通過微服務框架開發,業務的實現也更多的使用云上服務,如分布式中間件,函數服務,AI服務等,同時運維也轉向云上的運維服務。以下是一個典型的現代云上應用架構:
經過域名解析階段后,靜態資源命中CDN后直接返回,無命中時會回源去拉取,動態請求直接訪問WEB服務,在請求到達四層和七層ELB之前,多數企業應用也會選擇WAF來清洗異常流量。
經過ELB后,請求到達業務應用服務器,業務實例多為分布式構架,微服務之間相互調用,一般情況下企業運維人員較多的關注點是應用實例這一層,多為企業自行開發的服務。
持久化層當前各CSP提供的中間件不一樣,華為云上用戶使用較多的如分布式緩存,分布式數據庫等。由于提供動態擴容及較高級別的SLA,越來越多的企業不再需要專業的DBA,轉而使用云上的服務,開發上也更加敏捷。
如此多的云服務和各種資源,任何一個環節出現問題,都將導致應用KPI異常,用戶體驗下降,進而導致企業運營受到影響,而每個使用云服務的企業,如果投入大量人力去自建運維系統并且將整個請求的各個環節關聯起來,成本會非常高。因此華為云通過實踐構建了一套立體運維體系,幫助企業更好的進行一站式運維。下面將為您介紹立體運維定位、架構及特點。
立體運維的定位和架構
立體運維主要是圍繞應用進行監控,一站式完成基礎設施層、應用層及用戶體驗層的監控。
參考以上典型云應用架構,將業務請求路徑上經過的不同資源進行分層,分層如下:
圍繞分層設計不同的專業運維服務子系統,將不同數據在不同子系統上串聯協同、關聯分析,構筑一個云上的運維平臺,從而最大化的實現數據價值,為運維人員提供一個統一的運維中心,達到一站式立體化運維的目的。綜合立體運維定位及典型云應用分層,立體運維融合了華為云的應用運維服務(AOM)、應用性能管理服務(APM),對虛機、存儲、網絡、數據庫及應用等多維度實時監控,并通過應用與資源告警關聯、日志分析、智能閾值、分布式調用追蹤、手機APP異常分析等技術,實現分鐘級問題快速診斷和修復,保障云上應用長穩運行。
AOM側重于對云主機、存儲、網絡、WEB容器、Docker、Kubernetes等應用運行環境及應用狀態、應用與資源的關聯關系等內容的深入監控并進行集中統一的可視化管理,其架構如下:
APM側重于分布式應用性能分析,擁有強大的分析工具,通過拓撲圖、調用鏈、事務分析可視化地展現應用狀態、調用過程、用戶對應用的各種操作,快速定位問題和改善性能瓶頸,其架構如下:
立體運維的特點
立體運維一站式完成基礎設施層、應用層及用戶體驗層的監控。它具備以下特點:
1、 AOM——統一運維監控管理:資源、應用、業務一站式監控與分析
通過集群與虛機、虛機與應用、應用與資源統一建模,將集群、虛機、網絡、磁盤、數據庫、應用、容器及業務等上百種指標監控起來,并提供各種指標智能關聯分析,運維人員通過統一的告警入口即可下鉆找到問題根因。
2、 AOM——日志管理:高性能搜索和業務分析,深挖日志價值
將虛機上的應用、開源組件、系統等日志集中采集起來,通過清洗、實時分析、智能聚類等處理,實現了日志的高性能搜索和業務分析。同時,支持自定義采集路徑、實時刷新、上下文查看、秒級搜索、日志下載、轉儲等常用功能,滿足日常所需。
3、 AOM——應用&資源關聯分析:層層自動關聯,直擊異常
應用、服務、實例、資源相關聯,可以直接查看到異常影響范圍。針對應用異常,可以直接查看其指標,通過指標找到原因。針對資源異常,可以查看其資源對象拓撲圖及告警情況等信息來定位原因。
4、 APM——應用拓撲分析:應用關系與異常一目了然、故障下鉆
應用拓撲是對應用間調用關系和依賴關系的可視化展示,包括應用狀態、時延、錯誤、負載、依賴關系等指標,支持數據庫、緩存、消息中間件、NOSQL等各類開源組件的情況。同時可以按照時間、服務、事務、top等維度進行篩選查看。在應用拓撲中,針對異常也可直接下鉆查看調用關系,定位異常根因。
5、 APM——調用鏈追蹤:性能瓶頸與異常原因分鐘識別
調用鏈跟蹤、記錄業務的調用過程,還原業務請求在分布式系統中的執行軌跡和狀態,可以分鐘識別異常原因。在業務方法被調用時,可自動捕獲該方法的調用者、詳細的堆棧以及各類參數,幫助開發人員快速鎖定問題現場。
6、 APM——業務會話監控:監控每筆交易的KPI數據,提升用戶體驗
從運營視角,了解每個業務的運行狀況,包括交易次數、時延、錯誤率,并通過調用鏈找到異常代碼,同時可以幫助運營人員了解活動期間的交易體驗情況。
7、 APM——SQL分析:快速分析慢SQL和異常SQL
數據庫SQL語句異常,可能會引發業務超時等問題。在日常運維中,可通過錯誤耗時、響應時間等關鍵指標對數據庫進行監控,定位出那些執行耗時長、效率低、調用出錯的SQL語句,并對其進行分析和優化。
8、 AOM、APM——故障智能診斷:基于機器學習算法自動檢測應用故障
通過運維數據,包括百種指標監控、KPI數據、調用跟蹤數據自動完成故障根因分析。具體原理可分為單維度異常識別、復合事件異常識別、業務根因分析。
單維度異常識別:根據歷史指標數據動態生成指標基線,無需人工配置告警閾值。
復合事件異常識別:多維護異常指標因果關聯分析,識別出根源告警。
業務根因分析:提取業務正常與異常時上下文數據特征,如資源、參數、調用結構,通過聚類分析找到問題根因。
5G時代,華為云強大可靠的運維能力將助力互聯網企業上云無憂,更能抓住5G紅利,搶先擁抱數字化和智能化時代。7月2日~8月31日期間,華為云啟動“華為云專蜀月”活動,重點為四川以及西南地區的客戶上云降低門檻,特別推出了西南節點ECS S3云主機還提供6折特惠的活動。針對視頻、游戲、移動應用APP三大互聯網應用場景的特惠包,包括免費視頻加速體驗、全球獨家云手機優先購買權、免費高頻云服務體驗等權利。華為云為新老客戶、生態伙伴及開發者設計優惠政策也誠意滿滿:對于老客戶,華為云最高返券可達50%;對于新客戶,則有機會獲得最高贈2萬元的測試券;開發者更可獲得微認證限時五折特惠并加返百元大禮;生態合作伙伴則享受首單5折的優惠。