了解云原生性能可以更好地為站點可靠性工程師(SRE)和平臺工程師提供實時洞察力,幫助在出現問題時快速響應。因此,人們近年來看到對云原生全棧可觀察性的興趣激增,其中涉及指標、日志和跟蹤,以揭示事件的根本原因。
Chronosphere公司聯合創始人兼首席執行官Martin Mao表示,可觀察性的一個關鍵目標是減少平均恢復時間(MTTR)。然而令人驚訝的是,這一指標在許多企業中實際上正在增加,工程師們可能會遇到數據疲勞,因為在處理大量通知時識別警報很棘手。Mao對于如何管理云原生可觀察性數據進行了分析和闡述,并介紹了一些技巧,這些技巧可以幫助企業在可觀測數據的海洋中保持頭腦清醒。
可觀察性的趨勢
首先,許多開源工具正在涌現以支持云原生可觀察性任務,該任務與云計算提供商或計算環境無關。云原生計算基金會在一項研究中發現,工程師們正在積極使用OpenTelemetry、Fluentd、Jaeger、OpenTracing、Cortex和OpenMetrics等開源工具。
Martin Mao曾領導Uber公司可觀察性團隊,他對當今平臺運營的需求有著深刻的洞察力。Uber公司的開發人員意識到應用程序性能監控(APM)的不足,并試圖開發自己的工具,從而催生了開源指標平臺M3和開源分布式跟蹤系統Jaeger等項目。
但是,對那些華而不實的云原生技術的投資確實有不利的一面。他表示,人們越來越擔心這些工具產生的大量數據??捎^察性數據的增長遠遠超過業務和基礎設施的增長,這意味著不僅難以解析,而且過多的可觀察性數據可能會創建新的數據湖,帶來數據存儲和集成的新問題。
Mao說,“由于產生了更多數據,需要篩選的警報也越來越多,這些警報開始妨礙企業找出解決這些問題的方法。”
解決方案:優化保留和分辨率
Mao表示,企業可以通過圍繞數據保留和解決設置限制來解決這些問題。以下深入了解這些概念的含義。
(1)數據保留
隨著許多工具產生不斷升級的數據維度,企業的可觀察性數據可以快速積累。阻止數據積累的第一種方法是限制數據的收集時間和存儲時間。
例如,是否有必要無限期地保存在單個部署過程中收集的所有數據?在當今的迭代開發周期中,永遠存儲這些點可能不是明智之舉。這可能意味著將默認存儲時間進行縮減。
此外,未能對收集數據的時間設置限制會導致可觀察性數據激增。例如,只有在主動調試時,實時記錄調試端點才有意,否則沒有必要收集數據。
(2)數據分辨率
數據分辨率是指記錄的時間序列數據的粒度。正如Mao指出的那樣,每秒記錄數據與每小時記錄數據基本上相差3600倍。因此,優化數據收集的分辨率對于減少采用成本高昂的存儲設備非常重要。
為可觀察性數據調整數據分辨率在很大程度上取決于手頭的用例?;氐匠掷m集成(CI)/持續交付(CD)示例,如果在回滾時收集部署數據,希望每一秒都具有高分辨率,因為這是關鍵時刻。另一方面,如果企業要進行一年的容量規劃,那么可能不需要在第二年之前保留歷史容量信息,因為這過于細化。
其他提示
優化數據保留和分辨率可以限制記錄的數據量。這有助于保持更小的占用空間,并生成更少的數據點進行篩選。與其他監控方法相比,調整分辨率通常是一種更好的折衷方法,例如只記錄生產團隊的10%,這可能會給許多用戶帶來困擾。
擁有一種動態選擇加入和退出數據收集過程的方法可以減輕一些前期工作。這可以被認為是自動應用更智能的默認值。一旦知道什么是有效的,就可以圍繞可觀察性數據收集和存儲過程設置通用模式,這些模式可以在企業中共享。
Mao指出,為了更好地處理數據,團隊將需要工具來修改和可視化他們正在收集的數據。此外,由于工作人員在調試時可能不需要每個數據點維度,因此他們可能會受益于預先計算所需答案的機制。
結語
可觀察性趨勢可以為幫助數字平臺優化運營帶來巨大好處??捎^察性有助于減少響應問題的時間并改善最終用戶體驗。他說,“可觀察性在其中起著關鍵作用,它讓人們了解這些做法是否有用。”
然而,向云原生架構的加速過渡產生了新警報和信號的風暴。如果不加以解決,這些數據會迅速堆積起來,從而需要對數據本身有更高的可見性。Mao說:“帶來的價值需要被重視。”
世界正在產生大量數據,數據會占用更多空間。它會累積并且大規模存儲的成本很高。然而,人們仍然認為數據是免費的,通常不會為數據生命周期制定計劃。Mao說:“負責可觀察性后端的人員的心態不應該是創建一個數據湖,在某種程度上必須采取一些措施。”
為了抵消這種趨勢,運營商不能以同樣的方式對待每一個數據。總之,為了避免淹沒在可觀察性數據湖中,需要限制不必要的數據收集,并圍繞數據收集的時間、粒度、可視化方式以及存儲時間實施更智能的優化。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。