保持企業關鍵應用程序正常運行是企業的絕對必要條件。據調研機構Gartner、IDC和其他公司估計,IT停機成本平均每分鐘約為4200英鎊。簡單的基礎設施故障可能花費大約75,000英鎊。而面向公眾的關鍵應用程序的失敗成本更高,每小時為378,000英鎊到755,000英鎊。當其故障影響大規模的全球物流運行,并給客戶帶來廣泛的不便時損失更為慘重。例如,去年五月,英國航空公司的運營系統出現故障,其損失迅速上漲。英國航空公司估計損失了1.0199億美元(7708萬英鎊)的硬性成本,其中包括對滯留乘客的機票退款,以及對聲譽的難以估量的損害。根據當時的股票估值,英國航空公司的母公司IAG公司隨后損失了2.24億美元(1.7億英鎊)。
預防此類災難,或在發生此類災難時有效和快速地進行干預,這意味著為開發人員和運營人員(DevOps)提供IT基礎設施、網絡和應用程序的可視性。現代IT監控解決方案以多種方式提供這種可視性,包括:
•問題:攝取和發現。人工配置數百或數千臺主機的監控是一個耗時且可能容易出錯的過程。運營商有時無法全面了解其權限范圍內的所有主機、應用程序和業務服務。解決方案:IT監控系統越來越能夠自動化或推斷信息,配置管理數據庫(CMDB)、部署工具、云計算API和其他信息的信息源。這有助于運營商識別和標記實體,可視化依賴關系,并在整個混合(即內部部署和基于云計算)數據中心內快速準確地配置監控。可以使用窗口管理器(WMI)、SNMP網絡發現和其他技術進行發現。
•問題:概要狀態顯示。數據中心運營商需要“單一控制窗”,可以匯總受到監控的系統的大量狀態信息,讓他們快速發現問題并研究以確定根本原因。解決方案:采用成熟的IT監控平臺提供可折疊的大綱樣式摘要顯示或計劃報告,允許操作人員隱藏或顯示有關受監視主機和系統的有意義的信息子集。彩色編碼彈出窗口引起人們對問題的關注。可點擊標簽可以快速訪問各個服務檢查、圖表、原始事件日志和故障排除工具的詳細信息。
•問題:儀表板。由于擁有太多的監控數據,密集度太高,可能難以使用。運營商需要能夠快速可視化關鍵指標和狀態信息。解決方案:有價值的IT監控系統允許企業使用圖形小部件創建可自定義的儀表板,隔離特定主機、指標和KPI。對準備好的面板的只讀訪問權限可以分發給關鍵利益相關者,了解應用程序狀態,服務等級協議(SLA)合規性等。
•問題:業務服務監控。IT團隊和DevOps需要能夠可視化提供關鍵業務服務所涉及的所有基礎設施元素和系統的狀態。解決方案:業務服務監控(BSM)是一種增強的儀表板功能,可讓運營商創建交互式視圖復雜應用程序“堆棧”(例如,負載平衡器、Web /應用程序服務器、數據庫集群、網絡設備和支持典型、擴展、高可用性、分層應用程序的其他元素)。它非常適合那些對此負責的開發人員、產品經理和其他人來了解他們擁有的應用程序的狀態,并使他們能夠在系統狀態開始降低時提供有效的幫助。
•問題:報告。實時狀態可視化并不能說明整個故事。主動管理和規劃還意味著能夠查看系統范圍的狀態、資源消耗趨勢和其他信息。解決方案:綜合報告使運營商能夠跟蹤合規性。它提供了對服務水平協議和目標、計劃維護和升級、跟蹤成本、橫向擴展預算,以及許多其他用途的深入了解。
•問題:警告。嚴重問題可能需要操作人員全天候注意。解決方案:幾乎所有IT監控解決方案都提供通過手機、電子郵件和短信提醒。許多還直接與通話管理系統和服務集成。在正確的時間正確地將警報路由到正確的人員是非常重要的。企業監控平臺要么具備此功能,要么與經過驗證的解決方案集成,以確保合適的人員在合適的時間獲得洞察力。
•問題:移動性。將運營商綁定到網絡運營中心(NOC)和辦公室影響士氣和生產力。解決方案:最好的IT監控解決方案提供有用的移動應用程序,使運營商能夠查看狀態,關鍵業務服務和其他儀表板;并響應來自任何地方的警報和通知。
•問題:通知和出站集成:一旦狀態信息從監控系統聚合,問題是如何起源、跟蹤、分配、協作和解決的?解決方案:頂級監控平臺提供與流行企業越來越廣泛的集成和中小企業問題跟蹤、服務臺和IT流程管理解決方案。在企業監控平臺中尋找與Slack、ServiceNow、Puppet、Ansible等工具集成。詢問可擴展性,例如“其平臺能否輕松擴展其功能,以便與未來的解決方案集成?”
最低信號
正確監控意味著不要想象每一個可能的信號。在理想情況下,控制使可見信號的最小子集產生最大可操作的洞察力:收集的每個指標都伴隨著相關的硬成本和軟成本。隨著IT資產規模和復雜性的增長,與收集、處理、存儲、分析、顯示、查詢和報告指標相關的開銷都會增加。這最終會影響應用程序、網絡、監視系統性能。
過度的可見性也給運營商帶來了嚴重的認知負擔。太多的復合體,很少使用或與操作無關的指標可以偽裝基本信號(警報),從而減慢有效的事件響應。如果缺乏對可見信號的選擇性,以及如何評估和引起對它們的關注可能很快導致過度警報。這可能促使人們對警報感到疲勞和倦怠,并最終導致真正發生事件時被人忽略。
調查非關鍵事件所耗費的操作人員時間對于更重要和更有影響力的工作而言是浪費時間。簡單地說:獲得可見性錯誤會付出更多的支出,并且可能阻礙創新。
最大洞察力
工作人員需要豐富的知識和經驗來識別必要和充分的信號,以便最佳地監控給定類型的基礎設施,應用程序或業務服務。如果沒有適當的工具、人員不足、時間緊張的IT人員通常很難提供這種級別的保證。
頂級IT監控解決方案通過在模塊或插件中打包最佳度量標準集來彌補知識差距,從而可以快速、自信地設置最佳實踐兼容監控。例如使用插件,操作員可以立即實施監控MySQL數據庫的運行狀況、性能和資源消耗所需的20到40次服務檢查。
開發人員使用不太成熟的應用程序性能監視(APM)系統和開源工具鏈來構建軟件,并在測試和生產環境中可視化應用程序狀態。應用程序性能監視(APM)解決方案對于對應用程序細節知之甚少的操作人員來說并不是很有幫助,他們的工作是保持眾多復雜的應用程序順利運行。
與IT運營監控不同,應用程序性能監視(APM)系統是多種多樣的,并且符合各種標準。例如,有許多開源服務器、驅動程序和其他工具,旨在從Proproheus(一種流行的指標可視化和數據庫系統)消耗HAproxy(一種流行的開源代理服務器/負載平衡器)中提取指標。
觀測
監控和可見性處理“已知未知數”,這眾所周知的性能特征/指標和應用程序和組件的已知硬故障模式。同時,可觀察性更集中,現在用于討論包含“未知未知數”的可見性超集。特別是,這指的是理解和管理動態、自擴展、彈性、分布式應用程序行為的挑戰。基本上,可見性知道可能發生的一組可預測問題,而可觀察性使人們能夠洞察出發生了什么,這需要進一步探究。
企業的監控解決方案正在努力提供插件和模塊,使容器編排和相關系統的內部工作更加可見。與此同時,頂級的市場參與者正在評估一系列策略,用于從分布式和容器化應用中提取一些重要的信號,使它們能夠被觀察到。