基礎設施監(jiān)控是一種軟件工具的部署,用于自動診斷整個技術堆棧中的性能和可用性問題。
基礎設施監(jiān)控包括一系列的用途和問題,從網(wǎng)絡優(yōu)化到診斷再到入侵檢測。基礎設施監(jiān)控可以告訴工作人員,路由器是否關閉,服務器是否以不尋常的利用率運行,并且在適當?shù)陌踩韵拢€可以發(fā)現(xiàn)正在竊取企業(yè)數(shù)據(jù)的入侵者。
基礎設施監(jiān)控支持基礎設施管理,但兩者不同。基礎設施管理是企業(yè)根據(jù)監(jiān)控工具的發(fā)現(xiàn)采取的補救措施。基礎設施監(jiān)控可以不斷檢查IT平臺的各種元素,從內(nèi)部數(shù)據(jù)中心到私有云再到公共云。
隨著網(wǎng)絡越來越復雜,由于設備種類越來越多,以及混合云的出現(xiàn),網(wǎng)絡完整性的重要性隨之增長。即使在中小企業(yè)內(nèi)部的基本網(wǎng)絡上,也應該對基礎設施進行監(jiān)控,但是對于大型企業(yè)的復雜系統(tǒng),它是運營的重要組成部分。
了解基礎設施監(jiān)控
在日常運營方面,基礎設施監(jiān)控是軟件工具的部署,用于自動診斷整個技術堆棧中的性能和可用性問題,以在問題變得嚴重之前捕獲問題。
“整個堆棧”是指硬件、操作系統(tǒng)、虛擬化環(huán)境、網(wǎng)絡、存儲、計算和應用程序。由于大多數(shù)大型基礎設施跨越多個位置,同時包含公共云和私有云,這就給IT部門帶來了更大的挑戰(zhàn),因此,自動化將成為關鍵。
由于具有復雜性,實現(xiàn)自動化至關重要,原因如下:
•自動化可以比人類更快地做出響應。
•它可以比等待人工干預更快地處理問題。
•假設企業(yè)已正確編程響應,自動化可以減少錯誤。
•與人類不同,它可以全天候運行,不需要睡眠。
通過自動化技術,企業(yè)可以設置閾值,例如服務器利用率或網(wǎng)絡帶寬,以及當網(wǎng)絡高于或低于設定閾值時的程序響應。如果服務器凍結或停止,它也可以自動重啟。
基礎設施監(jiān)控包括在出現(xiàn)問題時添加和刪除要監(jiān)控的設備、性能、運行狀況監(jiān)控、網(wǎng)絡和數(shù)據(jù)移動監(jiān)控、報告/日志以及警報系統(tǒng)。這些通常是實時的,因為對網(wǎng)絡瓶頸的警報在被發(fā)現(xiàn)6小時后是毫無意義的。
基礎設施監(jiān)控通常通過儀表板完成,儀表板通過視覺布局(如儀表)在一個位置顯示企業(yè)的所有信息。它們在屏幕上呈現(xiàn)實時更新,并可以在一段時間內(nèi)生成報告。
為什么需要基礎設施監(jiān)控
基礎設施監(jiān)控為管理者提供了實時了解基礎設施狀態(tài)所需的數(shù)據(jù),以及衡量組織目標進度的能力。通過不斷收集和審查有關基礎設施的數(shù)據(jù),監(jiān)控允許測量當前狀態(tài)以及網(wǎng)絡的進展情況。
例如,如果管理層已經(jīng)制定了實現(xiàn)一定級別網(wǎng)絡響應的目標,那么監(jiān)控工具可以顯示網(wǎng)絡在響應性方面的位置。它可以識別延遲的峰值,也許也可以找出原因。
確保網(wǎng)絡以最高效率運行需要企業(yè)了解構成IT基礎設施的設備,同時還要關注這些設備的健康狀況和性能。對企業(yè)的IT系統(tǒng)進行主動分析,意味著有更好的機會在導致嚴重中斷之前捕獲即將發(fā)生的故障。
有很多例子表明,如果沒有適當?shù)幕A設施管理會出現(xiàn)什么問題。“僵尸服務器”就是這樣一個例子,物理服務器處于空閑狀態(tài),沒有人使用它。由Anthesis Group和斯坦福大學研究人員于2017年進行的一項研究發(fā)現(xiàn),大型數(shù)據(jù)中心中多達30%的服務器是僵尸服務器,一直開啟卻沒有做任何工作。這是適當監(jiān)控的失敗,因為基礎設施監(jiān)控器會記錄這些服務器沒有產(chǎn)生任何流量或根本不使用任何周期。
另一個例子是惡意軟件滲透。多年來,有關于惡意軟件進入企業(yè)網(wǎng)絡并使用企業(yè)網(wǎng)絡交付惡意有效負載、觸發(fā)垃圾郵件、發(fā)起分布式拒絕服務(DDOS)攻擊、嗅探網(wǎng)絡流量以獲取有用信息的故事和研究。同樣,這也是監(jiān)控有幫助的地方,因為它會注意到一個未知的應用程序發(fā)送數(shù)千封電子郵件或與俄羅斯的服務器通信。
基礎設施監(jiān)控最佳實踐
以下是充分利用基礎設施監(jiān)控工具的幾個技巧:
確定優(yōu)先順序——提前確定哪些是最重要的通知按降序排列,這可能會花費比處理電子郵件稍多一些的時間。
創(chuàng)建警報解決流程——應為每種警報類型提供最佳和最快的解決流程。同樣,這也是企業(yè)優(yōu)先考慮的問題,因為需要通知首席執(zhí)行官讓工作人員來處理。
購買而不是建造——建設或購買是一個歷史悠久的IT爭論。企業(yè)是自己建設還是鎖定供應商?在這種情況下,由于IT系統(tǒng)日益復雜,企業(yè)最好購買監(jiān)控工具。好消息是有很多可供選擇。
測試企業(yè)的監(jiān)控和警報系統(tǒng)——因為企業(yè)不應該在實際的緊急情況下首次看到其警報系統(tǒng)運行,因為它可能需要對系統(tǒng)進行一些調(diào)整。試運行有助于確保企業(yè)可以根據(jù)需要調(diào)整系統(tǒng)。
設置詳細全面的警報——當汽車中出現(xiàn)“檢查引擎”指示燈,但不知道問題是什么時,這很令人沮喪。這里也同樣適用。良好的警報需要全面、詳細和可操作。
從多個位置進行監(jiān)控——如果企業(yè)有多個數(shù)據(jù)中心,則從每個位置監(jiān)控所有數(shù)據(jù)中心。如果有三個,則從A監(jiān)視B和C,從B監(jiān)視A和C,依此類推。冗余將保護企業(yè)業(yè)務正常運營。
獲得幫助——監(jiān)控工具供應商有支持人員和顧問為企業(yè)提供幫助。
混合使用監(jiān)控工具——既有內(nèi)部部署工具,也有基于云計算的工具。同時使用它們,特別是如果企業(yè)擁有混合云環(huán)境的話。
沒有警報并不總是一個好兆頭——這可能意味著系統(tǒng)失敗。這是不可避免的。它們會阻塞帶寬或遭受入侵。有時錯過了一些東西。不要以為幾周內(nèi)沒有警報意味著沒有任何問題。問題可能出在顯示器本身。
定期審核指標——設定性能指標并非一勞永逸。企業(yè)可能設置的CPU閾值太高或網(wǎng)絡帶寬警報范圍過小。應定期審查指標。
基礎設施監(jiān)控工具
現(xiàn)在有兩種類型的監(jiān)視工具:有內(nèi)部部署的監(jiān)視軟件工具,以及從網(wǎng)絡外部運行的SaaS服務器監(jiān)視工具。企業(yè)的決定應該基于其業(yè)務需求,但此時,只剩下很少的本地工具。幾乎所有工具都已遷移到云端。
CloudRadar:這會將企業(yè)所有服務器、主機和服務置于統(tǒng)一的應用程序中,當出現(xiàn)問題(例如中斷、、容量、性能問題)時,軟件會通過電子郵件、短信、Slack、WhatsApp、電報、Pushover、Webhook通知用戶。
CA Technologies:CA公司為本地和云提供各種企業(yè)級、全棧監(jiān)控和管理解決方案,包括DX應用程序性能管理、DX應用程序體驗分析、DX基礎設施管理器以及網(wǎng)絡運營和分析等。
VMware vRealize Hyperic:從70多種應用程序技術中收集多達50,000個指標的性能數(shù)據(jù),以監(jiān)控硬件、操作系統(tǒng)、應用程序、中間件堆棧中的任何組件。
New Relic:APM和基礎設施的兩個應用程序,在結合覆蓋系統(tǒng)和應用程序性能時,無論是在內(nèi)部部署數(shù)據(jù)中心還是在云平臺中。
BMC數(shù)字企業(yè)管理:數(shù)字體驗監(jiān)控(DEM)是一套六種全棧監(jiān)控解決方案,包括IT運營、監(jiān)控未經(jīng)授權的IT活動、大型機維護、應用監(jiān)控和未經(jīng)授權的應用。
Dynatrace:該公司致力于為績效管理、運營人工智能、云計算基礎設施監(jiān)控,以及數(shù)字體驗管理創(chuàng)建監(jiān)控工具。
Opsview:其旗艦產(chǎn)品Monitor產(chǎn)品提供了對所有IT資產(chǎn)和系統(tǒng)以及基于云計算服務的單一視圖。
SolarWinds:其旗艦服務器和應用程序監(jiān)視器(SAM)工具可讓企業(yè)監(jiān)控應用程序和服務器基礎設施(包括內(nèi)部部署和云端)的運行狀況、可用性、性能。SAM支持1200多種應用程序和系統(tǒng)模板,或者可以輕松地將監(jiān)控擴展到任何自定義或自行開發(fā)的應用程序。