基礎設施監(jiān)控：挑戰(zhàn)和最佳實踐

責任編輯：cres 作者：Andy Patrizio |來源：企業(yè)網(wǎng)D1Net 2019-07-15 09:33:43 原創(chuàng)文章企業(yè)網(wǎng)D1Net

基礎設施監(jiān)控是一種軟件工具的部署，用于自動診斷整個技術堆棧中的性能和可用性問題。

基礎設施監(jiān)控包括一系列的用途和問題，從網(wǎng)絡優(yōu)化到診斷再到入侵檢測。基礎設施監(jiān)控可以告訴工作人員，路由器是否關閉，服務器是否以不尋常的利用率運行，并且在適當?shù)陌踩韵拢€可以發(fā)現(xiàn)正在竊取企業(yè)數(shù)據(jù)的入侵者。

基礎設施監(jiān)控支持基礎設施管理，但兩者不同。基礎設施管理是企業(yè)根據(jù)監(jiān)控工具的發(fā)現(xiàn)采取的補救措施。基礎設施監(jiān)控可以不斷檢查IT平臺的各種元素，從內(nèi)部數(shù)據(jù)中心到私有云再到公共云。

隨著網(wǎng)絡越來越復雜，由于設備種類越來越多，以及混合云的出現(xiàn)，網(wǎng)絡完整性的重要性隨之增長。即使在中小企業(yè)內(nèi)部的基本網(wǎng)絡上，也應該對基礎設施進行監(jiān)控，但是對于大型企業(yè)的復雜系統(tǒng)，它是運營的重要組成部分。

了解基礎設施監(jiān)控

在日常運營方面，基礎設施監(jiān)控是軟件工具的部署，用于自動診斷整個技術堆棧中的性能和可用性問題，以在問題變得嚴重之前捕獲問題。

“整個堆棧”是指硬件、操作系統(tǒng)、虛擬化環(huán)境、網(wǎng)絡、存儲、計算和應用程序。由于大多數(shù)大型基礎設施跨越多個位置，同時包含公共云和私有云，這就給IT部門帶來了更大的挑戰(zhàn)，因此，自動化將成為關鍵。

由于具有復雜性，實現(xiàn)自動化至關重要，原因如下：

•自動化可以比人類更快地做出響應。

•它可以比等待人工干預更快地處理問題。

•假設企業(yè)已正確編程響應，自動化可以減少錯誤。

•與人類不同，它可以全天候運行，不需要睡眠。

通過自動化技術，企業(yè)可以設置閾值，例如服務器利用率或網(wǎng)絡帶寬，以及當網(wǎng)絡高于或低于設定閾值時的程序響應。如果服務器凍結或停止，它也可以自動重啟。

基礎設施監(jiān)控包括在出現(xiàn)問題時添加和刪除要監(jiān)控的設備、性能、運行狀況監(jiān)控、網(wǎng)絡和數(shù)據(jù)移動監(jiān)控、報告/日志以及警報系統(tǒng)。這些通常是實時的，因為對網(wǎng)絡瓶頸的警報在被發(fā)現(xiàn)6小時后是毫無意義的。

基礎設施監(jiān)控通常通過儀表板完成，儀表板通過視覺布局(如儀表)在一個位置顯示企業(yè)的所有信息。它們在屏幕上呈現(xiàn)實時更新，并可以在一段時間內(nèi)生成報告。

為什么需要基礎設施監(jiān)控

基礎設施監(jiān)控為管理者提供了實時了解基礎設施狀態(tài)所需的數(shù)據(jù)，以及衡量組織目標進度的能力。通過不斷收集和審查有關基礎設施的數(shù)據(jù)，監(jiān)控允許測量當前狀態(tài)以及網(wǎng)絡的進展情況。

例如，如果管理層已經(jīng)制定了實現(xiàn)一定級別網(wǎng)絡響應的目標，那么監(jiān)控工具可以顯示網(wǎng)絡在響應性方面的位置。它可以識別延遲的峰值，也許也可以找出原因。

確保網(wǎng)絡以最高效率運行需要企業(yè)了解構成IT基礎設施的設備，同時還要關注這些設備的健康狀況和性能。對企業(yè)的IT系統(tǒng)進行主動分析，意味著有更好的機會在導致嚴重中斷之前捕獲即將發(fā)生的故障。

有很多例子表明，如果沒有適當?shù)幕A設施管理會出現(xiàn)什么問題。“僵尸服務器”就是這樣一個例子，物理服務器處于空閑狀態(tài)，沒有人使用它。由Anthesis Group和斯坦福大學研究人員于2017年進行的一項研究發(fā)現(xiàn)，大型數(shù)據(jù)中心中多達30%的服務器是僵尸服務器，一直開啟卻沒有做任何工作。這是適當監(jiān)控的失敗，因為基礎設施監(jiān)控器會記錄這些服務器沒有產(chǎn)生任何流量或根本不使用任何周期。

另一個例子是惡意軟件滲透。多年來，有關于惡意軟件進入企業(yè)網(wǎng)絡并使用企業(yè)網(wǎng)絡交付惡意有效負載、觸發(fā)垃圾郵件、發(fā)起分布式拒絕服務(DDOS)攻擊、嗅探網(wǎng)絡流量以獲取有用信息的故事和研究。同樣，這也是監(jiān)控有幫助的地方，因為它會注意到一個未知的應用程序發(fā)送數(shù)千封電子郵件或與俄羅斯的服務器通信。

基礎設施監(jiān)控最佳實踐

以下是充分利用基礎設施監(jiān)控工具的幾個技巧：

確定優(yōu)先順序——提前確定哪些是最重要的通知按降序排列，這可能會花費比處理電子郵件稍多一些的時間。

創(chuàng)建警報解決流程——應為每種警報類型提供最佳和最快的解決流程。同樣，這也是企業(yè)優(yōu)先考慮的問題，因為需要通知首席執(zhí)行官讓工作人員來處理。

購買而不是建造——建設或購買是一個歷史悠久的IT爭論。企業(yè)是自己建設還是鎖定供應商?在這種情況下，由于IT系統(tǒng)日益復雜，企業(yè)最好購買監(jiān)控工具。好消息是有很多可供選擇。

測試企業(yè)的監(jiān)控和警報系統(tǒng)——因為企業(yè)不應該在實際的緊急情況下首次看到其警報系統(tǒng)運行，因為它可能需要對系統(tǒng)進行一些調(diào)整。試運行有助于確保企業(yè)可以根據(jù)需要調(diào)整系統(tǒng)。

設置詳細全面的警報——當汽車中出現(xiàn)“檢查引擎”指示燈，但不知道問題是什么時，這很令人沮喪。這里也同樣適用。良好的警報需要全面、詳細和可操作。

從多個位置進行監(jiān)控——如果企業(yè)有多個數(shù)據(jù)中心，則從每個位置監(jiān)控所有數(shù)據(jù)中心。如果有三個，則從A監(jiān)視B和C，從B監(jiān)視A和C，依此類推。冗余將保護企業(yè)業(yè)務正常運營。

獲得幫助——監(jiān)控工具供應商有支持人員和顧問為企業(yè)提供幫助。

混合使用監(jiān)控工具——既有內(nèi)部部署工具，也有基于云計算的工具。同時使用它們，特別是如果企業(yè)擁有混合云環(huán)境的話。

沒有警報并不總是一個好兆頭——這可能意味著系統(tǒng)失敗。這是不可避免的。它們會阻塞帶寬或遭受入侵。有時錯過了一些東西。不要以為幾周內(nèi)沒有警報意味著沒有任何問題。問題可能出在顯示器本身。

定期審核指標——設定性能指標并非一勞永逸。企業(yè)可能設置的CPU閾值太高或網(wǎng)絡帶寬警報范圍過小。應定期審查指標。

基礎設施監(jiān)控工具

現(xiàn)在有兩種類型的監(jiān)視工具：有內(nèi)部部署的監(jiān)視軟件工具，以及從網(wǎng)絡外部運行的SaaS服務器監(jiān)視工具。企業(yè)的決定應該基于其業(yè)務需求，但此時，只剩下很少的本地工具。幾乎所有工具都已遷移到云端。

CloudRadar：這會將企業(yè)所有服務器、主機和服務置于統(tǒng)一的應用程序中，當出現(xiàn)問題(例如中斷、、容量、性能問題)時，軟件會通過電子郵件、短信、Slack、WhatsApp、電報、Pushover、Webhook通知用戶。

CA Technologies：CA公司為本地和云提供各種企業(yè)級、全棧監(jiān)控和管理解決方案，包括DX應用程序性能管理、DX應用程序體驗分析、DX基礎設施管理器以及網(wǎng)絡運營和分析等。

VMware vRealize Hyperic：從70多種應用程序技術中收集多達50,000個指標的性能數(shù)據(jù)，以監(jiān)控硬件、操作系統(tǒng)、應用程序、中間件堆棧中的任何組件。

New Relic：APM和基礎設施的兩個應用程序，在結合覆蓋系統(tǒng)和應用程序性能時，無論是在內(nèi)部部署數(shù)據(jù)中心還是在云平臺中。

BMC數(shù)字企業(yè)管理：數(shù)字體驗監(jiān)控(DEM)是一套六種全棧監(jiān)控解決方案，包括IT運營、監(jiān)控未經(jīng)授權的IT活動、大型機維護、應用監(jiān)控和未經(jīng)授權的應用。

Dynatrace：該公司致力于為績效管理、運營人工智能、云計算基礎設施監(jiān)控，以及數(shù)字體驗管理創(chuàng)建監(jiān)控工具。

Opsview：其旗艦產(chǎn)品Monitor產(chǎn)品提供了對所有IT資產(chǎn)和系統(tǒng)以及基于云計算服務的單一視圖。

SolarWinds：其旗艦服務器和應用程序監(jiān)視器(SAM)工具可讓企業(yè)監(jiān)控應用程序和服務器基礎設施(包括內(nèi)部部署和云端)的運行狀況、可用性、性能。SAM支持1200多種應用程序和系統(tǒng)模板，或者可以輕松地將監(jiān)控擴展到任何自定義或自行開發(fā)的應用程序。

關鍵字：云計算基礎設施監(jiān)控