某日,早上10點,IT部門的直撥電話和分機幾乎同時響了起來。網管員對于這一現象早已司空見慣,但這次不同,用戶說ERP系統時而能登錄,時而又無法訪問。這可是公司日常運作的關鍵應用系統,抓緊第一時間排錯。管理員在通訊線路、物理層設備、服務器、ERP系統、數據庫、存儲設備都一一開始排查問題,但一直到了下午17:00,還是沒有找問題根源所在。打電話求援廠商,采用了“分段”和“分層”的排查策略,基本斷定了是鏈路上有問題,但時斷、時通的問題還是沒有得到徹底解決。
上面這個案例充分說明了一個問題,在IT支撐業務的年代,企業的規模越大,往往越經受不住故障的侵襲。突如其來的各種故障可能隨時造成系統停機,業務中斷。那么,如何在千絲萬縷中找到問題,并在第一時間處理問題呢?
《排錯寶典》缺乏時間觀念
前面提到的“分段法”和“分層法”常被IT運維人員稱為《排錯寶典》。其中,分段法,可以理解為在同一網絡上,把故障分成幾個段落,讓用戶利用Ping等命令對本地網關進行連通性測試,再逐一排除。而分層法則更容易理解,比如從OSI模型中的物理層和應用層,向上或向下進行排除,逐層檢測每層設備或系統的可用性。但這種手工處理問題的方式很難在短時間內發現問題的根源,另外一方面,則有可能因為太倉促行事而把事情弄成一團糟,引出其他因為配置修改造成的混亂局面。
網絡故障的管理是IT綜合管理的重要組成部分,隨著網絡規模的增加,網絡故障的管理變得日益重要而緊迫。雖然我們仍然可以按照“IT經典排錯法”修復系統,但在業務如此離不開IT的今天,龐大的運維對象,如果不能將支持業務系統的設備都關聯起來,當成整體的運維對象去看待,就很難在第一時間定位故障,業務的連續性也無法得到保障。
針對這一普遍現象,作為國內領先的IT運維產品和服務提供商的北塔軟件認為:“目前許多企業的IT運維環境中,管理員都會利用系統自帶的日志告警和網絡監控腳本,但這只是處在‘半自動化’的運維狀態。因為這種IT運維狀態,很多還仍然是等到IT故障出現后再由運維人員采取相應的措施,所以傳統的、被動的、孤立的IT運維管理模式經常是讓IT部門疲憊不堪。另外,在企業中,很多業務系統建設目標都非常有針對性,但同時這也就造成了運維的有限性,在網絡層和應用層分別使用所配套監視系統,這些監控的關注對象只可能是本層的設備或系統。雖然這些工具很強大,但仍然各自為戰。隨著新增業務系統一個又一個地建設,其各自所配套的彼此各不相關的監視系統也一個又一個地被建造出來,并各自孤立地投入運行。上面這些,都說明了沒有關聯性的運維模式為何不能及時發現故障問題的原因了。”
關聯性綜合管理有章可循
當然,并不是所有運維軟件都不能關聯性輔助管理人員發現、分析、定位、解決問題。北塔軟件設計BTIM系統,其內部所有管理組件都不是互相獨立的,這種基于企業IT運維管理規律的關聯性,體現在客戶可以根據故障原因,一層一層地去抽絲剝繭的分析解決問題,而這也是BTIM讓你擺脫“找問題的日子”的最大價值體現。
關聯從拓撲伊始
企業可以利用“拓撲發現管理”關聯的各個模塊,呈現出一張信息非常豐富的“物理拓撲圖”。當然,這張拓撲圖不只是一張“死圖”,它可以給予用戶一個對網絡資源的整體把握,能告訴我們網絡的各部分負載狀況,各線路流量狀況。在物理層采集完畢之后,我們就以在這個圖上大做文章,比如邏輯拓撲、機房拓撲、業務拓撲,通過連接對支撐業務系統運行對象的整合,形成不同的運維組。
CMDB讓運維流程凝為一體
前面提到的多個拓撲圖,為何我們不把它稱為“死圖”呢?這也就是為企業構建配置管理數據庫(CMDB)埋下了伏筆。作為整個運維平臺的基礎,CMDB的作用就是確保配置數據的統一性和完整性,同時保證所有流程通過CMDB的紐帶作用關聯為一個整體,并與其他模塊(如知識庫、問題庫、服務臺等)緊密關聯。CMDB在IT綜合管理中,組成了物理網絡基礎架構上各組件的可靠數據源,這些數據包括問題記錄、變動記錄、版本信息、狀態信息、關系信息等等。如果缺乏這些數據支撐,沒有幾天的時間做統計分析,如果要想解決問題,那便真是大海撈針了。
操作上的關聯分秒必爭
比如文章開頭提到的ERP故障問題,如何快速響應,快速定位問題源,如何在第一時間解決,這些都在說明一個問題,這就是“快”。所以說,如果出問題以后,我們就可以直接看到與這臺ERP服務器關聯的物理拓樸、機柜拓樸、和設備面板圖,從操作菜單上可以相互調用,提高處理問題的效率。網管員根據告警和機房物理設備地址的關聯關系,能迅速確定告警設備的機房位置,并且運用強關聯性通過右鍵入口就能關聯到真實物理拓撲圖,然后定位到機柜圖上,此時便可直接通過設備面板視圖,最終定位到設備端口上。而前面這些操作,卻無需網管員跑到機房和設備前進行排查。
在IT運維中,“關聯”能夠將企業的IT資源納入到一個統一平臺進行管理,在此基礎上對于采集而來的底層數據進行關聯分析,從而得出重要的運維結論。同時,基于業務系統的相關IT架構也應該能夠關聯,對構成業務系統的客戶端、數據交換平臺、硬件支撐平臺、支撐軟件平臺、應用系統等進行實時的監控管理,從而準確掌握業務系統的運行情況,當業務系統發生故障時,能迅速定位到具體某一環節。只有這樣,才能真正做到對IT資源掌控于心,運維無憂。