作為一個數據中心管理員,如果缺乏更大的視野,很容易陷入到千篇一律的解決問題的工作中。然而,數據中心的問題會從運行的方方面面產生,從操作故障到宏觀經濟問題。與其等待不可避免的問題出現,管理員應該積極的收集數據、分析趨勢、做好應對準備。
本文介紹3個數據中心常見的問題,管理員通過IT監控操作,能夠提前做好準備處理這些問題。
操作問題
如果修復BUG的周期長達12個月甚至更長,這清楚的表明了現有系統(例如COBOL)以及造成如此長周期的操作流程應該被替換掉了。數據中心管理員應該考慮將這些已有系統替換,可以替換為一個SaaS服務,也可以是用SQL和C重寫。如果替換系統時,公司并沒有意愿更改商業流程,那你將付出巨大開銷,并且很大比例的軟件將會運行得很低效。特定部門迅速增長的系統更改請求,即是一個警告,表明一些員工抗拒改變商業流程。
在操作層面上,管理員最重要的工作,就是收集趨勢數據,了解數據中心正在發生什么。如果一項工作需要原先兩倍的時間才能執行完,則必須弄清楚為什么會這樣。管理員需要隨時監控存儲、網絡和服務器的運行狀態,通過這些監控結果分析出系統瓶頸和錯誤。一個好的IT監控系統將需要花費大量金錢和操作人員時間,但一個壞的靠暴力收集數據的系統會收集過多的數據,造成信息過載,而非找到問題的根源。
更新存儲
似乎存儲更新的簡單解決方法就是當存儲池滿了后,買更多的硬盤,但選擇正確類型的存儲器是至關重要的,例如SSD,SATA大容量驅動器,或網絡存儲器。你需要通過存儲監控了解每一層級存儲的容量使用率和IOPS趨勢。因為目前最好的策略是將較少用到的數據從主存儲器層移出,因此判斷是否需要購買更多硬盤的方法即是根據自動計算的趨勢數據判斷哪些數據是較少被訪問的。如果你有許多存儲數據探針,趨勢分析將幫助你將存儲驅動器分配到最需要他們的地方去。
企業級存儲將變得更為復雜。它已經從簡單的主/從硬盤驅動器(HHD)變為一堆SSD和大容量SATA HDD的組成。未來2年將出現非易失性內存規格(NVDIMM)的存儲器,3D XPoint非易失性存儲器標準(NVMe)的SSD,高容量SATA SSD和越來越多的網絡和集群選擇,例如虛擬存儲區域網絡(SAN),超融合系統和遠程直接內存訪問鏈接。當這些技術形成主流后,自動化的IT監控將是唯一的優化運維的方式。
更先進的網絡
網絡也會造成數據中心一系列的問題。采用模版和策略來控制虛擬局域網建立和關閉將變得更為普遍,并將會被用到業務部門用戶的云服務配置中去。
然而這些用戶并沒有義務做優化網絡的工作,當一個新的云服務部署完后,他們仍然可能會繼續使用傳統的較松散的終端。使用自動化工具找出網絡瓶頸對改善用戶使用體驗將非常有用。 監控一條鏈路潛在的和承載吞吐量的趨勢也是非常重要的。這可以揭示出哪些工作流量需要被重新分配,并且驗證這些改變是否有效。
隨著云和集群編配技術的進步,智能負載平衡方法將變得更為重要,它能夠將需要消耗大量資源的應用實例分布到只有較輕網絡負載的環境中。 服務器還有一些額外的模塊需要被監控,包括動態內存(DRAM)和CPU占有率。很快將出現一些云配屬工具,能夠指出系統熱點,并自動化的進行負載平衡。
目前這還是一個正在發展的方向,公司還需要根據歷史數據,以每個應用為單位進行平衡決策。 任何一個好的IT監控軟件都具備當某些值超過門限后報警的功能。找到并使用這些軟件,能夠幫助快速定位問題。一些工具能夠將終端上的一個慢速工作的報警轉變為一個秒級更新的應用進程列表中的標記,無需人工從實際系統進程樹中去深入分析,例如eG Innovations Enterprice 6.1和PrinterLogic公司的Printer Installer。
總的來說,用好IT監控軟件和趨勢分析工具,能夠使IT管理員能更好的響應數據中心問題,并快速處理現實危機。