管理虛擬環境并不輕松。即使部署規模很小,管理員仍舊需要注意很多發生在幕后的故事。不進行合理的規劃并密切關注變化情況,即使是很小的問題也可能導致失控。我們向顧問專家委員會了解了他們所見到的最為常見的錯誤以及如何避免。
Jason Helmick:缺少對配置管理的規劃
如果不對配置管理進行規劃,那么距離犯錯就不遠了。無論是公有云還是私有云,你必須規劃虛擬環境的服務器配置并掌控變化。詢問Linux專家,他們將會花很長時間向你表述Puppet或者Chef的優勢。詢問有經驗的Windows管理員,他們同樣會向你講述DSC的優勢。
你需要能夠采用準確的配置快速、輕松地部署服務器,而不是冗長復雜的腳本以及漫長的平臺測試。你還需要控制服務器隨時間變化而發生的改變。有管理員做出調整并導致服務器脫離最優配置嗎?
虛擬環境出現問題時,你要問的第一個問題就是“發生了哪些改變?”硬件罷工的情況是很少見的,大多數服務中斷是由于某些人對配置進行了有意或無意的調整。避免這些中斷并采用合理的配置對環境進行更好的控制??梢赃x擇相應的工具:Puppet、Chef或者DSC。無論選擇哪一個,在出問題之前先要做好配置管理。
Brian Kirsch:小心問題陷阱
在當今的虛擬環境中,軟件安裝、配置及維護帶來很少的問題。虛擬化方面逐步采用配置向導以及預配置設備,專家以外的人都能夠創建并維護虛擬環境了。這恰恰是問題所在。技術不存在問題,存在問題的是合規性。外表簡單可能意味著底層很復雜,問題恰如冰山一角。
盡管虛擬環境看起來很簡單,但安裝、配置及管理卻很復雜。在理想情況下,我們不會發現任何問題因為一切都正常。但在上次檢查時我發現了問題,這意味必須有人修復。技術人員必須與顧問以及廠商一同查找出現的問題,這時對底層知識了解的越多越好。這并不是說你必須能夠自己解決該問題,但能夠正確地定位問題是恢復系統的一個關鍵步驟。
通過采用虛擬化或者將核心生產應用遷移到云服務,企業能夠避免大多數頭痛的問題。這消除了犯錯及維護的可能性,大量的可用云服務為組織提供了滿足需求的現代數據中心。盡管這些云服務發生中斷的現象非常罕見,但在將核心生產應用遷移到云中之前我還會再三考慮。
組織開始采取虛擬化路線,無論是私有云還是公有云,一定要確保員工經過了很好的培訓,他們不需要是每個方面的專家,但也不應該對此感到畏懼。虛擬化能夠為組織提供令人驚嘆的優勢,但是需要進行很好的控制否則可能會變成可怕的怪獸。
Rob McShinsky:忽視虛擬基礎設施
你可能犯的最大的錯誤就是忽視虛擬基礎設施。服務器使用時間逐漸增加,你可能會繼續使用舊固件、很少打補丁,對存儲或網絡疏于管理因為單臺服務器只運行著一個應用。在采用服務器虛擬化后忽視這些基本的工作可能會影響性能,更糟糕的是可能會導致上百臺服務器宕機。所有的hypervisor、服務器以及存儲一直在革新,同時會發現bug。運行在基礎設施之上的虛擬機工作負載數量同樣呈級數增長,由于虛擬環境涉及眾多硬件,難怪會出現問題導致宕機或者影響性能了。
關鍵是對基礎設施有一個全面的了解,同時要關注性能臨界值。如果環境未發生任何變化但你突然發現運行不穩定的情況,那么要了解可能是哪個資源層負載過高導致出現了性能問題。為開展此項工作,你需要選擇具備診斷功能并能夠進行趨勢分析的監控工具。這些工具能夠提高工作效率,消除日常管理之痛。
Dave Sobel:環境的清單缺少管理及維護
我所發現的管理虛擬環境最大的錯誤就是沒有一個系統來管理并維護環境的清單及相關信息。中小企業不會部署系統來記錄系統配置信息、使用情況或者主機的物理位置。發生災難時,這些信息對快速恢復至關重要,不幸的是這一工作往往被忽略掉了。