我們經(jīng)常會看到一些帖子介紹管理員在虛擬環(huán)境中應(yīng)該做哪些事,這里羅列一些你應(yīng)該避免去做的事情。
到目前為止,我寫的大多數(shù)指南都提到了用戶應(yīng)該做些什么以便更好地維護VMware。現(xiàn)在來看看用戶不應(yīng)該做哪些事。一些VMware錯誤雖然數(shù)量龐大,影響工作,但仍然可以修復(fù)。
這篇文章介紹的技巧并不全面,系統(tǒng)管理員可以作為參考,或許適用于基礎(chǔ)設(shè)施。
也許我可以提供最簡單的技巧之一,就是通過客戶端(web或胖客戶端)關(guān)閉主機時,不要通過SSH控制臺重新啟動。是的,這可以做到的,如果主機處于維護模式不應(yīng)該有任何問題。唯一的問題是,我重啟了錯誤的主機。幸好受影響的主機也在維護模式下。我得到了教訓(xùn)。雖然更耗費時間,但它更安全,也是有用的完整性檢查。
集群準許政策是一個經(jīng)常被忽視的VMware領(lǐng)域,人們也常常使用不當。理解它的工作原理至關(guān)重要。如果管理員希望關(guān)閉集群準許政策,確保系統(tǒng)有足夠的能力隨時應(yīng)對來自最大主機故障的負載。很少的主機負載大量虛擬機的做法并不可取。
企業(yè)經(jīng)常使用高端服務(wù)器并用負載100多個虛擬機的主機包裝它們。開始還行,直到你由于某種原因或主機崩潰需要把主機調(diào)成維護模式。重新啟動其他集群的100個虛擬機將對基礎(chǔ)設(shè)施造成巨大壓力并帶來潛在的I/O風暴。對于虛擬機的數(shù)量還有一個硬性限制,可以重新啟動一次。這意味著一些服務(wù)器需要排隊才能重新啟動。服務(wù)器需要在新的主機上等待重啟,導(dǎo)致停機時間延長。
只對一個主機使用存儲本地的做法更糟糕。這樣做意味著虛擬機連接一個單獨的主機是有效的。當主機出現(xiàn)故障時,虛擬機不能在另一個主機啟動,存儲也不可用。
還有些人把“人造”集群放到VMware的環(huán)境中。這時通常需要一個共享SCSI總線,因此所有虛擬節(jié)點必須駐留在相同的物理主機,這打破了書中的每一個HA(高可用性集群)的設(shè)計規(guī)則。
單臺主機的損失意味著整個集群的失敗。這可能是一個適合開發(fā)的環(huán)境,但在生產(chǎn)環(huán)境中使用它是有風險的。同樣,VMware容錯(FT)并非避免集群問題的萬全之策。采用FT時,CPU的局限性仍然是一個主要限制。
再來說說更復(fù)雜的VMware錯誤,主要版本更新有時會引發(fā)問題。在升級期間的失敗——尤其是如果使用外部數(shù)據(jù)庫主機,不一定會阻止用戶工作。沒有集中管理就更困難了。
連快照都無法拯救你。當你升級時,數(shù)據(jù)庫模式通常是升級。回滾后將數(shù)據(jù)庫置于危險境地,更有可能的是,你的vCenter數(shù)據(jù)庫將被當成垃圾。如果你能夠回滾,vCenter和數(shù)據(jù)庫表的恢復(fù)備份是唯一出路。這是VMware建議在升級時不能做的原因之一,從另一方面說明vCenter設(shè)備更容易直接升級。
如果有問題的網(wǎng)站使用自動精簡配置,它只能設(shè)置用于存儲陣列或VMware的一側(cè)。兩側(cè)都用意味著正在運行自動精簡配置的兩倍,如果大意了,管理就失敗了。你應(yīng)該使用相同的存儲設(shè)置集群寬度。
最后許多新秀管理忽視的是硬件兼容性列表(HCL),它詳細說明了VMware支持的硬件配置。盡管公平地說,大多數(shù)硬件工作沒有問題,如果你沒有按照HCL使用硬件,那就只能看人品了。主機出現(xiàn)故障甚至情況更糟并不是你想要聽到的。收拾受傷的心并確保你按照HCL購買硬件。
還有許多需要注意的事,我只是拋磚引玉。常識是管理員的最佳工具,緊隨其后的是在實踐過程中保持謹慎。除此之外,也要時刻積累經(jīng)驗,有時VMware錯誤是不可避免的。