提升虛擬服務器的可靠性可以先從仔細檢查服務器硬件及特性開始。讓我們先從選擇具有冗余電源的服務器開始。企業級服務器將包括兩個冗余的電源模塊,任意一個電源模塊都能夠支撐服務器的正常運轉。當一個電源模塊發生故障時,備份的電源模塊將會接管而不會影響系統的正常運行。冗余的電源模塊肯定不是個新主意,但在今后的技術升級過程中確保使用冗余的電源取代舊有的單電源系統是非常重要的。
虛擬機運行在服務器內存中,因此IT專業人員可以通過選擇具有內存可靠性技術的系統來提升服務器的可用性。例如,當其他模塊發生錯誤時具備額外內存模塊的服務器能夠調用額外的熱備內存模塊。內存巡檢模塊能夠提前進行內存尋址以定位并糾正內存錯誤。設備數據雙重修正允許服務器恢復發生在兩個內存芯片中的多位錯誤,而增強型的DDDC在DDDC提供的保護之外能夠監測并修正額外的單位錯誤。內存鏡像通常會在兩個內存模塊之間復制內存內容—提供內存 RAID 1。
其他可靠性技巧通常包括為服務器配置多塊網卡。當所有硬件運行正常時,更多的端口能夠提供額外的帶寬并確保服務器所有工作負載的連通性。如果一個網卡端口發生故障,服務器仍舊能夠提供網絡連通性,將對虛擬機的影響降至最低。
但是IT專業人員要做的不僅僅是多買一些可靠的機器——當發生錯誤時采取相應的策略及措施來解決服務器故障是非常重要的。請記住高可用性技術并不能確保服務器不發生錯誤——當出現錯誤時這些技術僅僅幫助服務器繼續運行。當內存模塊或者電源模塊發生故障,服務器的可靠性將降低直到技術人員完成維修,因此要考慮告警,故障切換過程以及虛擬服務器的故障診斷需求。
實現虛擬服務器可靠性的軟件工具
服務器針對關鍵業務實現可靠性的最為有效的方式之一就是使用服務器集群。集群創建了服務器組,集群中的每臺服務器都運行了冗余的虛擬機。當一臺服務器發生故障,集群軟件將從集群中移除出現故障的服務器,虛擬機的其他副本將會接管業務而不會導致服務中斷。集群的主要優勢在于集群中的服務器通常會放棄很多的高可用性特性——業務通常會被集群中的其他服務器所接管。
像Stratus Technologies公司everRun這樣的工具采用了類似的方式,支持在多個不同的服務器之間同步工作負載的副本。當原工作負載被破壞掉之后,副本會立刻變為活動的。盡管以傳統的觀點來看這并非集群,但是該方式達到了與集群相同的冗余級別。
市場上還有其他類似的產品。例如,VMware推出的hypervisor提供了能夠在其他服務器上自動重啟受影響服務器的高可用工具。盡管在重啟過程中可能會發生短暫的業務中斷,但是其自動化特性幫助組織快速解決了特定應用的可用性需求。
以上只是企業針對關鍵業務選擇相應高可用性軟件的部分示例。IT規劃人員必須根據每種工作負載的相對價值來選擇相應的工具并確保所有的虛擬機得到合理的保護。