網絡工程師很討厭被當水管工人用——特別是在虛擬化管理方面。畢竟,支持虛擬化流量比物理線路要復雜很多。系統團隊了解虛擬化環境的復雜性,但是有時候沒有意識到網絡管理員在虛擬化網絡管理中的作用。這種認識的差距會造成故障修復策略和網絡架構效率低下且不適合在虛擬化環境中使用。
虛擬化架構師Bob Plankers在美國中西部一所綜合大學中遇到了這個問題,他著手使兩個團隊(系統和網絡)溝通,用管理工具來解決問題。最終,他們確定一種管理虛擬化環境的新網絡架構和高效方法。
在虛擬化管理方面,網絡團隊和系統團隊之間確定存在隔閡嗎?
Bob Plankers:絕對是這樣的,虛擬化或系統人員都沒有把網絡人員當回事。在傳統數據中心模型中,工作負載停留在一個地方,一切都是靜態的,網絡團隊也是能夠發揮作用的;但是在實現了vMotion時,在數據中心內移動VM,而系統人員不知道,這對他們是一種困擾。我不想把網絡團隊比作水管工人,但是突然流量從一個地方轉到另一個地方,他們就不知道發生了什么。所以,網絡人員不理解虛擬化帶來的變化,也不理解系統人員所做的操作。
但是,系統人員也不理解為什么網絡人員會關心這個問題。他們只是將網絡看作是連接工具。他們認為,“有一條線路連接我的數據中心,所以我在其中部署了ESX主機,然后我會將一臺主機部署在這個位置,”他們完全不知道連接交換機所需要的基礎架構,也不清楚所需要的帶寬。他們只是將它看作用之不盡的服務,我認為這是一般網絡人員值得驕傲的榮譽,但是,這也是兩個團隊必須進行溝通的地方。
系統人員必須注意是否有足夠的容量,對嗎?
Plankers:是的,一定要考慮。虛擬化中有兩種容量需要考慮。從外部看,虛擬機作為服務器會在網絡上產生流量,然后VMware 集群中vMotion和集群內還有通信。vMotion確實是在使用網絡。如果您有256GB物理內存,希望將這塊256GB的內存快速復制到其他位置——這個過程會產生大量的流量 。此外,VMware明確規定了在使用vMotion時ESX主機之間的延遲限制。在這之間不允許部署路由。
問題是,虛擬化人員事先與網絡人員就他們的網絡設計進行溝通,還是直接將它部署到網絡?在許多情況下,這個環境是平衡增長的,所以您必須部署一兩個虛擬化主機,然后想,“這是很棒的工具。我省了很多錢。”因此,您會添加第三、第四個主機,但是很快就會出現空間不足了,所以他們必須分散在整個數據中心中。
您本身的環境是怎么樣的?
Plankers:我們使用的是戴爾服務器——只有機架式服務器,沒有刀片服務器。此外,我們還使用思科網絡產品。我部署了兩個VMware vSphere集群。一個有10臺主機,另一個有8臺主機,以此作為500臺虛擬機的物理宿主。
這是很大的環境。您與網絡團隊有交流問題嗎?
Plankers:是的,去年8月份我們舉行了一個網絡技術領域活動日(由網絡博主參加的會議),會議中只有我自己是系統人員,其他11位都是網絡人員。有一個Force10的人想知道系統人員進行了什么操作,如何進行這些vMotion部署,他的表現是想要說:“我不理解他們為什么要這樣做!”所以,我舉手并回答:“您想知道原因嗎?”很明顯,這時網絡人員完全不清楚為什么系統人員要做這些事情,由于被蒙在鼓里,所以他們感到有些惱怒。而另他們更憤怒的是他們被看做管道工人了。
我認識到,我必須和網絡人員進行溝通。所以我們現在啟動了一個項目,將虛擬化主機連接修改為1GB。當您移動VM消耗了256GB或512內存時,主機會變大。在虛擬化中,少量大型主機的費用要大于小型主機。但是,隨著主機的增大,vMotion處理速度也會變慢。如果因為主機遇到硬件故障將它清除,你的速度需要提升。所以,我們認為,將所有設備部署到數據中心的機架中會提升性能。我們會部署一個10GB頂級機架,然后將所有集群內流量都限定在這個交換機之內,這樣它就不會影響到網絡的其他部分了。經過這樣的修改,既能讓網絡人員滿意,我也會滿意,因為我們有了10GB連接。這是與人合作的最佳結果:雙贏。
這意味著網絡團隊獲得到vSphere環境內部流量的管理權限嗎?
Plankers:不完全是。他們不會管理任何一個分布式交換機或類似的組件,但是他們確實能夠訪問這些設備。跨團隊交流的另一個結果是,網絡團隊能夠了解VM的位置與所在主機。幾個月之前,我們遇到了一個問題,而如果他們能夠訪問數據,他們就能夠幫助我們分析問題,而不是只能看我們分析。他們有監控和管理工具,我也有自己的工具。兩個團隊仍然是獨立的,但是現在我可以查看他們的路由器日志,所以這是一個更加統一的工作方式。
您允許他們訪問您的VMware嗎?
Plankers:他們能夠訪問vCenter客戶端,能夠查看日志。此外,我還教他們如何查看網絡配置。他們沒有權限修改配置,因為我希望他們將修改要求告訴我——就像我也沒有權限修改他們的交換機和路由器配置一樣。
是否可能轉到一個統一的第三方聯合管理工具,能夠顯示物理與虛擬環境可用資源?
Plankers:絕對可以。Xangati的一些面向網絡的跨平臺工具,它們能夠從各種數據源獲取數據,包括物理交換設備,所以您能夠以端到端的方式監控虛擬機。我們已經對它進行研究,但是對于我們而言,存在預算問題。
Xangati很好,但是在許多情況中,有一些工具供應商聲稱他們能夠管理虛擬化,但是與VMware產品的原生支持相比,它只是一個有限的插件。然而,您必須問自己,“是應該使用一個能夠解決所有問題的工具,還是應該使用兩個真正擅長解決某個問題的工具?”
[Nexus 1000v能夠增強網絡工程師對虛擬化環境的控制,您對它有何看法?
Plankers:對于我們而言,它會增加成本;我們不需要它的功能,所以我們并沒有部署這種設備。在一些地方,它能夠幫助網絡人員解決一些問題,使他們能夠真正控制虛擬交換機,但是我認為每一個組織都有其自身風格和處理問題的方式。對于那些嘗試部署這種設備的人,他們可能首先應該進行一些交流。
應用程序性能通常由網絡人員負責控制。如果他們無法控制虛擬網絡,那么他們又如何能夠解決性能問題?
Plankers:他們無法做到。人們如何能夠管理一些不受控制的設備?如果他們負責管理性能,那么他們需要有能夠監控設備的工具,否則他們無法管理性能。
在您的環境中,由誰來負責管理應用程序性能?
Plankers:對于我們而言,這是一種分層的設計。我們有網絡人員、存儲人員、服務器或虛擬化人員,我是他們的溝通橋梁。然后,系統管理員是我和應用人員的溝通橋梁。當然,我們還有應用人員。如果應用程序出現性能問題,那么涉及的人員會很多。
在我們的特定環境中,很有意思的是,當虛擬機變慢時,應用人員會指責虛擬化人員;然后我會指出,虛擬機變慢是由于存儲變慢造成的,而存儲問題可能是由網絡問題引起的。
對于我們,我實施的任何性能工具都必須共享給所有人,所以應用程序管理員、存儲管理員和網絡人員都需要查看數據。
原來,網絡工程師會使用VLAN劃分流量和保證流量安全。但是虛擬化環境的情況顯然是不同的。您如何解決這個環境中的流量劃分和安全性問題?
Plankers:我們一直在虛擬交換機上使用VLAN功能。我們要么使用這種方法,或者在主機上安裝大量的網卡。對于我們,如果VLAN分片足夠多,能夠滿足安全人員和網絡人員在上行鏈路和后臺中斷中的要求,那么也就符合我們的要求。然后,我只需要在虛擬交換機上配置VLAN功能。
網絡人員不喜歡自動化,特別是在缺少細致管理的時候。您如何解決這個問題?
Plankers:對于系統人員,自動化是荒謬的;對于網絡人員,他們的態度似乎也是不接受的。如果系統人員遇到問題時,他們會責怪網絡,而自動化會使問題變得更糟糕。
自動分配VM可能非常麻煩,但是一定程度的自動化能夠幫助我們,還節省時間。我們必須進行監督,避免出現問題。如果防火墻規則會自動修改,安全人員則需要重新確認,保證它的行為是正確的。自動化不能夠代替審核過程。事實上,它需要進行更多的審核。
您使用了VMware內置的防火墻嗎?還是使用了第三方的安全組件?
Plankers:我將防火墻設置交由網絡人員負責。他們擁有非常成熟的網絡設備防火墻解決方案(使用思科ASA防火墻)。我不想徹底改變所有的一切。由于需要經過一定的更換周期,而且現在我們正在相互溝通,所以我們可以就這些問題展開討論。我們可能會與虛擬防火墻vShield的相關人員討論。Altor Networks有很好的防火墻。有一些人對它很感興趣,因為它支持在虛擬機中實現防火墻。這意味著,可以通過設置,使虛擬機“X”不能與虛擬機“Y”通信,即使它們的位置在同一段網絡和同一個VLAN中。這很適合共享托管的多租賃環境。