隨著超融合在國內市場興起并逐步成為主流,一場針對于IT基礎架構的技術變革悄然而至。沿用二十多年的傳統IT架構面臨著新一代架構的嚴重沖擊。近幾年來,面對巨大的市場機遇,超融合廠商也如雨后春筍,不斷涌現。企業用戶的數字化轉型發展得益于超融合架構的創新推動,但同時也面臨著如何評測和遴選優質廠商及產品的難題。
這些主流國內外超融合廠商到底有哪些區別?他們產品有何優劣勢?到底應該從那幾方面去評測超融合架構才能撥開迷霧?本篇文章便要深度對比分析市場各主流超融合和廠商,幫助超融合入門用戶全面而深入地理解超融合概念,并能從核心關鍵方面來了解不同廠商及產品的特點,從而結合企業的情況進行有針對性的評估與選擇。
超融合到底是一個概念還是一門技術?
超融合是一種 IT 基礎架構構建方式,其核心思想是使用通用硬件,用軟件定義來實現 IT 基礎架構的各項服務,包括:計算,存儲,災備,運維管理等,并且這些服務都在統一的平臺上。
超融合概念包含三個要素:
使用通用硬件:具體說就是 x86 服務器,所以如果出現專有硬件的 IT 平臺的就不屬于超融合。比如,傳統集中式存儲里的存儲控制器就屬于專有硬件; 軟件定義: 即超融合 IT 服務是通過 x86 服務器里運行的軟件實現的,如:分布式存儲軟件實現數據存儲服務;相比之下,傳統 IT 服務大多是用專有硬件且功能邏輯寫死在固件里; 統一平臺:所有的 IT 服務要在一個平臺下,隸屬于同一個軟件棧,這里區別于以往 IT 服務架構方式,各服務會屬于不同的平臺;需要特別區分的是,市面上將存儲設備,服務器,網絡交換機放在一個機柜里整體交付的融合方案,如:VCE Vblock,和超融合完全不同。
可見超融合是一個概念,而不是一個技術,明確這一點對于理解超融合本身非常重要。不同超融合產品和廠商的區別或差距不在概念本身,而在超融合背后的技術和實現方式。一個簡單的類比:“汽車”就是一個概念,字典里的解釋是:“通常為四輪的自動車,用于街道和公路運輸”。這里至于如果實現這個概念并沒有做規定和限制,所以無論是純電動的特斯拉,福田小卡,高爾夫球車,都是滿足上面的定義,但是使用場景和背后的實現,可謂天壤之別。
二.評估超融合平臺到底需要關注哪些核心問題?
明白了超融合只是概念,進一步的問題:各廠商超融合產品的實現有哪些不同?這個問題才是選擇超融合真正的關注點,展開來有四個子問題:
1.超融合平臺整合了哪些 IT 服務?
1) 分布式存儲打破數據孤島
雖說超融合通過軟件定義的方式整合了多個 IT 服務,但其中軟件定義存儲是基石。這里需要說明一下:池化服務器的本地存儲,要求軟件定義存儲必須是分布式的,且能被虛擬機掛在成虛擬卷使用,不加特殊的說明,超融合平臺里的軟件定義存儲指的是分布式塊存儲。
沒有穩定可靠的分布式塊存儲,就無法對外提供統一的存儲資源抽象,沒有統一的抽象,各個服務器的本地存儲就是一個個數據孤島,與傳統的單機存儲沒有區別。所以,討論超融合平臺卻不討論分布式塊存儲,而避重就輕的展示平臺 IT 服務的種類,更甚者竟然用支持 IT 種類的多少作為超融合的代數標準,基本可以判定是一種“誤導”,本質是這類廠商不具備超融合與分布式存儲的研發能力。主流核心廠商都無一例外的在分布式塊存儲上有著核心的競爭力和自主研發能力,比如:Nutanix Acropolis Enterprise Storage (內部之前叫 NDFS), VMware VSAN ,SmartX ZBS等 都是對應超融合平臺里的核心分布式存儲。
2)虛擬化計算同樣不可或缺
虛擬化計算是超融合平臺另一個不可或缺的服務,有了存儲和計算就有了最基本的 IT 基礎架構,很多廠商也會一部分網絡服務的功能納入到虛擬化計算。由于 Hypervisor 的技術相對成熟,無論是閉源的 VMware ESXi 還是開源的 KVM,無論功能還是性能都通過了很多年市場驗證。所以虛擬化計算服務在超融合平臺上基本集中在 VMware 產品和 基于 KVM 自研的產品,如:Nutanix 的 AHV(基于 KVM),VMware 的 vSphere(基于 ESXi),SmartX 的 Elf(基于 KVM)等。當然 Nutanix 和 SmartX 也同樣支持 VMware 虛擬化計算平臺,而且借助其強大的存儲服務,整體超融合平臺的表現甚至還要優于 VMware。
3)一個平臺管理多個IT服務,運維簡化是趨勢
隨著單個服務器計算能力越來越強,越來越多的 IT 服務其實都可以通過軟件定義的方式來實現,如:災備服務、全閃存、容器服務、網絡服務、安全服務等。
一個平臺上有多個 IT 服務是一種趨勢,伴隨著革命性的變化就是:傳統架構下需要運維管理多個 IT 平臺,在超融合下,一套管理平臺就夠了,這就為從全新的角度審視 IT 運維,提供了極大的想象空間。同時,在超融合架構下實現強大好用的統一管理平臺,其重要性和優先級也被提升到前所未有的高度。像超融合領導廠商 Nutanix,SmartX 等,在運維管理平臺上都下足了功夫,分別推出了智能強大的管理平臺:Nutanix Prism 和 SmartX Fisheye,極大的提升系統的易用性。
總結一下就是,超融合平臺里分布式塊存儲、虛擬化計算和統一運維管理平臺是最小,也是最核心的集合,缺少任何一個都無法稱作超融合平臺。但隨著硬件的發展,更多的服務勢必會在超融合平臺里實現。
2.這些IT服務是如何實現的?
評測超融合產品,關鍵不是看包含了哪些 IT 服務,向超融合這個“盒子”里塞更多的 IT 服務遠不如塞進“盒子”IT 服務的質量重要。一些廠商借助客戶對超融合市場認知的不成熟,會一味的拼超融合平臺上服務和功能的數量。通常的做法就是拿開源的項目,如:“OpenStack + 開源分布式存儲 (Ceph/GlusterFS…)” 搭一個功能看似大而全的“超融合平臺”快速推向市場。可以看到,幾乎沒有用戶最終能夠真正的用起來,原因在于這種拼湊的“超融合”產品往往各個服務組件的質量無法過關,在可靠性,穩定性,性能方面問題多多,加上開源社區基本不在這些 廠商的控制之下,所謂的售后支持形同虛設,很難達到一個產品應該擁有的市場準備度。
1)實現機制是核心
服務的核心在于實現它的技術和機制。舉一個手機電池的例子,為了實現手機長續航的能力,一家廠商簡單的增加電池塊的容量,另一家公司采用的是優化手機軟件的電池管理算法,即便最后的測試下來都能續航兩天,但第一家手機在續航的實現機制上是不如第二家的,因為增加電池塊會引起手機發燙,并且有電池爆炸的風險,但這些缺陷無法在測試續航時間這個指標里得以體現。
同樣的道理適用于超融合產品。超融合產品比拼最重要的必然是分布式塊存儲、虛擬化計算、運維管理平臺的實現。
重中之重是軟件定義存儲,它是超融合平臺的基石。當前市場里各家超融合平臺分布式塊存儲的實現無非是兩個途徑:
自主研發,如:Nutanix NDFS,VMware VSAN,SmartX ZBS,華為 Fusion Storage;直接采用開源的分布式存儲或在開源基礎上小幅改造,如,Ceph,GlusterFS;
開源最大的好處是產品上市的周期可極大的縮短,最大的風險除了存儲的穩定性沒有保障,還有就是廠商對存儲的控制力和維護能力幾乎沒有,存儲系統不比其它系統,守護著企業最重要的數據,一旦發生問題就會陷入束手無策的失控境地,給企業帶來的損失是慘重而不可估量。
這里有一個不可忽視的事實,國外知名超融合廠商無一例外的都走了自主研發的道路,也證實了在成熟的市場環境下,用戶會理性的選擇自主可控且有保障的產品。縱觀 IT 發展的歷史,甚至沒有一家存儲公司,使用開源的存儲項目來實現自家的存儲產品,并取得產品和商業的成功。再次驗證了,存儲關乎業務的連續性、數據的可靠性和安全性。沒有一家企業客戶“敢”把自己的業務托付給不可控的存儲產品。
市場上所有的分布式塊存儲架構基本可以收斂到兩種,一種數據放置和分布依賴元數據服務,另一種數據放置和分布依賴一致性哈希。但就分布式塊存儲本身而言,兩種數據架構各有千秋。但在超融合場景上,元數據服務的方式有更多的優勢,數據的放置更靈活可控,如:VM 數據本地化能縮短 I/O 路徑,大大減少網絡流量。采用這種架構的產品有 Nutanix NDFS 和 SmartX ZBS。
其次是虛擬化計算,與存儲不同的是,虛擬化的核心技術 Hypervisor 相對成熟。各超融合產品更多比拼的是虛擬化平臺的支持能力。支持多種虛擬化平臺意味著更少的廠商綁定的風險。此外,是否支持虛擬化的特殊接口也是很重要的指標,它直接影響使用體驗和維護支持,比如:VMware VAAI/VVol,Citrix Ready 等。這塊比較優秀的國外廠商是 Nutanix,幾乎支持所有的虛擬化平臺;國內廠商 SmartX、華為支持除 Hyper-v 以外的所有虛擬化平臺;VMware 只支持自家的虛擬化平臺,開源超融合方案一般只支持 KVM。
KVM 作為開源的 Hypervisor 被很多廠商選用,但各家需要實現自己的虛擬化計算管理平臺,除了基本的 VM 生命周期管理,還至少需要實現企業級常用的功能,如:VM HA、、虛擬分布式交換機、共享盤等。
除了存儲和計算,其他 IT 服務或多或少會依賴以上兩類核心服務,比如:容災和備份依賴存儲服務;容器編排依賴計算服務。
2)資源消耗需著重評估
除了服務的實現機制,超融合平臺有一項特殊的要求:資源消耗要盡可能的小。超融合場景下,消耗大量的資源是絕對不能接受的,每個物理服務器除了運行存儲、計算等多個 IT 服務,還要把剩余的資源分配留給業務應用,IT 服務占用資源越大,留給業務應用的資源就越小,甚至擠壓到業務無法運行。資源消耗不僅節省 TCO 的指標,更是影響超融合實用性的重要變量。
以下收集了各廠商分布式塊存儲產品的資源消耗情況。
3. 服務如何進行整合與管理?
1)各有利弊的三類服務整合方式
服務整合廣義是超融合平臺上各服務的結合方式,但業內討論更多的是存儲與虛擬化的整合。大致可以分為三類:
存儲服務作為內核模塊運行在 Hypervisor 內部。最典型的代表是 VxRail,存儲服務 VSAN 作為 ESXi/vSphere 內核模塊被整合 。這種架構下存儲服務不經過Hypervisor直接訪問存儲設備,幾乎無性能損耗,理論上本地 I/O 性能可以充分發揮,遺憾的是 VSAN 的實際性能在超融合產品里并不突出,應該是存儲軟件的優化相比其它廠商還有差距。這種緊耦合架構存在以下風險:廠商鎖定的風險,如 VMware 超融合平臺虛擬化計算鎖死了 vSphere;計算和存儲無法獨立升級;存儲或虛擬化計算服務任何一個發生問題都可能會影響對方的正常工作。
存儲服務運行于 Hypervisor 上獨立的虛擬機里,該虛擬機實際起到虛擬存儲設備 VSA(Virtual Storage Applicance)的作用,所以也稱為控制虛擬機(Nutanix 稱 CVM)或者存儲控制虛擬機(SmartX 稱 SCVM)。VSA 需要通過 Hypervisor 訪問物理硬件資源,一般為了降低性能的開銷,VM 會以直通的方式訪問硬件資源,如:HDD,SSD,網卡等。這種架構里虛擬化與存儲解耦,互不影響,可以獨立升級,甚至 VSA 發生故障不工作,也不會影響該物理節點,通過 I/O 路由的技術,VSA 故障節點上的 VM 會通過其他正常的 VSA 訪問存儲資源。當然,給用戶帶來的最大收益還有消除了 Hypervisor 鎖定的風險,VSA 可以支持多種虛擬化計算平臺。 采用這種整合的產品有 Nutanix,SmartX Halo for VMware。
存儲服務運行在 Hypervisor 外部,但與 Hypervisor 隸屬于同一個軟件棧。這種架構適用于 KVM 超融合平臺。比如,SmartX Halo 超融合平臺自帶的虛擬化平臺 Elf 基于 KVM 實現,分布式塊存儲 ZBS 與 Elf 都在 Halo (SmartX OS) 軟件棧上。這種整合的最大優勢在于:性能相比 VSA 的方式要好;存儲或者 Hypervisor 出現故障互不影響。
2)管理與運維好才能發揮出超融合的優勢
由于涉及比傳統平臺更多的 IT 服務,超融合更加強調管理平臺的重要性和易用性。強大好用的管理平臺能大大提升運維效率,降低運維成本,將超融合架構敏捷的特性發揮得淋漓盡致。
超融合廠商產品家的管理平臺一覽:
一個優秀的超融合管理平臺應該涵蓋產品從交付到日常運維的方方面面:
基于 Web 管理 UI 應該是超融合平臺的標配,同時 Web 管理服務也是超融合服務的一種,需要考慮管理控制臺的的高可用;Nutanix Prism 和 SmartX Fisheye 都是分布式的管理平臺,沒有單點故障,相比之下 VMware vCenter 就存在單點故障的風險;集群服務管理,包括:存儲,虛擬化,網絡等管理;更進一步,由于采用了軟件定義的技術,管理平臺也應該能展示并洞察更細粒度服務,比如:軟件定義存儲里的分布式組件服務;基于事件、性能的監控、分析和報警,可以說各家的產品或多或少都在這塊有支持,但是仔細研究會發現功能豐富度和易用性各產品差別巨大。這塊做得非常突出的是 Nutanix 和SmartX的產品,兩家都能在全局集群、物理服務器、虛擬機三個層面提供豐富的性能和事件的監控、分析和報警。
自動化、圖形化的安裝工具。簡易安裝和部署不僅是系統快速上線的關鍵,也是超融合作為軟件交付的必要前提,像 Nutanix Foundation和SmartX Tuna 都提供了非常方便的 UI 安裝和部署工具,整個部署過程通常能在 1 個小時內完成;系統硬件管理,好的管理平臺也應該能支持數據中心硬件的拓撲管理和配置,這方面 VMware,Nutanix,SmartX 都非常優秀,尤其是 Nutanix 和 SmartX 都提供了基于集群拓撲的管理。
4.產品有哪些交付方式?
超融合依托標準的 x86 服務器,一般可以是安裝了超融合軟件的一體機或者是獨立的軟件授權。當前主流廠商支持的交付方式如下: