在云中的大數據有太多潛在的功能服務層,蔓延于許多的節點、集群和層,以致于企業很容易感到不知所措。
深吸一口氣。你的第一個步驟應該是規劃一個全面的云數據虛擬化基礎架構。虛擬化的云分析是新時代的大數據范例。作為一種整合的方式,它可以確保統一接入、建模、部署、優化并大數據作為一個異構的資源來管理。
像其他任何的虛擬化一樣,數據虛擬化是這樣一種方法,它允許您訪問、管理和優化異構的基礎設施,就好像它是一個單一的、邏輯上統一的資源。這使您能夠抽象外部接口,從內部實施的一些服務、功能或其他資源。
數據虛擬化的核心是一個抽象層,如任何的SQL虛擬化方法,支持邏輯上統一的訪問、查詢、報告、預測分析,和其他針對不同的后端數據存儲庫(如關系型數據庫、Hadoop、NoSQL,等等)的應用程序。當然,數據虛擬化可能會轉而依賴虛擬化基礎設施的其他層,如存儲和服務器平臺,在某些情況下,可能遍布不同的地理位置和多個云環境。
然而,在我們正在討論的許多層中,數據的虛擬化是典型的不“性感”的話題。但它是根本,如果你希望你的大數據云平臺解決以下業務需求:
* 彈性的高級分析資源
* 消耗一切的資源,獲取起源于任何來源、格式和圖表的信息
* 延遲敏捷的資源,保持、匯總和處理任何動態的和靜態的信息組合
* 聯合的資源,綿延于整個價值鏈、跨越私有云和公有云 無縫的互操作性資源,可以讓你改變、擴展和演進后端數據平臺,不會打破現有的工具和應用程序的互操作性是的,這是一項艱巨的任務。顯然,數據虛擬化以及數據虛擬化的基礎,做起來要比談論困難得多。另外,它的實施、管理或優化都不便宜。
基于云計算的大數據將需要日益復雜的虛擬化基礎架構。這并不奇怪,大多數的數據專業人員接近這個混亂的問題的方式,與天文學家試圖映射宇宙的暗物質大致相同。他們知道這是一個必不可少的繁瑣的苦差事。說實話,大數據專業人員會更喜歡將其戰略望遠鏡指向那些“性感的天體” - 諸如 Hadoop,NoSQL,等等 -在新技術的蒼穹之中,它們的光芒最為耀眼。
隨著你的云中的大數據應用程序的范圍不斷增加,幾乎可以肯定你會需要更深層次的虛擬化。混合大數據云的難以處理的異構將推動你朝著這個方向努力。在你的私有云之中,不斷融入新應用的大數據平臺也需要一個虛擬化層,將新的處理方式與以往的IT資產進行橋接。這將源于你正在進行的平臺現代化和遷移的努力,源于你將創新的平臺放到云中的需要,以及源于云供應商的產品增強。除非你能夠把你所有的大數據應用放到一個“萬能”的公有云服務上面,否則你將需要虛擬化以訪問公有云、私有云和混合云架構。
顯然,你的數據虛擬化的路徑和程度,將取決于你的業務所需求的大數據環境的復雜度。此外,它還將取決于你對風險和復雜性的容忍度。
在未來的幾年內,隨著更復雜的分析模型、規則和信息匯聚在大數據云,該平臺將成為虛擬化訪問、執行和管理的核心。在這個新的世界里, MapReduce將是關鍵的(但不是唯一的)開發框架。未來,MapReduce將成為一個更廣泛的、但在很大程度上仍然不確定的虛擬化架構的一部分,用于在線分析處理和事務計算。
目前還沒有人著手去勾勒一些層、接口和抽象化,將云大數據宇宙從頭到尾膠合在一起。這是另外一個艱巨的任務。