現今的企業數據架構戰略,必須解決如何將現有的數據系統與日益增長的信息需求,性能和數據源相匹配。
現今的CIO們,在整合企業數據架構中日益增長的各方面需求時,面臨著兩大挑戰。首先,是將現有的支持運行應用程序的數據系統, 與分析師和數據科學家越來越多的信息需求之間相匹配。其次,是管理持續不斷的,創新的數據管理功能 (比如Hadoop或NoSQL)在企業內部的集成。CIO的職責就是完成這一數據集成,提高數據的可訪問性,同時降低系統的整體復雜性。
然而,大多數企業的數據架構,隨著時間的推移,通常在缺少預定義的數據架構戰略的情況下,自我進化。相應地,這些企業在能夠使用統一的方法訪問企業數據資產方面,遇到不斷增加的復雜性問題。隨著數據管理創新的速度加快,新技術如Hadoop,NoSQL和圖形數據庫正在計劃和引入,也增加了數據使用者對于數據領域復雜性的擔憂。
數據湖領域
比較突出的一個例子就是數據湖概念的出現,根據TechTarget的定義,“數據湖是指一個大型的基于對象的存儲庫,以數據的原始格式保存數據,直到它需要被使用時。” 數據湖基本上是一個數據存儲平臺,使企業能夠收集各種數據集,用數據的原始格式進行存儲,并讓不同的數據使用者可以訪問這些數據集,使他們能夠根據各自的業務目的使用這些數據。 數據湖的好處之一,就是為共享數據提供了單一存儲庫,從而降低數據復制,避免數據不一致和增加成本。
和傳統的數據采集和數據獲取方法相比,數據湖從根本上采取了不同的方法。傳統方法旨在使數據符合預定義的數據模型, 從而創建一個統一的數據資產,讓所有的數據使用者共享。將數據規范定義到單一格式,這種方法,稱為schema-on-write,可以限制下游使用者分析數據的方式。在數據湖中存儲數據的方式則被稱為schema-on-read,意為沒有預定義的數據存儲方式的限制,而是由使用者根據各自的需求,定義訪問數據的方式。
數據湖帶來了一些挑戰,尤其是對于那些習慣使用自己的數據集副本進行報告和分析的下游數據使用者。首先,必須有一種方便獲取數據湖中數據的方式,其次,必須有一個方法配置被訪問的數據,以一種用戶習慣的模型呈現。
在數據架構戰略中使用虛擬化工具
全新的企業數據架構戰略所面臨的這些挑戰,都可以通過使用數據虛擬化工具得以解決。數據虛擬化和聯邦工具在一組數據源和不同的數據使用者之間提供了一個抽象層。 面向數據的工具被稱為數據聯邦。 這種技術提供了訪問各種數據源類型的方案,包括大多數關系數據庫系統,前代存儲系統(比如,flat files,VSAM文件和其他主機存儲方式),以及各類新興技術,如Hadoop和NoSQL。數據聯邦工具使應用程序能夠透明地查詢分布在多個存儲平臺的數據,同時隱藏數據源位置,或數據格式的詳細信息。而面向使用者的工具通常被稱為數據虛擬化。這一技術允許數據使用者定義邏輯語義數據模型,然后映射到每個聯邦數據源的模型。這一語義模型提供了抽象層,簡化了數據使用者的可訪問性。用戶對語義模型的查詢被轉換為每個聯邦數據源的一系列自定義查詢集。 當這些查詢的結果集返回到數據虛擬化工具時,這些中間結果會被收集,整理和配置成一個最終的結果集返回給用戶。實際上,數據虛擬化工具通過面向使用者的數據實體化規則,簡化了將來自多個源的數據相融合的技術。
在定義語義模型中使用數據虛擬化工具,解決了訪問數據湖中數據的兩大問題。對數據湖的數據進行聯邦訪問,不需要用戶改寫他們的應用程序,從而包含從數據湖讀取數據的代碼,同時降低了數據復制的需求。現有的應用程序可以連接語義模型,使數據源對于使用者的應用程序變得透明。同時,數據虛擬化會隱藏schema-on-read的復雜性,使每個用戶都能夠將特定的數據規范化和數據轉換規則應用于數據,從而適用于每個應用程序。
數據虛擬化和數據聯邦是支持企業數據架構戰略(包括大數據)的橋接技術。這些工具降低了開發和運營的成本,通過(低成本)數據湖的使用,降低復制數據集的存儲需求。它們還為大多數平臺提供了一個無縫的可訪問性,隨著新技術的不斷采用,延伸了傳統平臺的生命周期。 數據虛擬化工具,通過使用內部軟件的緩存,查詢最優化,流水線數據流,和壓縮存儲,從而簡化了環境數據的可訪問性,避免了顯著的性能退化。這些工具還為引入從大量快速興起的數據源中提取和分析信息的創新技術鋪平了道路。