企業多年來的一貫做法是通過數據倉庫或近年來興起的數據湖,將所有數據持續整合到單一位置。數據倉庫、數據集市和傳統數據庫需以特定方式對數據進行結構化和條理化,相比之下,數據湖具有多項關鍵優勢。然而企業發現,他們在構建和管理自己的數據湖方面投入越多,從中獲得的價值反而越少。企業也由此看到集中式數據基礎架構和方法會帶來不符合預期的后果,包括:
1. 存在認知差異:集中式數據團隊對數據的了解程度不足以與只專注于全部數據集中特定部分的具體業務團隊相提并論。
2. 基礎架構僵化:集中式數據基礎架構缺乏靈活性,難以滿足企業內不同部門的需求。
3. 價值實現延后:集中多個數據源的數據會耗費大量時間,導致數據使用者無法按需訪問數據。
為了克服這些問題,企業開始密切關注一種名為“數據網格”的分散式數據基礎架構新方法。德勤報告認為,“數據網格概念是一種管理數據的民主化方法,不同業務域在中央自助式數據基礎架構的支持下使用自己的數據。該基礎架構包括配套的數據管道引擎、存儲和計算能力。數據網格并非將企業數據看作單一巨型數據存儲庫,而是將其視為一組數據產品存儲庫。因此,業務域(比如“金融”)會以產品形式提供數據,它們能夠隨時用于分析目的,具有可發現性與可靠性。就此而言,數據產品負責人本身便是擁有深厚域知識的業務域代表。”
在數據網格配置中,企業內的不同部門或群組將擁有單獨的數據域,由中央自助式數據平臺提供支持,并按照一套總體標準進行管理,以確保互操作性。每個數據域都將提供各自的數據產品,經過專門設計,方便目標受眾使用,并且符合企業全局標準。盡管所有權分散,但預配和治理保持一定程度的集中。 數據網格架構有望克服完全集中式基礎架構的局限性。但是,許多企業仍然質疑如何在獲得中央數據平臺支持與保持域的獨立性之間實現這種微妙的平衡,并希望借助數據虛擬化 (DV) 等現有技術來解決這一問題。
支持無復制數據訪問
能夠有所幫助的解決方案形形色色,數據虛擬化作為一種數據集成技術,已成為實現數據網格的關鍵環節。與提取、轉換和加載 (ETL) 流程以及其他面向批處理的數據集成方法不同,Denodo數據虛擬化讓數據使用者無需先將數據復制到集中式存儲庫即可訪問數據。從這一層面來看,可以認為數據虛擬化本質上是一種“分散式”數據集成策略,因為這種策略將在企業的不同數據源之上建立企業范圍的數據層。要在不同數據源之間進行查詢時,數據使用者只需查詢數據虛擬化層,然后該層便會檢索所需數據,讓使用者不必受困于訪問的復雜性。數據虛擬化層不含實際數據;但其存儲了訪問各種數據源所需的所有元數據。
Denodo數據虛擬化提供單一位置來存儲元數據,支持企業從單一控制點,在整個企業范圍內自動實現基于角色的安全性和執行數據治理協議。例如,企業可以自動脫敏處理薪資數據,用戶必須擁有必要憑據才可查看此類信息。數據虛擬化層提供數據網格架構中所需的自助式數據平臺的大部分必要功能。
企業可在數據虛擬化層之上實施多個語義層,由不同部門架構,并作為半自治數據域運行。每一個語義層都可以靈活地調整或移除,而不會改變或影響底層數據。因此,企業可以輕松地建立支持跨不同域重用的標準數據定義,并確保不同數據產品之間的語義互操作性,從而促進聯合治理。
打造數據產品
當企業希望通過數據網格來開發數據產品時,他們會利用數據虛擬化層來創建虛擬模型,而利益相關者無需了解為之提供信息的數據源的復雜性。因此,企業可以利用一系列靈活的方法(例如 SQL、REST、OData、GraphQL 或 MDX),使這些虛擬模型作為數據產品被訪問,此過程不需要編寫代碼。
此外,這些模型還具備用于支持數據產品的數據沿襲跟蹤、自主記錄、變更影響分析、身份管理和單點登錄 (SS0) 等功能。通過集中存儲元數據,數據虛擬化層可以提供全功能綜合數據產品目錄的所有必要成分,以供通過該目錄清晰解讀企業中按域有序排列的數據資產。
建立數據域自治
Denodo數據虛擬化使企業能夠在不影響底層數據的情況下,在源數據之上構建視圖和語義模型,因此也為數據域自治提供了現成的基礎。該架構使數據域利益相關者能夠選擇為其產品提供數據的數據源,并根據需要更改組合以滿足其需求。一些業務部門已在運營自己的數據集市和滿足偏好的 SaaS 應用程序,由于數據域可以獨立擴展,這些部門能夠在數據網格配置中輕松地重用信息。
請務必注意,數據虛擬化不能取代數據倉庫和數據湖等單體存儲庫;數據虛擬化處理此類存儲庫的方式與任何其他數據源相同,在數據網格配置中,它們將成為網格中的節點。這意味著與現有數據倉庫或數據湖聯系緊密的數據域可以繼續通過這種方式為某些數據產品提供服務,例如需要機器學習的數據產品。在這種情況下,數據產品將繼續通過虛擬層被訪問,管理數據產品的協議也與負責數據網格其余部分的協議相同。
數據網格可以避開高度集中型數據基礎架構的許多陷阱,是一種前景廣闊的新架構。但是企業需要正確的技術支撐,才能通過簡單明了的方式有效地利用數據網格,而無需更換舊硬件。
關于作者:Alberto Pan 在領先的數據虛擬化軟件提供商 Denodo 擔任首席技術官,同時還在拉科魯尼亞大學任職副教授。他迄今已撰寫科技論文逾 25 篇,涉及數據虛擬化、數據集成和 Web 自動化等領域。如需了解更多信息,敬請訪問 denodo.com.cn 或關注我們的微信公眾號Denodo。