當前位置：大數據 → 業界動態 → 正文

如果大數據是原油，那么數據虛擬化就是煉油廠

責任編輯：cres 作者：Lakshmi Randall 譯者：HERO |來源：企業網D1Net 2017-07-27 10:23:23 原創文章企業網D1Net

大數據就像是一個從現代數據景觀中涌現出來的豐富的自然資源。物聯網(傳感器)，移動設備，社交網絡，點擊流，網絡和開放數據是人們今天目睹的數據激增的重要因素。根據調研機構IDC和硬盤廠商Seagate公司最近合作進行的一項研究顯示，到2025年，全球數據預計將增長十倍，將達到163 ZB。

數據豐富，但不一定有用，因為其是以原始，沒有提煉的形式存在。與任何自然資源一樣，“粗”數據必須先進行細化，才能用于生產目的，如設備維護，產品創新，競爭情報，市場營銷，數據貨幣化，以及積極的醫療保健。其細化過程可以納入數據探索，準備，關聯和背景化，標注和注釋，統一和整合，以及安全和治理政策的應用。元數據也是一個重要的組成部分，因為它在整體數據細化過程的輸入和輸出階段起著重要的作用。

數據分析有助于得出無偏見的結論、準確的預測和有見地的決策，這取決于數據的準確性。如果尚未提供分析資料，數據可能會受到碎片，標簽和信息丟失的困擾。這些特征在電子健康記錄(EHR)中是顯而易見的，它們說明了數據精華的挑戰。收集和分析EHR數據的障礙是缺乏適當標簽和一致語義。

電子健康記錄(EHR)主要旨在滿足患者護理，行政和財務需求。目前尚未考慮數據分析的EHRs的多用途目標可能會造成數據碎片化，需要在將數據提供給臨床研究之前進行分析。

從共享患者健康記錄中構建數據集的另一個挑戰是，如何在保健機構之間甚至在同一個保健系統內部共享電子病歷。例如，同一所醫院的不同部門(例如放射科，整形外科醫師和內科醫生)可以使用不同的EHR來滿足其獨特的數據輸入要求，文檔和訂購需求，以及偏好，從而創建數據孤島。

數據安全和隱私也可能是分析監管數據的障礙，例如電子健康記錄(EHR)中的數據。克服這一障礙的最佳方法是在精煉過程中應用適當的安全和治理措施。谷歌等公司正在嘗試聯合學習，努力提高分析能力，同時確保人們的隱私安全。

數據細化對于從數據分析中獲得可靠的結果是至關重要的，包括有意義的結論，準確的預測和明智的決策。在理想情況下，精煉原始數據以產生完整和有意義的信息的過程如下：

•建立相關語義

•處理數據異常

•建立完整，全面的數據視角

•豐富下游流程的元數據

•處理數據保護，隱私和合規要求

數據虛擬化作為數據精煉廠有以下三大優勢：

(1)煉油廠規模

現代分析依賴于無數分散的數據源的數據。經驗告訴人們，當數據分布在多個系統時，大數據源并不總是能夠復制和重新定位。數據虛擬化提供了大規模的數據源，通過提供替代范例：將數據處理移至數據。換句話說，處理其駐留的數據，并最大限度地減少網絡流量。

數據虛擬化帶來數據精化所需的速度和規模，無需復制或重新配置數據源。它使用邏輯數據架構，使所有底層數據源顯示為單個系統。它提供多種優化策略(例如，特定于平臺的優化和下推處理)，智能選擇一個特定的優化，以及諸如MPP內存中處理的預構建優化庫。

(2)負責任的數據共享

①數據隱私設計

由于文化和法律障礙，往往阻礙數據共享，而數據共享已成為大數據分析的主要組成部分。數據隱私法規是令人信服的組織在新項目的每個設計和實施階段，都要納入或以其他方式充分考慮數據隱私的。數據虛擬化采用一種中心的方式，降低了遵從日益增多的主動數據隱私規則的成本，并允許通過設計包含數據隱私。

數據虛擬化的核心功能是使分布式數據保持在源頭，同時通過單一邏輯層將其暴露給消費者。這種方法不需要持續的數據復制。更少的復制就可以減少組織對個人和敏感數據的拷貝，減少數據安全和治理的問題。

數據虛擬化還使組織能夠輕松創建來自整個組織的數據(例如風險數據)的聚合一致的視圖。如圖1所示，這些視圖可以有選擇地共享，同時完全遵守組織的數據訪問和隱私策略。

圖1堅持數據訪問和隱私政策

②克服信息共享的挑戰

數據虛擬化克服了以下主要的信息共享挑戰：

•不同的數據源。使用數據虛擬化，數據可以快速輕松地集成到無數的內部和外部系統中。

•不同的數據格式。數據虛擬化可以使用不同的技術和協議連接到不同格式的數據。這些復雜性被用戶和應用程序所隱藏。

•不同的數據標準。使用查找表或內存映射，數據虛擬化可以集成數據，即使它來自不同的標準。

•不完整的數據。數據虛擬化允許將數據匯集在一起，以實現整體的視圖。

•未處理的數據。對聚合數據執行的數據計算(與局部孤立的數據相反)可以提供整個組織的風險的完整視圖。

•敏感數據。數據虛擬化提供安全和隱私功能，以便用戶只看到允許查看的數據。

(3)通用語義模型

業務用戶的規模各不相同。了解他們是誰(例如數據分析師，電力用戶，管理人員或機器)及其所需的數據(例如，預先聚合，預先計算，特定粒度，角色特定或域特定)是必須的。對于特定的機器，正確標記的數據集對于有效的機器學習是至關重要的。在為分析提供數據時，使用業務用戶理解的語言也是很重要的。例如賬戶對于財務中的用戶是合適的，而客戶則是客戶關心的用戶的首選項。它支持多個語義，避免強迫用戶改變術語本質。