大數據就像是從當代數據環境中不斷涌現出的豐富的、極度膨脹的資源。如今,不斷擴張的物聯網、隨處可見的移動設備、社交媒體、點擊流量、網頁以及開放的數據都是導致我們今日數據不斷增長的的主要因素。根據IDC-Seagate最近的一項研究顯示,截止到2025年,這些因素的導致的全球數據增長預計將是現在的10倍,總計達到163ZB(ZB為十萬億億字節)。
雖然數據資源富足,但這些數據都是最原始的、未經提煉的,其中存在大量不能用的數據。與其他”自然”資源一樣,“原始的”數據必須經過提煉后,才能被用于生產目的,例如設備維護、產品創新、競爭情報、市場營銷以及數據貨幣化等等。
數據細化、提煉的過程可以納入數據探查,準備,關聯和背景化,標注和注釋,統一和整合以及安全和治理政策的應用。 元數據也是一個重要的組成部分,它在數據整體細化過程中輸入、輸出階段起著十分重要的作用。
其中,數據探查主要是對數據進行技術性分析,對數據的內容、一致性和結構進行描述。數據探查擔負著兩種不同的目標:戰略性的和戰術性的。
1)戰略性:一旦確定了某個候選數據源,就應當進行一次輕量級的探查評估來確定該數據源是否適合于包含到數據倉庫中,針對早期的采納/不采納問題提供決策。理想情況下,應當在業務需求分析過程中確定出一個候選數據源之后立即進行戰略性評估。較早地找出那些不合格的數據源是一個責任重大的步驟,即使帶來的是壞消息,也是必要的一步。如果很晚才發現數據源無法支持要做的工作,對DW/BI團隊的積極性將產生重大的打擊,特別是當項目已經展開數月之后才發現數據源存在問題時更是如此;
2)戰術性:一旦將某個數據源引入項目的基本戰略決策已經定下來,就需要進行一系列戰術性的數據探查工作來盡可能多地確定出各種問題。通常這一工作從數據建模過程就開始了,一直到ETL系統設計過程。有時ETL團隊也可能需要使用一個其內容沒有經過徹底評估的數據源。系統也可能支持產品過程的需求,但是卻存在ETL方面的難題,因為對產品處理并不重要的字段用來進行分析也是不可靠和不完整的。
該子系統中揭示出來的問題最終會產生兩種詳細說明:
1)將數據送回原來的數據源中,請求改善數據質量;
2)構成了數據質量子系統的需求。)
(備注:元數據(Metadata),又稱中介數據、中繼數據,為描述數據的數據,主要是描述數據屬性的信息,用來支持如指示存儲位置、歷史數據、資源查找、文件記錄等功能。元數據算是一種電子式目錄,為了達到編制目錄的目的,必須在描述并收藏數據的內容或特色,進而達成協助數據檢索的目的。)
如果還沒有為分析提供數據,那么這些數據可能會受到碎片化、最小化標記和丟失信息的影響。這些特征在電子健康記錄(EHRs)中很明顯,這說明了優化數據面對的挑戰。收集和分析EHR數據的其中的一個障礙就是缺乏適當的標簽和一致的語義的缺乏。
EHRs的設計主要是為了滿足病人的醫療、行政和經濟的需要。埃爾斯的多用途目標——不考慮每一種數據的數據分析——可能造成數據碎片化,這需要在為臨床研究等分析提供數據之前進行糾正。
從共享患者健康記錄中構建數據集的另一個挑戰是在衛生保健組織中如何實現EHRs的標準化,甚至在相同的衛生保健系統中也缺乏標準化。。例如,不同的部門(例如:同一家醫院的放射學、整形和內醫學)可能采用不同的方法來滿足他們獨特的數據輸入需求、文檔和排序需求,以及偏好,因此,會產生數據倉。
(備注:電子健康記錄(EHR,electronic health record)是個人官方的健康記錄,這些記錄可以在多個設備和機構中共享。一個電子健康記錄通常包括:聯系方式;訪問醫護專業人員信息;過敏史;醫療保險信息;家族遺傳病史;免疫狀況;身體狀況或疾病信息;服用藥物清單;住院記錄;做手術信息等
事實上,數據安全和隱私也可能成為分析受監管數據的障礙,比如在EHRs中。克服這一障礙的最佳方法是在細化過程中應用適當的安全性和治理。谷歌等公司正在試驗聯邦學習,以推進分析,同時確保隱私。
數據的優化對于從數據分析中獲得可靠結果是至關重要的,數據分析包括有意義的結論、準確的預測和明智的決策。
事實上,與任何虛擬化一樣,數據虛擬化是一種允許用戶訪問、管理和優化異構基礎架構的方法,就好像它們是一種單一、且在邏輯上是統一的資源一樣。這使得用戶能夠從一些服務、功能或其他資源的內部部署中對外部界面進行抽象化。
與支持邏輯上統一的訪問、查詢、報告、預測分析,以及針對關系型、Hadoop、NoSQL等不同后端數據庫應用的任何“SQL-虛擬化”解決方法相同,數據虛擬化的核心是抽象層。當然,數據虛擬化可能會轉而依靠其他的基礎設施虛擬化層,例如存儲與服務器平臺。在某些情況下,數據虛擬化可能會在地理上和多云環境中進行擴張。
在我們討論的眾多層中,虛擬化無疑是這些枯燥數據話題的一個縮影。但是如果希望自己的大數據云平臺能夠解決以下業務需求,那么它們無疑是最基礎的。這些具體的業務需求是:
■基于彈性、靈活拓撲結構的先進分析型資源
■汲取源自任何來源、格式和方案的純消費性資源
■能夠留存、聚合、處理任何動靜結合信息的“延遲-靈敏”資源
■在價值鏈中擴展,在私有云和公有云中擴張的聯合資源
■能夠讓你通過現有工具和應用,調整、擴展和升級后端數據平臺的無縫互操作資源
理想情況下,精煉原始數據以生成完整而有意義的信息的過程如下:
構建相關語義
處理數據異常
建立完整的、全面的、相關數據的視圖
充實下行流程的元數據
處理數據保護、隱私及合規性要求
利用數據虛擬化作為數據處理的三個優點:
1. 數據優化的范圍
現代分析依賴于來自大量碎片數據源的數據。經驗表明,當數據分布在多個系統時,大數據源并不總是能夠復制并遷移的。數據虛擬化通過提供替代性范式交付具有大數據源的有效工作范圍:將數據處理轉移到數據。換句話說,就是處理存在的數據并盡可能降低網絡流量。
(備注:數據虛擬化(Data virtualization)– 數據整合的過程,以此獲得更多的數據信息,這個過程通常會引入其他技術,例如數據庫,應用程序,文件系統,網頁技術,大數據技術等等。)
數據虛擬化帶來了數據優化所需的速度和規模,而無需復制或重新定位數據源。它使用邏輯數據體系結構,使所有底層數據源都以單個系統的形式出現。它提供了多種優化策略(例如:特定于平臺的優化和下推處理),選擇特定優化的智能,以及預先構建的優化庫,如MPP內存中的處理。
(備注:MPP (Massively Parallel Processing),意為大規模并行處理系統,這樣的系統是由許多松耦合處理單元組成的,要注意的是這里指的是處理單元而不是處理器。每個單元內的CPU都有自己私有的資源,如總線、內存、硬盤等。在每個單元內都有操作系統和管理數據庫的實例復本。這種結構最大的特點在于不共享資源。)
2. 負責數據共享
文化和法律障礙往往阻礙數據共享,這已成為大數據分析的主要組成部分。 數據隱私法規是令人信服的組織在新項目的每個設計和實施階段納入或以其他方式說明數據隱私的充分考慮。 數據虛擬化采用的中央方式,降低了遵守越來越多的活動數據隱私法規的成本,并允許通過設計包含數據隱私。
數據虛擬化的核心功能是使分布式數據保持在源代碼中,同時通過一個邏輯層將其暴露給消費者。這種方法消除了對連續數據復制的需要。較少的復制可以減少組織中個人和敏感數據的副本,減少數據安全和治理方面的問題。
數據虛擬化還使組織能夠很容易地在整個組織中創建聚合的、一致的數據視圖,例如風險數據。這些視圖可以有選擇地共享,同時完全遵守組織的數據訪問和隱私策略。如圖1 所示
圖1數據訪問和隱私策略
數據虛擬化能克服以下主要信息共享方面的挑戰:
·不同的數據源。使用數據虛擬化,可以輕松地將數據集成到各種內部和外部系統中。
·不同的數據格式。數據虛擬化可以使用不同的技術和協議連接到不同格式的數據。這些復雜性被用戶和應用程序所隱藏。
·不同的數據標準。使用查詢表或內存映射,數據虛擬化可以集成數據,即使它來自不同的標準。
·數據不完整。數據虛擬化允許將數據匯總在不同的系統中,以實現整體的視圖。
·未處理數據。對聚合數據進行的數據計算(與部分,孤立數據相反)可以提供整個企業組織完整的風險視圖。
·敏感數據。數據虛擬化可以提供安全性和隱私功能,以便用戶只能看到他們被允許看到的數據。
3. 通用語義模型
企業用戶的形式及規模各不相同。因此,必須了解客戶是誰?(例如,他們是數據分析師,高級用戶,高管還是機器)。以及他們需要的數據(例如,預先聚合的,預先計算,特定精確,特定作用的還是特定領域的)是必需的。對于特定的機器而言,正確的標記數據集對于有效的機器學習至關重要。在為分析提供數據時使用企業用戶了解的語言也是很重要的。使用業務用戶在提供數據進行分析時了解的語言也很重要。 例如,帳戶適用于財務中的用戶,而客戶是客戶關懷中的用戶的首選術語。 支持多種語義是避免強迫用戶改變術語的關鍵。
圖2 支持不同信息精確度
由數據虛擬化驅動的通用語義模式可以為整個組織提供常見且統一的數據視圖。通過不被嵌入到單一的商業智能(BI)工具中,語義模型對于多個BI工具是通用的,并且可以訪問幾乎任何數據源。
數據虛擬化實現自助分析方面,完成下列目標:
·能夠快速方便地構建靈活的語義模式
·提供具有保護措施的自助服務平臺
·既支持“data cowboys”(在一定范圍內)也支持常規業務用戶
·加快自我服務舉措(消除分析孤島),同時保持控制和治理
提供完整的、可信的、高質量的信息對決策制定以及預測性和規范性分析都是至關重要的。數據虛擬化是滿足這一需求的理想技術,這些組織力圖將數據用作戰略資產。當然,要沿著“數據-虛擬化”路線走多遠,將取決于用戶業務需求和大數據環境的復雜性。此外,還取決于用戶對風險、復雜性和困難的承受程度。在未來,隨著分析模型、規則和大數據云上匯聚的信息日益復雜,平臺將成為虛擬化訪問、執行和管理的核心。在這一新領域內,MapReduce將成為關鍵的(但并不是唯一的)開發框架。此外,MapReduce還將成為針對內聯分析和交易計算的虛擬化架構的一部分。不過,目前這一虛擬化架構雖然涵蓋范圍更廣,但是大部分仍沒有被明確定義。