現(xiàn)今,數(shù)據(jù)湖泊在IT行業(yè)掀起了波瀾。數(shù)據(jù)湖泊是將數(shù)據(jù)存儲與數(shù)據(jù)管理關(guān)聯(lián),提供關(guān)于數(shù)據(jù)的分析功能——這種功能通常是其他分析系統(tǒng)的獨(dú)立功能,如數(shù)據(jù)倉庫或數(shù)據(jù)集市,作為數(shù)據(jù)梳理流程的一部分。
例如,數(shù)據(jù)倉庫的提取、轉(zhuǎn)化與加載預(yù)處理器將消費(fèi)日志,這些日志記錄了某個系統(tǒng)到達(dá)或插入某“操作數(shù)據(jù)存儲”的時間。
但現(xiàn)今產(chǎn)業(yè)中,數(shù)據(jù)湖泊似乎至少有兩個定義。一是源于存儲公司,認(rèn)為數(shù)據(jù)湖泊是磁盤存儲基礎(chǔ)設(shè)施,用于源數(shù)據(jù)的存儲。另一個,主要由市場驅(qū)動,混合許多通常未混合的數(shù)據(jù)。根據(jù)我的定義,沒有產(chǎn)商在銷售全擴(kuò)展的數(shù)據(jù)湖泊——相反,人們利用Hadoop來混合數(shù)據(jù)并自主研發(fā)的工具來訪問數(shù)據(jù)。
作為初始供應(yīng)商向現(xiàn)實(shí)世界實(shí)驗(yàn)拋出的炒作課題,用戶發(fā)現(xiàn)數(shù)據(jù)中心集市的最佳實(shí)踐并不適用于數(shù)據(jù)湖泊。為避免早期用戶的錯誤,需要專注于數(shù)據(jù)湖泊的溫和實(shí)現(xiàn),而不是超大規(guī)模。
以下是在數(shù)據(jù)湖泊工作中的最佳實(shí)踐。
請記住數(shù)據(jù)湖泊適用于探索
數(shù)據(jù)湖泊實(shí)現(xiàn)應(yīng)該是實(shí)現(xiàn)企業(yè)擴(kuò)展某個已存在分析的探索方式。數(shù)據(jù)湖泊中增加的數(shù)據(jù)類型來大部分來自于實(shí)時數(shù)據(jù)——例如,用戶事務(wù)日志——實(shí)時分析系統(tǒng)一般不會提供長周期的分析功能。大多數(shù)現(xiàn)有的分析工具不足以提供應(yīng)用程序行為的真實(shí)畫像。數(shù)據(jù)倉庫,“純”Hadoop和其他數(shù)據(jù)管理方案可能導(dǎo)致重要數(shù)據(jù)丟失。
大數(shù)據(jù)分析系統(tǒng)提供商Pentaho公司首席技術(shù)官James Dixon在自己的博客上舉了個例子:數(shù)據(jù)倉庫這樣的系統(tǒng)無法獲得用戶在購買流程中的每一步操作,但事務(wù)日志里有。類似購買流程這樣的設(shè)計對某些數(shù)據(jù)架構(gòu)師來說看似簡單,但每步驟都可能有數(shù)分鐘甚至幾小時的滯后。
通過發(fā)現(xiàn)流程中的滯后,用戶可以開始部署數(shù)據(jù)湖泊來繪制用戶畫像、購買相關(guān)的事務(wù)。探索型的分析很重要,也會影響到企業(yè)整體的分析能力,因?yàn)槟壳斑€不清楚在更深入分析客戶日志時間戳后,會不會有什么新發(fā)現(xiàn)。
數(shù)據(jù)集市、數(shù)據(jù)湖泊和數(shù)據(jù)倉庫之間的區(qū)別?
數(shù)據(jù)集市是數(shù)據(jù)倉庫的變體。數(shù)據(jù)倉庫存儲了跨越整個組織、周期較長的數(shù)據(jù)報告與分析。多個數(shù)據(jù)集市大致相當(dāng)于數(shù)據(jù)倉庫,通常服務(wù)于分公司的各自IT環(huán)境中。可以將多個數(shù)據(jù)集市并入一個數(shù)據(jù)倉庫,也可以是松耦合的數(shù)據(jù)集市。
整合是數(shù)據(jù)湖泊實(shí)施的關(guān)鍵
完全整合數(shù)據(jù)湖泊與企業(yè)的其他數(shù)據(jù)架構(gòu)十分重要,包括數(shù)據(jù)治理與主數(shù)據(jù)管理。了解哪些數(shù)據(jù)類型對數(shù)據(jù)倉庫或數(shù)據(jù)集市重要,或者那些原始表單中的數(shù)據(jù)是正確與一致的。實(shí)施數(shù)據(jù)治理實(shí)踐,避免分析有缺陷的數(shù)據(jù)。
數(shù)據(jù)湖泊要看長遠(yuǎn)
數(shù)據(jù)湖泊擁有潛力。但在找不到比這個更好的長期數(shù)據(jù)分析方案,無法獲得更多有價值的信息之前,數(shù)據(jù)湖泊也可能只是個時髦用語。
Dixon關(guān)于時間序列與間距問題分析的數(shù)據(jù)倉庫案例,只是在沒有考慮“壞”數(shù)據(jù)的情況下,通過簡單統(tǒng)計分析告訴我們一些信息。由于數(shù)據(jù)湖泊實(shí)施可能發(fā)現(xiàn)過去分析中隱藏的關(guān)鍵“指數(shù)”,任何企業(yè)都值得一試。從長遠(yuǎn)來看,還是需要實(shí)驗(yàn)與平衡數(shù)據(jù)湖泊與整體信息架構(gòu)之間關(guān)系。