隨著Hadoop的數據湖獲得更多的定義和部署,現在開始看起來將與現有的數據倉庫技術共存。而混合型數據架構這樣一種觀點出現在加利福尼亞州圣迭戈召開的2016企業數據世界會議上。
“這不是一個有或沒有的事情,而是一個共同存在的事情。”紐約咨詢公司CasertaConcepts公司總裁兼首席執行官喬治·卡塞塔在2016年EDW大會上表示,“企業的數據倉庫不會消失。即使當我們正在關注Hadoop和Spark和其他所有閃亮的新事物,它仍然存在。”
但是數據湖在大數據科學和分析應用中找到了用武之地。喬治·卡塞塔表示,基于Hadoop的數據湖通常首先要處理大量和快速到達的大量非結構化數據。卡塞塔和其他專家表示,數據湖是大數據的趨勢,將為數據專業人員熟悉實踐的重要組成部分帶來改變。
“我們采數據倉庫創建了第一個數據模型,但這已經發生了變化,“卡塞塔說。隨著數據湖的采用,這些模型都已落后。“我們不這樣做,馬上就落后了。”他說。
分析和應用
其中的一個原因是數據湖與實時數據流關聯。隨著分析使得業務應用更加緊密,并成為了實時決策的一部分,數據需要盡快地創建和訪問。卡塞塔說,這也使得它與數據倉庫的工作有很大的不同,這將繼續成為必要業務報告的基礎。
這個觀點是由零售數據安全和電子商務服務提供商FirstData公司支付處理數據管理總監湯姆·普萊斯所分享的,他看到數據湖和數據倉庫不同的應用,以及對數據結構的需要。
“數據倉庫是專為緩慢變化的數據設計的,每天、每周和每月的匯總,以及已知的、結構化的數據”。普萊斯說,“而另一方面,數據湖是為快速變化的數據設計的,而數據湖可以告訴你一分鐘前或五分鐘前發生了什么事。”
像卡塞塔一樣,普萊斯看到了從數據湖進入數據倉庫的非結構化數據的選擇性匯總的區別。
數據水庫
作為數據湖泊的發展,作為處理簡單和未分化的數據的應用可能會接近尾聲。卡塞塔和普萊斯都看到在數據湖有著不同程度的數據治理應用于不同層次的數據。
這些部門主要是為用戶提供先進和技能和分析。總部在亞特蘭大的FirstData公司數據的消費者包括業務分析師和數據科學家,但也有一些產品創新和產品優化專家。其應用范圍從商業報告到預防欺詐的案例。
普萊斯說,他其實更喜歡將長期的數據湖稱為數據水庫這樣的術語。在他看來,數據水庫可以傳達攝入的數據將被處理的想法。
“數據湖本身只是一個用戶不理解的原始數據的集合,它可能無法管理,無法驗證用戶。”普萊斯說,“有了數據水庫,這些數據能夠得到很好地治理,充分理解以及良好的管理。而且,你其實可以采用數據做更有價值的事情。”
長期沙箱
數據湖作為一個術語,遠未受到普遍歡迎。總部在明尼阿波利斯一家保險和投資管理企業Thrivent金融公司的數據和商業智能交付高級架構師盧米尼察·沃爾默表示,并不喜歡這個術語。她傾向于共同發展的長期沙箱,因為很多數據湖的使用是實驗性的。
不過,在數據倉庫的前景會議上,她告訴與會者關注他們目前的數據倉庫,以及他們的組織將如何使用未來的工具,包括NoSQL數據庫和預測性分析軟件的前景。她說,Hadoop已經在許多組織中占據了數據結構中的位置。
與其他人一樣,沃爾默說,數據分析用戶的一個新的頻譜正在形成。當企業數據倉庫是唯一的游戲時,事情是不同的,她說,這將影響到向前發展的數據管理團隊的方式。
“必須要有一些人支持目前的系統和一些人做一些研究。”沃爾默說,“這可能使我們做事的方式發生變化。”