那些推薦將所的有東西都放在Hadoop數據庫的人顯然忘記了數據庫發展史上曾經發生的一些慘痛教訓。
雖然有句諺語叫做“大象永遠不會忘記”,但是我還是對這一諺語想要表達的意思心存懷疑。我就知道一種特殊的大象——它們的名字叫做Hadoop,這些大象似乎并不記得它們在向企業級數據倉庫(簡稱為EDW)市場進軍過程中的一些經歷。在Hadoop這個舞臺上,一些產品似乎對長期折磨該市場的某些缺陷一直沒有改進,并且在不斷地犯著相同的錯誤。
我對于Hadoop能夠、并且應該成為企業所有分析數據的中心樞紐這一觀點持懷疑態度。
在大數據時代初期,EDW領域曾經提出了“把所有的雞蛋都放在一個籃子里”的理念。盡管為所有分析主題域創建單一版本的真實數據倉庫在理論上具有重大意義,但是幾乎沒有客戶愿意花費資金、時間和資源將不同的分析數據庫整合至一個單一平臺之上。在EDW市場,許多企業將核心的記錄系統數據進行了整合,但是我們仍然能夠隨處見到企業專用的戰術數據倉庫、數據集市、操作數據存儲、聯機分析處理(OLAP)數據庫,以及其他針對特定區域、業務領域、應用和用戶的分析數據庫。
在Hadoop時代,單一的“企業數據樞紐”這一理念依然會存在反對的聲音。事實上,對于Loraine Lawson近期撰寫的關于等效構想(即以Hadoop為中心的“數據湖”)的文章,就存在質疑的聲音。Lawson將這一理念比喻成“大冰糖山”,她認為在以數據為中心的架構中,分布式計算將會消除數據孤島。Lawson以Edd Dumbill在關于“數據湖”討論中所說的話為論據稱:“Dumbill指出谷歌和Facebook的開發者‘完全生活在這一夢想當中’,這證明其不僅僅是一名開發者的夢想。”
我無從得知Dumbill做出這一論述的邏輯基礎。這些特定的開發者們沒有承認這是一名開發者的夢想。這些來自谷歌和Facebook的特定開發者們是Hadoop的早期開發者和用戶,這兩家公司已經在該平臺上創建了他們各自的Web服務。這也并不能證明這一夢想在硅谷以外的地方存在。
實際上,大數據時代中的用戶想法已經開始向“混合部署”這一模式轉型。這種“混合”部署模式將EDW、Hadoop、NoSQL、內存式以及其他數據平臺整合到了一個帶有云功能的異構基礎設施當中。
在混合架構當中,“數據湖”夢想似乎針對的是一種大數據部署角色:即帶有試驗性質的“沙盒”。這種沙盒是數據整合與統計建模中心,其針對的用戶是那些需要從海量的多結構數據中篩選數據的數據科學家團隊。正如我之前所說的那樣,全球的數據科學家們正在紛紛將Hadoop作為他們的數據“沙盒”。
Hadoop在大數據分析中正在成為關鍵性的應用部署與執行平臺。對于“數據湖”的前景展望,我沒有什么可挑剔的。數據科學家在大數據時代是關鍵的應用開發者。Hadoop正在快速地成為多用途分布式任務執行層,其有能力執行大量的用其他語言編寫的任務。
但是這并不是說Hadoop將成為唯一的平臺。實際上,包括Hadoop、大規模并行處理EDW、 NoSQL、內存式和流式在內的所有大數據平臺都是應用開發與執行平臺。任何認為一種平臺將一統“以分析為核心的應用開發”天下的想法都是不正確的。