數據湖的提出距今已經有了幾年時間了,特別是在當今時代中,基于Hadoop建立的數據湖在大數據處理中占有的位置越來越重要。但是如何保證數據湖不像南方水災一樣泛濫,依然是一個耐人尋味的話題。
數據湖已滿,如何防泛濫
數據湖洪水泛濫
數據湖十分靈活,同時具備可擴展和低成本的特點。其最初建立的目的十分簡單,就是將所有形式的數據集中在同一處,這些數據包括了結構化數據、非結構化數據以及半結構化數據。這些數據可以是日志文件、點擊流、郵件、圖像、音頻視頻或者文本文件。
數據湖中數據類型繁雜
在這些數據中,非結構化和半結構化數據占據了很大一部分,但是由于我們的處理能力不同,一些數據可能在數據湖中存儲了很長時間而不能被處理掉,這樣就會一直積攢下來保留的現在。
誠然,數據湖可以幫助處理各種形式的數據,這其中以結構化數據為主。而且數據湖具備數據庫的大部分特質,可以提供數據查詢、結構化數據處理報告等業務。數據湖的最大價值在于數據利用、探索大數據的價值,預測未來結果并為企業提出相關建議,進而指導企業的進一步決策和行動。
“數據洪”一觸即發
但是,問題也就發生在這里。因為基于Hadoop部署的數據湖的能力并不足以應付一切,而用戶對數據湖又疏于管理。數據量隨時間而增加,數據湖開始泛濫,進而有逐步發展成洪水的趨勢。數據不能得到有效的分配,“數據洪”隨時可能沖潰堤壩,水漫金山。
抗洪還得靠管理
那么數據湖要如何才能避免成為數據洪的悲劇呢?首先應該從根本上改變傳統對數據湖的看法。把數據湖當作一個整體庫存來管理是存在問題的,對于管理人員來講,基于數據類型需要把數據湖分成一個個的區,分別處理管理。
基于Hadoop的數據湖需要分類
基于Hadoop的數據湖的區域劃分歸類對其而言十分重要。管理者需要對其需要提取的數據進行原始數據的保留,并且對其進行元數據標記,標明數據源、數據類型等。當被提取的數據處理完畢之后要對其統一規劃并進行后續處理。
如果用戶需要選擇一些特定應用程序的數據,那么可以通過收集、轉換,將來自不同數據源的數據全部帶走并進行處理。最后,在處理工作完成后可以通過數據軌跡、處理日志等工具對處理過程進行審核,保障數據處理的完成度。
數據分類管理
這些問題說起來簡單,但是做起來卻是一件相當麻煩的事情。這要求企業擁有一套十分成熟的數據提取工具,用于數據轉化、分類、標記以及其他任務。
而且不僅僅是企業關注這一問題,在Apache的Hadoop社區也有好多團隊在致力于開發此類工具。事實上,此類工具更趨向于數據管理專業,這些對于企業來講并不熟悉。而好消息是,一些相關的生態鏈已經在Hadoop領域開始形成,相信解決數據湖管理難題的工具將在不久后出現。