精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

如何保證Hadoop數據湖不變成“數據洪水”

責任編輯:jackye

作者:賈凱強

2016-07-11 09:23:29

摘自:中關村在線

數據湖的提出距今已經有了幾年時間了,特別是在當今時代中,基于Hadoop建立的數據湖在大數據處理中占有的位置越來越重要。而好消息是,一些相關的生態鏈已經在Hadoop領域開始形成,相信解決數據湖管理難題的工具將在不久后出現。

數據湖的提出距今已經有了幾年時間了,特別是在當今時代中,基于Hadoop建立的數據湖在大數據處理中占有的位置越來越重要。但是如何保證數據湖不像南方水災一樣泛濫,依然是一個耐人尋味的話題。

如何保證Hadoop數據湖不變成“數據洪水”

數據湖已滿,如何防泛濫

數據湖洪水泛濫

數據湖十分靈活,同時具備可擴展和低成本的特點。其最初建立的目的十分簡單,就是將所有形式的數據集中在同一處,這些數據包括了結構化數據、非結構化數據以及半結構化數據。這些數據可以是日志文件、點擊流、郵件、圖像、音頻視頻或者文本文件。

如何保證Hadoop數據湖不變成“數據洪水”

數據湖中數據類型繁雜

在這些數據中,非結構化和半結構化數據占據了很大一部分,但是由于我們的處理能力不同,一些數據可能在數據湖中存儲了很長時間而不能被處理掉,這樣就會一直積攢下來保留的現在。

誠然,數據湖可以幫助處理各種形式的數據,這其中以結構化數據為主。而且數據湖具備數據庫的大部分特質,可以提供數據查詢、結構化數據處理報告等業務。數據湖的最大價值在于數據利用、探索大數據的價值,預測未來結果并為企業提出相關建議,進而指導企業的進一步決策和行動。

如何保證Hadoop數據湖不變成“數據洪水”

“數據洪”一觸即發

但是,問題也就發生在這里。因為基于Hadoop部署的數據湖的能力并不足以應付一切,而用戶對數據湖又疏于管理。數據量隨時間而增加,數據湖開始泛濫,進而有逐步發展成洪水的趨勢。數據不能得到有效的分配,“數據洪”隨時可能沖潰堤壩,水漫金山。

抗洪還得靠管理

那么數據湖要如何才能避免成為數據洪的悲劇呢?首先應該從根本上改變傳統對數據湖的看法。把數據湖當作一個整體庫存來管理是存在問題的,對于管理人員來講,基于數據類型需要把數據湖分成一個個的區,分別處理管理。

如何保證Hadoop數據湖不變成“數據洪水”


基于Hadoop的數據湖需要分類

基于Hadoop的數據湖的區域劃分歸類對其而言十分重要。管理者需要對其需要提取的數據進行原始數據的保留,并且對其進行元數據標記,標明數據源、數據類型等。當被提取的數據處理完畢之后要對其統一規劃并進行后續處理。

如果用戶需要選擇一些特定應用程序的數據,那么可以通過收集、轉換,將來自不同數據源的數據全部帶走并進行處理。最后,在處理工作完成后可以通過數據軌跡、處理日志等工具對處理過程進行審核,保障數據處理的完成度。

如何保證Hadoop數據湖不變成“數據洪水”


數據分類管理

這些問題說起來簡單,但是做起來卻是一件相當麻煩的事情。這要求企業擁有一套十分成熟的數據提取工具,用于數據轉化、分類、標記以及其他任務。

而且不僅僅是企業關注這一問題,在Apache的Hadoop社區也有好多團隊在致力于開發此類工具。事實上,此類工具更趨向于數據管理專業,這些對于企業來講并不熟悉。而好消息是,一些相關的生態鏈已經在Hadoop領域開始形成,相信解決數據湖管理難題的工具將在不久后出現。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 攀枝花市| 塘沽区| 铜梁县| 多伦县| 怀宁县| 铜陵市| 龙陵县| 广南县| 太保市| 宽城| 台江县| 东明县| 平湖市| 贵州省| 上思县| 平泉县| 漳州市| 西青区| 闸北区| 城口县| 灵武市| 天津市| 临江市| 鄂州市| 施甸县| 威信县| 文山县| 沙坪坝区| 长丰县| 财经| 措美县| 仁怀市| 文登市| 大港区| 修文县| 宜兰市| 沧州市| 大同县| 奈曼旗| 房产| 彩票|