日韩成人在线网站,国产区成人综合色在线,久久久久久中文字幕

防止數據湖成為數據沼澤的三大關鍵

責任編輯：cres

作者：Thor Olavsrud

2017-06-26 10:40:42

來源：企業網D1Net

原創

數據湖可以輕松存儲所有的業務數據，但是需要注意的是：大量的存儲量(容器庫)可能引起陷入癱瘓，讓用戶動彈不得。我們今天就來談如何能防止數據湖變成數據沼澤。

很多年來，在諸如Apache Hadoop這樣的技術支持下，企業紛紛尋求建立數據湖，即企業范圍內的數據管理平臺來存儲原始數據。數據湖能提供各類單一分類信息庫來滿足企業內所有人都可以進行數據分析到數據挖掘。原始、未治理的數據湖被認為可以捕獲所有大數據信息以及整理出所有所需信息。

商業智能軟件金字塔分析(Pyramid Analytics)的CTO Avi Perez認為已經有很多客戶和方方面面在顯示數據湖正惡化成為數據沼澤，大量的數據存儲(容器)根本不能觸達到最終用戶。

“數據庫都非常昂貴，這些數據湖從根本上解決了這個問題。數據湖以及所有的這些大數據項目之所以建立首先都因為面臨自市場的壓力，其次，真實世界所產生的大量數據需要有一個方式去存儲。”Perez說道。

目前世界上最成功的那些公司都圍繞他們的數據湖創建了業務(例如谷歌就是個很好的案例)，但其他公司則沒有任何清晰的路徑去從其所收集數據中獲得價值。

Perez認為“他們僅僅收集了一堆塵土，一堆垃圾，一堆廢棄物，最后不得不砍掉這些既不能獲得任何價值，且又昂貴無比的項目預算。”

這也并不是說數據湖是個壞主意。Perez認為每家公司最終也都需要一個數據湖，但是必須深思熟慮地創建一個最終用戶可以從中受益的數據湖。

為了避免誤入歧途，Perez提出如下三項建議。

1.在初始盡可能少地收集數據

Perez認為企業最容易犯的大錯是僅僅因為他們能收集數據，而收集了過多數據。想想如果你有一臺智能手機，可能會存數百張甚至更多照片。

“也許最后手機里你有十億張照片，然而其中99%都可能是你一點兒都不想保留的垃圾。因為拍照不花錢，所以你輕而易舉地拍了很多照片。你也許在想，有一天我會好好清理一下，但是如果那天一直都沒到來呢?你就收集了大量的信息，且并不能有效利用。”

當你某天突然想給某個人看一張特別的照片時，不得不滑動無數垃圾照片去費勁地尋找。

數據湖也是同樣的。在Hadoop里面存儲數據貌似沒什么成本，因為是免費的。但是太多的數據將使你更難真實地從中提煉有價值的洞察。

“我認為更好的方式是改變水龍頭的方向，在看似低廉地收集數據的基礎上去使用這些數據其實并不便宜，反而更昂貴。因此不要隨時隨地到處收集信息。聚焦在那些你有特定計劃的數據集上，并且思考你將如何挖掘它們。”

2.接受機器學習戰略

哪怕是一個集中性的數據集，也盡量利用自動化來從大量數據中探索洞察。

Perez認為：“你需要一個自動化系統來清洗數據，人工智能、機器學習、深度學習，無論你用哪種術語來稱呼它，其都將成為處理數據的魔法解決方案。我總希望以一種最輕松的方式來釋放巨量5PB數據湖的價值，所以從學習一門技術開始吧。”

Perez認為在最開始可以挑選一個熟悉的數據集，并且選擇一種機器學習的方式來訓練自己擁有這門手藝，最后無論是培訓其他人還是雇人來以此技術有效地進行工作，即可達成目的。

“機器學習是一種黑色藝術，其并不容易，但這是你必備的一項技藝。”

3. 決定你想著手的業務問題

到處都存在這樣的閉環：先搞清楚你正在嘗試解決何種業務問題。目標清楚后，就可以很輕松地利用機器學習技術從零開始收集你所需要的數據，并從中找出洞察。

舉例而言，假設你是一個大盒子的零售商，想了解什么樣的顧客會到店。你可以捕捉入店顧客的圖像信息，并且用復雜神經網絡技術(CNN，一種深度學習神經網絡技術，用于解析計算機視覺問題)來處理圖片。CNN能夠辨識任何個人到底是男性還是女性，兒童還是成年人，一個兒童和成年人，一個年輕人和一個老年人，等等。

“一旦你將業務項目以及目標和這些設定綁定在一起，就可以賦能于業務用戶，其可以幫你做出決策：‘我需要做更多針對男性的市場推廣，因為現在男性太少’。你并不需要提前獲得一個精確的戰略。如果你沒有綁定在一起，那么就這些收集而來的信息也將變成一個很難處理的負面資產了。”

一旦你將業務驅動視為能動之一，那么其很可能將這種能力迭代，從而提供給業務更多既定的解決方案。舉例而言，一旦你能識別出誰進入了店面，那么你可以應用同樣的功能來發現誰路過了化妝品柜臺。

數據湖

2/28

2025全国医药大健康CIO大会

北京报名

3/1

2025全国消费零售CIO大会

北京报名

3/22

2025央国企CIO及数科公司峰会

北京报名

1/4

第九届中国制造业上市公司价值500强大会

北京结束

11/29

2024全国甲方IT选型大会

南京结束

9/14

2024全国制造业数智化大会

杭州结束

9/13

2024全国汽车业数智化大会

杭州结束

7/27

2024央国企CIO及数科公司大会

北京结束

6/5

2024CIOC全国CIO大会

银川结束

1/20

2024北京CIO大会

北京结束

熱門專題

邊緣創新數智向實

2023英特爾智能邊緣行業應用巡展·智慧協同站

飛利浦商用顯示器:智能科技助力高效工作

智能科技助力高效工作

破內卷“出海”勢在必行數字化為全球業務保駕護航

破內卷“出海”勢在必行，數字化為全球業務保駕護航

邊緣創新數智向實

2023英特爾智能邊緣行業應用巡展·智慧協同站

飛利浦商用顯示器:智能科技助力高效工作

智能科技助力高效工作

高端訪談

海爾智家技術總監高麗：云原生加速企業數字化轉型

海爾智家全球數字化平臺用到了哪些云原生技術產品?如何實現降本增效?在云原生技術應用方面有哪些實踐和探索?云原生技術發揮了哪些價值?在本期“云原生降本增效大咖說”中，企業網D1Net采訪了海爾智家全球數字化平臺技術總監高麗。

國藥國際CIO馮偉：數字化轉型要打破信息化建系統的固有思維

中國國際醫藥衛生有限公司數智化中心總經理馮偉在接受企業網D1Net專訪時提到：“回過頭來看，數智化建設最難的是轉思維，必須打破信息化總想去建系統的固有思維，要以平臺化思維、站在運營和業務的角度思考問題。思維轉變后，很多問題將迎刃而解。”

創維集團信息總監寧江：數據治理是數字化轉型的必由之路

創維集團信息總監寧江在接受企業網D1Net采訪時提到：“如今，站在數字化轉型的全局之下回顧過去幾十年的信息化建設，似乎建了很多煙囪，系統之間、流程之間不能共享數據，孤島林立。不同時期有不同時期的特征，都有其合理性和必要性，如今再來解決這些問題為時未晚。

海爾智家技術總監高麗：云原生加速企業數字化轉型

國藥國際CIO馮偉：數字化轉型要打破信息化建系統的固有思維

熱文推薦

精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

防止數據湖成為數據沼澤的三大關鍵

業務服務

網站地圖

友情鏈接

合作伙伴