很多年來,在諸如Apache Hadoop這樣的技術支持下,企業紛紛尋求建立數據湖,即企業范圍內的數據管理平臺來存儲原始數據。數據湖能提供各類單一分類信息庫來滿足企業內所有人都可以進行數據分析到數據挖掘。原始、未治理的數據湖被認為可以捕獲所有大數據信息以及整理出所有所需信息。
商業智能軟件金字塔分析(Pyramid Analytics)的CTO Avi Perez認為已經有很多客戶和方方面面在顯示數據湖正惡化成為數據沼澤,大量的數據存儲(容器)根本不能觸達到最終用戶。
“數據庫都非常昂貴,這些數據湖從根本上解決了這個問題。數據湖以及所有的這些大數據項目之所以建立首先都因為面臨自市場的壓力,其次,真實世界所產生的大量數據需要有一個方式去存儲。”Perez說道。
目前世界上最成功的那些公司都圍繞他們的數據湖創建了業務(例如谷歌就是個很好的案例),但其他公司則沒有任何清晰的路徑去從其所收集數據中獲得價值。
Perez認為“他們僅僅收集了一堆塵土,一堆垃圾,一堆廢棄物,最后不得不砍掉這些既不能獲得任何價值,且又昂貴無比的項目預算。”
這也并不是說數據湖是個壞主意。Perez認為每家公司最終也都需要一個數據湖,但是必須深思熟慮地創建一個最終用戶可以從中受益的數據湖。
為了避免誤入歧途,Perez提出如下三項建議。
1.在初始盡可能少地收集數據
Perez認為企業最容易犯的大錯是僅僅因為他們能收集數據,而收集了過多數據。想想如果你有一臺智能手機,可能會存數百張甚至更多照片。
“也許最后手機里你有十億張照片,然而其中99%都可能是你一點兒都不想保留的垃圾。因為拍照不花錢,所以你輕而易舉地拍了很多照片。你也許在想,有一天我會好好清理一下,但是如果那天一直都沒到來呢?你就收集了大量的信息,且并不能有效利用。”
當你某天突然想給某個人看一張特別的照片時,不得不滑動無數垃圾照片去費勁地尋找。
數據湖也是同樣的。在Hadoop里面存儲數據貌似沒什么成本,因為是免費的。但是太多的數據將使你更難真實地從中提煉有價值的洞察。
“我認為更好的方式是改變水龍頭的方向,在看似低廉地收集數據的基礎上去使用這些數據其實并不便宜,反而更昂貴。因此不要隨時隨地到處收集信息。聚焦在那些你有特定計劃的數據集上,并且思考你將如何挖掘它們。”
2.接受機器學習戰略
哪怕是一個集中性的數據集,也盡量利用自動化來從大量數據中探索洞察。
Perez認為:“你需要一個自動化系統來清洗數據,人工智能、機器學習、深度學習,無論你用哪種術語來稱呼它,其都將成為處理數據的魔法解決方案。我總希望以一種最輕松的方式來釋放巨量5PB數據湖的價值,所以從學習一門技術開始吧。”
Perez認為在最開始可以挑選一個熟悉的數據集,并且選擇一種機器學習的方式來訓練自己擁有這門手藝,最后無論是培訓其他人還是雇人來以此技術有效地進行工作,即可達成目的。
“機器學習是一種黑色藝術,其并不容易,但這是你必備的一項技藝。”
3. 決定你想著手的業務問題
到處都存在這樣的閉環:先搞清楚你正在嘗試解決何種業務問題。目標清楚后,就可以很輕松地利用機器學習技術從零開始收集你所需要的數據,并從中找出洞察。
舉例而言,假設你是一個大盒子的零售商,想了解什么樣的顧客會到店。你可以捕捉入店顧客的圖像信息,并且用復雜神經網絡技術(CNN,一種深度學習神經網絡技術,用于解析計算機視覺問題)來處理圖片。CNN能夠辨識任何個人到底是男性還是女性,兒童還是成年人,一個兒童和成年人,一個年輕人和一個老年人,等等。
“一旦你將業務項目以及目標和這些設定綁定在一起,就可以賦能于業務用戶,其可以幫你做出決策:‘我需要做更多針對男性的市場推廣,因為現在男性太少’。你并不需要提前獲得一個精確的戰略。如果你沒有綁定在一起,那么就這些收集而來的信息也將變成一個很難處理的負面資產了。”
一旦你將業務驅動視為能動之一,那么其很可能將這種能力迭代,從而提供給業務更多既定的解決方案。舉例而言,一旦你能識別出誰進入了店面,那么你可以應用同樣的功能來發現誰路過了化妝品柜臺。