多年來,在Apache Hadoop等技術的支持下,組織一直在尋求構建數(shù)據(jù)湖——企業(yè)范圍的數(shù)據(jù)管理平臺,允許以原生格式存儲所有數(shù)據(jù)。數(shù)據(jù)湖可通過提供給一個單一的數(shù)據(jù)存儲庫來打破信息孤島問題,整個組織都可以使用從業(yè)務分析到數(shù)據(jù)挖掘的所有東西。原始和不受約束,數(shù)據(jù)湖被認為是一個包羅萬象的大數(shù)據(jù)。
但是,商業(yè)智能(BI)軟件專家,金字塔分析公司的首席技術官Avi Perez說,他看到許多客戶的數(shù)據(jù)湖正在惡化為數(shù)據(jù)沼澤——完全無法接近終端用戶的大量數(shù)據(jù)存儲庫。
“數(shù)據(jù)庫真的很貴。”Perez說,“數(shù)據(jù)湖從根本上解決了這個問題。數(shù)據(jù)湖以及所有大數(shù)據(jù)方案,都來自于市場壓力,其次,現(xiàn)實世界的數(shù)據(jù)生成器會吐出大量的數(shù)據(jù),你需要找到一個方法去存儲它們。”
但是,盡管許多世界上最好的公司都在他們的數(shù)據(jù)湖周圍建立了業(yè)務(谷歌就是一個很好的例子),但很多公司在收集了數(shù)據(jù)之后卻沒有任何清晰的辦法來獲取價值。
“他們更像是在收集灰塵。”Perez說,“也可以說在收集垃圾,一些最終都會被拋棄的垃圾。最后,你為那些東西增加了預算,卻什么都不做。”
這并不是說數(shù)據(jù)湖背后的想法是糟糕的。Perez確信,所有的公司最終都需要一個數(shù)據(jù)湖。但是如何創(chuàng)建一個數(shù)據(jù)湖,讓終端用戶真正從中受益,這是需要深思熟慮的。
為了避免在自己的數(shù)據(jù)湖中溺水,Perez建議采用以下三條原則:
1、 只收集少量的數(shù)據(jù),至少在一開始的時候。
Perez表示,組織所犯的最大的錯誤之一就是收集太多的數(shù)據(jù),而其中原因僅僅是他們有這個能力。很多時候,個人也是這樣。細想一下,你手機里存了成百上千張圖片,有都少是自己真正想保存的?很多人沒有刪掉多余的圖片,只是因為手機容量夠大。
“你的手機上有10億張照片,其中99%就可能是垃圾,而且在刪除它們的時候還可能會有點兒舍不得。”他說,“用手機拍照很容易,基本上是免費的。你可能回想,‘有一天我會去清理它’,但只要存儲容量仍然充足,就很少有人會這樣做。這就叫做收集了大量的信息,卻沒辦法有效使用它們。”
當你想要給某人看一張很有意思的照片時,就不可避免地需要往后翻閱很多張無關的照片。
Perez說,同樣的事情也發(fā)生在數(shù)據(jù)湖上。在Hadoop中存儲數(shù)據(jù)并不昂貴,甚至常會被認為是免費的。但是,大量累積的數(shù)據(jù)會讓你很難真正地訪問數(shù)據(jù),來為自己提供有價值的信息。
“我認為,避免這種情況的方法實際上是把水龍頭給關掉。”Perez說,“基于這樣一種假設,僅僅是收集數(shù)據(jù)的成本很低,并不會讓使用數(shù)據(jù)變得更便宜。這可能真的很貴。所以,不要總想著無休止地收集信息。把它放在一個數(shù)據(jù)集中,制定一個具體的計劃,弄清楚自己該如何去挖掘它。”
2、 采用機器學習戰(zhàn)略
即使有了一個集中的數(shù)據(jù)集,從大規(guī)模的數(shù)據(jù)中獲得有價值見解也需要自動化。
“你需要一個自動化的系統(tǒng)來清洗數(shù)據(jù)。”Perez說,“人工智能、機器學習、深度學習,無論你想使用哪一種,都會是一個非常神奇的解決辦法。我認為,從你巨大的數(shù)據(jù)湖中獲取價值的最簡單的辦法就是,擁抱這一項新技術。”
Perez說,首先選擇一個數(shù)據(jù)集,然后通過一項機器學習技術來完成它。當然,新的技術意味著新的技能、人才需求,你可以對現(xiàn)有員工進行培訓,也可以聘請一些專業(yè)人士。
“機器學習是一門黑色藝術。”他說,“這并不容易做到,需要非常細分的技能。”
3、 確定你想解決的商業(yè)問題
所有的事情都應該是完整的:你需要從一個清晰的視角來開始你想要解決的商業(yè)問題。有了一個客觀的目標,相對會更容易把你需要收集的數(shù)據(jù)和最好的機器學習技術應用起來。
例如,Perez說,可以將自己想象成一個大賣場,你決定去了解什么樣的顧客會進入你的商店。你可以捕捉顧客進入商店的圖片,然后使用一個復雜的神經網(wǎng)絡(CNN)——一種擅長于計算機視覺問題的深度學習神經網(wǎng)絡——來處理圖像。CNN可以通過一個人的形象確定是男性還是女性,是孩子還是成年人,是年輕人還是老年人等等。
“一旦你完成了所有工作,就可以把它與一個商業(yè)計劃聯(lián)系起來,并把它交給你的業(yè)務用戶。”Perez說,“這可以幫助你做出決策——‘我們需要更多地向男性市場推銷,因為我們沒有足夠多的男性客戶’。你真的需要事先有一個明確的戰(zhàn)略,如果不這樣做,僅僅是對事物的收集就會對整個過程產生巨大的負面影響。”
一旦你在頭腦中建立了一個業(yè)務計劃,通常就可以迭代該功能,從而為業(yè)務提供更有針對性的解決方案。例如,一旦你確定是誰走進了你的商店,你就可以用同樣的能力來確定誰會走過你的化妝品柜臺。