在2014年10月紐約的Strata and Hadoop World會議上,大數據從業者和廠家們齊聚一堂以相互學習互通有無。今年會議上一個值得注意的方向是“偽大數據”產品的興起,“偽大數據”產品就是加上了“大數據”這個形容詞以博眼球的產品。
科技營銷緊跟正在上升的有力潮流來盈利,這是個長期公認的做法。在互聯網熱潮(.com boom)時期,和互聯網一點兒關系沒有的公司都在名字里加上了“.com”。環保產品滿身綠色。云端產品都和“云”貼邊。現在又興起用大數據來貼金。
這些夸張的手段是否弊大于利呢?也許因為營銷中利用了“大數據”這個詞,人們能去接觸并了解一個不然他們不會去考慮的產品。但這個伎倆幾乎騙不了誰,并且會讓用偽大數據技術的用戶抓狂。
大數據分析平臺廠商Platfora引起了Luth Research調查大數據分析市場現狀的興趣。他們的調查問卷直接問回答者他們是否把小數據產品換了個包裝說成是大數據產品;55%回答了是。大約一半 的回答者稱他們不得不把大數據分成小份來分析,并且小數據產品用在大數據上是不太成功的。Luth Research分析結論是:“不好用的大數據分析工具影響士氣。對他們用的工具不滿意的回答者更傾向于用壓力大、令人沮喪、浪費時間這種詞來形容他們的 大數據分析體驗。”(更多Luth Research的細節請參見這個圖。)
“你總用那個詞(大數據)。我不認為它和你想的意思一樣。”
我的觀點是如果一個公司把它本質不是大數據的產品定位成大數據產品那就是在自砸招牌。今年早些時候,我為DataRPM寫了些東西,DataRPM有非常好的產品,我在下面這些文章中寫過它們:“為何自動語義能夠解決商務智能面板危機”,“語義是如何把數據分析做得像Google搜索一樣的”。自從我認識他們起,我就建議他們大數據不是描述他們的產品價值的正確用詞。但在最近的廣告上我看見DataRPM用“大數據公司”來描述他們自己。
DataRPM通過自然語言,自動創建面板及對數據進行語義建模來解決頂層漏斗形商業智能問題(“為何頂層漏斗形商業智能會引領新潮流”)。 沒受過訓練的用戶也可以嘗試通過用自然語言問問題在DataRPM上試水。根據問題會生成新的面板。通過增加更多的語言,這個面板可以被細化。這樣一來, 用戶可以找到他們并不知道的數據集。一般公司中,只有30%人接觸到商業智能,通過利用DataRPM這樣的產品,可以極大地提高這一比例。
但是這個和大數據有啥關系呢?也許勉強可以說DataRPM能從大數據庫中進行查詢吧。但是通過表單也可以做呀。表單是大數據技術么?一摞紙是大數據技術么?我認為DataRPM為了和大數據貼邊的做法反而掩蓋了它真正的價值。
Qlik和Tableau和大數據公司都有很多合作并且經常被用來處理大數據,但是他們的市場營銷都看重他們的核心價值即輔助數據的探索和發現過程。Looker是這個領域的新秀,他們獨特的探索發現方法已經有了一些活躍的初期用戶,但是他們非要在產品介紹頁面上寫上一段他們的產品能“解開大型數據集的迷”。
從這方面來說,Platfora提供了更簡單的數據讀取方式。Platfora的主要功能是把Hadoop里的各種各樣的數據提供給更廣泛的用戶。 使用Hadoop說明他們和大數據是緊密相連的。但是Platfora沒把大數據當成重點。Platfora的秘方是向數據分析者開放端對端的數據轉換和 處理。他們的目標是:解決IT造成的瓶頸。現在通過Hadoop進來的數據很大,Platfora看重它理所應當,但我猜想將來Platfora應該能夠 在各種各樣的數據庫中一展身手。
Platfora的創始人兼CEO Ben Werther說“我認為,當新的大量的數據集被包含進來、能夠更能讓你掌握模式和結果的聯系被簡歷起來的時候,數據分析就變成了大數據分析。當你合并了 如用戶交互、交易和機器數據這些通常屬于不同體系的部分的時候,你就來到了大數據時代。我認為讓每個商業分析員都能夠不怕IT瓶頸而問出有意義的問題是一 個嚴峻的挑戰。”
說到底,大數據到底是啥意思呢?
Luth Research的報告驗證了Werther的觀點。回答者被問到了有關下面這些能力的問題:
指定小時數/天數內的結果不使用IT技術來添加數據源迭代分析獲取數據源訪問不需要把數據分成小塊分享結果的簡易成都不使用IT來做分析數據放在集中式數據庫內處理任何數量級的數據自動實時的分析能方便地加入新數據集可視化的結論分析不同種類的數據超過半數的大數據分析產品用戶稱他們有上述所有的能力。計劃使用大數據產品的用戶中有四分之一有上述的能力。注意上面和大數據有嚴密關聯的只有幾項而已。大多數不過是更好的商業智能技術罷了。
那么偽大數據技術究竟是什么呢?是并不能把大的數據集廣泛讓人們使用或不能幫助數據科學家有新突破的技術。就DataRPM來說,他們的技術也許是很不錯的,但它并不是大數據技術。
那什么是真的大數據技術呢?是超贊的能夠讓人更容易地有意義地使用大數據。換句話說,大數據就是說一個東西很好并且能處理大量的數據。想要分辨真假 大數據技術的話,當一個零售商向你推銷他們的故事的時候你可以問他這個技術是否能幫你爸媽使用大數據,或者數據科學家是否能用它來做以前做不到的事。如果 兩樣它都可以,那才可以被稱作大數據技術。如果不能,但你認為該技術也不錯,那就只能管它叫商業智能。