看著那么多人在爭論如何定義大數(shù)據(jù),感覺非常有意思。總是會有人提出不同的建議,即便只是存在細微的差別。在任何規(guī)則的背后也都會有潛在的例外。因此,從商業(yè)角度,而不是單純的學術研究方面來講,我認為在這樣的爭論上花很多精力并沒有太大的實際價值。還是讓我們來一探究竟吧。
數(shù)據(jù)分析的目的是為了利用數(shù)據(jù)去做出更好的商業(yè)決策。這一切都在于它的商業(yè)價值。判定數(shù)據(jù)本身究竟是“大”與否并沒有增加任何的商業(yè)價值。業(yè)界需要關心的問題其實很簡單:是否存在一些其本身具有很高的潛在價值,但目前仍未被收集的數(shù)據(jù)源?如果答案是肯定的,那么它就需要被收集并分析。這便是一個商業(yè)人士應該關心的核心問題。他們并不需要去在意數(shù)據(jù)本身的大還是小,或者介于兩者之間。
讓我們來想象一個應用場景,一群商業(yè)以及IT人士聚集在一個大型會議室,討論一項新的數(shù)據(jù)源。作為座談的一部分,他們達成一致協(xié)議,認為這項新的數(shù)據(jù)源應當(或不應當)被認定為大數(shù)據(jù)。這份結論對推動會議進程起到了任何作用嗎?什么也沒有。真正推動會議進程的,是這只商業(yè)團隊認可這項新的數(shù)據(jù)資源是有用的并且值得分析;是這只IT團隊決定如何基于數(shù)據(jù)本身的特點以最佳的方式使得數(shù)據(jù)可用。只有當致力于使數(shù)據(jù)付諸于工作而不僅僅停留在語義的定奪上,才會有真正的進展。
如上所說,一旦決定某項數(shù)據(jù)源是重要的,那么數(shù)據(jù)本身的特點會影響我們如何獲取它以及如何將其應用于分析過程。舉例來說,如果這項數(shù)據(jù)通常是大數(shù)據(jù)并且/或者是松散的,我們可能會需要利用某些與大數(shù)據(jù)相關的技術。但是,這僅僅是出于一種技術實現(xiàn)方面的考慮。而關于這項數(shù)據(jù),做出是否具有足夠價值去收集的重大決定,與我們將其置于怎樣的語言定義范疇,沒有任何的關系。
另一個通常性的錯誤是將大數(shù)據(jù)等同于具體工具或技術的運用。但是,工具和技術的應用是廣泛的,并不僅僅局限于大數(shù)據(jù)。舉例來說,如果我想為一家全球性組織做一項關于情緒與所有社會媒體評論的分析,我可能有大量的數(shù)據(jù)需要處理。我還需要某些復雜的文字分析工具和情感計算法則。現(xiàn)在讓我們來假設我想要做一項關于情緒與10條對我的評論的分析。猜猜會怎樣呢?我需要完全相同的文本分析工具和情感計算法則。我只是不需要用相同的標準去衡量他們。
通過以上觀點可以看到,更多與“大數(shù)據(jù)”相關的其實是一個“不同數(shù)據(jù)類型”的組合。文本數(shù)據(jù)需要不同的工具和技術。半結構化數(shù)據(jù)比起傳統(tǒng)的結構化數(shù)據(jù)需要更多不同的處理。但是,這些數(shù)據(jù)類型對于無論是大型還是小型數(shù)據(jù)而言都需要不同的處理方式。
對于負責大數(shù)據(jù)技術實現(xiàn)的人群,還是有必要去練習理解各類數(shù)據(jù)的不同,以及他們是被如何定義的。我并不是說在這個領域里的所有努力都是浪費時間。如果你連數(shù)據(jù)本身所包含的內容都不理解,那你如何去開發(fā)處理數(shù)據(jù)的工具以及技術呢。我僅僅是認為,我們過多的強調了涉及客戶的主題,例如那些實際上并不用去擔心的商業(yè)客戶。
下一次當有人再向你詢問如何定義大數(shù)據(jù),或者某一項數(shù)據(jù)來源是否應當被認定為大數(shù)據(jù)的時候,考慮下你將如何回答。你們真的需要這樣的討論嗎?或許你們是否需要換個角度,更多的去研討這項數(shù)據(jù)可能會具有怎樣的價值以及應當怎樣予以分析?我相信,如果選擇了后者,你們將會取得更大的進展,獲取更大的價值。