從應(yīng)用角度,我們最耳熟能詳?shù)拇髷?shù)據(jù)案例當(dāng)屬啤酒和尿布的故事。
1969年,全球零售巨頭沃爾瑪利用計算機對消費者的購物行為進行數(shù)據(jù)分析,發(fā)現(xiàn)男性顧客在購買嬰兒尿布時,常常會順便“搭配”幾瓶啤酒來犒勞自己,于是推出了將啤酒與尿布捆綁銷售的促銷手段。如今,這一“啤酒+尿布”的數(shù)據(jù)分析成果,已成為科學(xué)家通俗解釋“大數(shù)據(jù)”技術(shù)的經(jīng)典案例,亦可稱為大數(shù)據(jù)早期最具價值的應(yīng)用。
中國在技術(shù)研究和數(shù)據(jù)資源上有一定優(yōu)勢,價值最高的應(yīng)用領(lǐng)域則相對滯后。
類型多樣、海量、快速和價值是大數(shù)據(jù)的4V特性。其中,價值特性最重要,但也最易被忽視。
大數(shù)據(jù)的總體架構(gòu)包括三層,數(shù)據(jù)存儲,數(shù)據(jù)處理和數(shù)據(jù)分析。一般來講,三層架構(gòu)可以與4V特性直接對應(yīng),即數(shù)據(jù)存儲層解決類型復(fù)雜和海量問題,數(shù)據(jù)處理層解決快速性需求,數(shù)據(jù)分析層解決價值需求。
用戶并不關(guān)心底層存儲細節(jié),只需要數(shù)據(jù)存儲和讀取方便快捷即可。因此,雖然存儲層搭建有多種方式,但根據(jù)實際業(yè)務(wù)要求,我們需選擇不同的存儲模式。
我們知道,大數(shù)據(jù)的海量和多樣對數(shù)據(jù)處理復(fù)雜度以及實效性提出了要求,這是數(shù)據(jù)處理層解決的問題。
分析層挖掘大數(shù)據(jù)的真正價值所在。CMIC研究發(fā)現(xiàn),盡管概念不同,但大數(shù)據(jù)分析層仍然無法跳脫傳統(tǒng)BI(商業(yè)智能)分析的內(nèi)容,如數(shù)據(jù)維度分析、數(shù)據(jù)切片等。大數(shù)據(jù)基于BI分析的基本方法和思路并未改變,二者的區(qū)別在于,BI的數(shù)據(jù)庫呈集中化,而大數(shù)據(jù)的數(shù)據(jù)庫向分布式轉(zhuǎn)變,因此,在執(zhí)行數(shù)據(jù)存儲和數(shù)據(jù)處理方法上,會發(fā)生一些變化,這是大數(shù)據(jù)處理的考驗所在。
CMIC認(rèn)為,將大數(shù)據(jù)的4V特性與其三層架構(gòu)結(jié)合起來并使之相互配合,可助力大數(shù)據(jù)價值最大化。