1、 從集到散。
傳統的BI,是以數據統計為基礎。但是不論是什么統計,都是想抽取一個或一組數值去說明一個問題。不論原始的數據有多少,都會盡量的去提取歸納,以期望用最少的數據去說明問題,從幾個數據中得到的檢驗結果(例如合格率的抽檢)時這樣,從幾千萬,幾億數據中提取到的用戶訪問量,瀏覽量,交易量也是這樣。在BI看來,是否找到了一個最能說明問題的數據是一個分析好壞的關鍵。
這么做當然沒錯,但是僅僅找到問題是不夠的,如果要分析問題,那么還要再次提取數據,在進行新一輪的分析。
而大數據呢,從現在看來還是做著和BI一樣的事情,但是如果加大的數據的規模,增加數據的種類,隨著數據量的上升,需要付出的成本幾乎是在幾何級數的上升,而BI的分析結果的獲利都無法做到線性的上升,一個公司最應該關心的數據,年度,半年度,季度,月度,周數據中早已包含了,這中間可以產生變化的數據并不是很多。而更短或者更局部的一些數據,對一個公司所能產生的影響甚小。如果再單獨的從聚合的角度去用大數據,往往很難收回成本。
而我們可以看到,數據時可以應用到小問題上的,當數據達到一定規模以后,我們同樣能解決一個用戶需要什么,因為針對一個用戶的數據已經足夠多了。而當這些數據變化的時候,同樣代表著用戶需求的變化,這樣,通過對用戶數據的分析,主動為用戶推薦其最需要的服務成了可能。
2、 從后到前
傳統的BI解決的多是結果的問題,雖然也有預測,但是也基本是基于結果的預測。一般情況都是先有數據,然后根據對數據的分析,得到結果。如在A/B test這樣的應用中,必然是先有一個想法在那里,數據要做的是給這個想法量化,去衡量結果與想法之間的差異有多大。
當然,作為一個驗證來說,通常最好的結果是和設計之初的想法一致,雖然偶爾會有一些幸運的意外,但是這個及其少見。也就是說,往往這個驗證,在設計者本身已經有很準確的判斷的情況下,不產生新的價值。而另一個矛盾的事情出現了,如果設計者本身就不專業,則很難用到這種方法,甚至用這類方法的成本,往往比請一個專業的設計師更高。所以BI這么高大上的方法,往往是大型公司為一個已經很專業的人才加上一個保險而已。
大數據是并不存在這樣的先后關系的,它只是根據一定的數據給出一個或者幾個相對優化的結果,數據產生的同時,也是數據應用的同時。例如用戶當前最需要什么服務,這是的定價在什么價格才是利益最大化的,不同于之前BI的分析是,這幾乎都是在提出一個新的假設,例如數據分析的結果是用戶最需要的是吃飽肚子,但是用戶有可能為了去看他感興趣的球賽而選擇餓肚子,但是這并不重要。大數據的目的是給出優化過的選擇方向,以期望用戶能選擇其中的服務,當然,最好的結果是每次的推薦都被用戶選擇。
3、 從被動到主動
基本上BI的分析針對用戶來說都是BI是被動的而用戶是主動的,即使是用戶想要的結果,也必須是用戶自己主動收集,整理,分析,查看等等的一系列行為。而一般的情況下,無論是公司內部還是用戶本身,都不希望看到數據。大部分人都數據太不敏感了,甚至是看到數據就頭痛,我相信如果不是看在錢的面子上,很多人臉KPI數據都不會去看一眼。
BI的被動還表現在,除了報警系統以外,基本都是人在找數據。每天的數據就是靜靜的躺在那里,只有碰到愿意用它,并且會用他的人才能發揮作用,否者只是躺在服務器里的一堆數據而已。
而大數據要比這個主動得多,你可以把他理解成一個針對不同人的報警系統,幾乎所有的節點都可以接收報警,當數據產生了變化以后,如果有必要,就可以主動的向對應的節點發送信息,以前往其對應的相應。
當用戶響應以后,新的數據很可能產生下一輪的警報,這樣的循環可以讓一個用戶和他的數據活起來。
4、 分析價值到數據價值。
我們知道,在BI的工作中,最值錢的并不是數據本身,而往往是數據的分析師,他們的分析方法,分析模型是整個分析中最核心的部分,而系統只是實現途徑罷了,系統中所有的分析結果,都必須是數據分析師教給工程師,再由工程師來實現的。
這樣的系統中,如果存在通用性,那么挖走一個數據分析師,或者是實現的工程師,則幾乎是可以“偷”走整個系統。
而大數據卻并不是這樣,它更像是一個可以自學的學生,在通過不斷的對數據的應用以后,如果系統本身夠合理。系統會根據用戶的選擇結果和行為,去自己完善自己,而當一段時間以后,可能系統的運作模式非常的多樣化,也可能脫離了設計最初的局限。
這樣的一個系統,經過了一段時間的運行以后,最值錢的已經不再是最初的算法本身,也不是實現這個算法的人。而是在系統中沉淀下來的數據,尤其是用戶反饋的數據。如果是再想要復制一個相同的系統,就不再是挖兩個人那么簡單的事情了。
5、 從止損到開拓
在一定的程度上,BI更像是一個止損的系統,無論是多好的分析方法,多么嚴密的分析過程,更多的都是為了防止錯誤的發生;每天監控的日交易額,流量是為了更早的發現問題。各種檢驗的方法也是為了保證結果的正確,即使是因子分析等等的方法,也都是一個假設存在的,方法只是在保證這個假設的正確性。
但是所有的止損都有一個限度,那就是有損可以止,BI的價值就直接受限于想法本身的投入和產出的可能性。即使我們很多時候會說,這個產品先做,然后觀察數據,再看再說。這里會在數據上做投入的原因也是產品本身的價值,以及期望一個和在預想符合的市場反應,否則,不會有誰想看相關數據。
大數據和這個不一樣,因為它本身就是一個假設,而不是去驗證別的什么想法的,它的目的就是要達到這個好的結果,給用戶/公司直接帶來利益,讓用戶選擇有效的服務,既可以給用戶好的體驗,當然同樣也應該為公司帶來利潤,這其中多有的過程,都是為了讓用戶/公司雙發的利益更大,而不是為了防止公司出現損失這個層面。從這個角度上看。大數據本身的價值,并不受限于其他的什么因素,而只受限于自身系統的合理性它所能收集到的數據。
說了這么多的區別,并不是說完全要把大數據和BI割裂開來,大數據是從BI中發展來的,但是隨著時代的發展和技術的進步,數據分析本身也應該存在著思路上的轉變,不只是一個更大數據源上的BI了。如果在工作中不能跟上,很有可能只增加在數據上的投入,而不能得到很好的回報。