大數據可能是近一年來最時髦的詞了,大數據真正的本質不在于“大”,而是在于背后跟互聯網相通的一整套新的思維。大數據跟傳統的數據最大的差別在哪呢?
1.在線。首先大數據必須是永遠是在線的,而且在線的還得是熱備份的,不是冷備份的,不是放在磁帶里的,是隨時能調用的。不在線的數據不是大數據,因為你根本沒時間把它導出來使用。只有在線的數據才能馬上被計算、被使用。
2.實時。大數據必須實時反應。我們上淘寶輸入一個商品,后臺必須在10億件商品當中,瞬間進行呈現。如果要等一個小時才呈現話,我相信沒有人再上淘寶。十億件商品、幾百萬個賣家、一億的消費者,瞬間完成匹配呈現,這才叫大數據。
3.全貌。大數據還有一個最大的特征,它不再是樣本思維,它是一個全體思維。以前一提到數據,人們第一個反應是樣本、抽樣,但是大數據不再抽樣,不再調用部分,我們要的是所有可能的數據,它是一個全貌。其實叫全數據比大數據更準確。
這是大數據的三個本質,在線、實時、全貌。
大數據的3個典型特征
為了讓大家對大數據有更多的理解,我再把它展開跟大家討論一下。大家做企業,最容易想到的兩個數據應用,一個是市場調研,派個市場公司或市場部門做一個調查,去看下各公司什么反饋。第二個就是商業智能BI、數據挖掘,查看數據經營的報表。這是最傳統的兩個數據應用。這樣的數據應用有幾個典型特征:
1.要知道準備達成的目標,從而主動收集這些數據。由于每個企業的計算能力跟成本不一樣,數據數據保留多少時間、哪些數據能用,是有所不同的。而大數據是實時的記錄數據。原則上,任何人上任何一個網站、做的任何事情,所有事情都會被記錄下來,沒有人事先做區分。所以大家不再去問,是數據就記錄下來,所以這是第一個差別。
2.參與的人不再是有意識的參與,而是無意識的參與,你是為自己的利益在做事情。你用一次搜索,你就參與了谷歌的大數據搜集,因為你的每次點擊就是一個數據來源。如果讓你參加一個市場調研,80%的情況下你會拒絕,15%的情況下你可能會要求某種意義上的補償。很少有人愿意主動的參加市場調研,因為對你來說是個負擔。但是線上的大數據對絕大部分人來說,完全是一個無意識的、自利的行為。我上淘寶就是為了買東西,我上微博是為了看新聞,我上百度是為了搜索,你都是為了自己利益而觸發的一個無意識的行為,但這個無意識的行為,都為大數據做了貢獻。
3.一個是單向,一個是雙向。我們以前做的數據分析也好,都是先假定一個目的,然后拿到現成的數據,分析行為,來測試我的猜測。這些都是有一個單向的主導。大數據本質上一定是雙向的,就像搜索,你點擊搜索引擎點擊的時候,你是給它輸入了數據,它給你的結果就是它與你的互動,就是它帶給你的數據價值。這個大數據本身也在隨時為你創造價值,這樣的話就變成一個雙向互動的正循環,雙方都給對方貢獻了數據價值。任何大數據應用,如果在設計時就沒有這種雙向、互利的正循環的話,是跑不起來的,本質上就不是大數據。
大數據應用,反應速率才是關鍵
最后,我還想強調的是反應速率——大數據的數據價值越大,它的反應速率就要越高。比如說谷歌的搜索,你輸入一個關鍵字看到的結果,跟一個小時以后再輸入同樣的關鍵字得到的結果,很可能已經不一樣了。因為它已經把一個小時內全球所有的點擊重新計算了一遍,然后把信息做了結果優化再反饋給你。