大數據分析跟傳統的數據分析,到底有什么區別?可能很多人覺得大數據分析非常神秘,但其實大數據分析并沒有那么神秘。
第一、現在的大數據分析,跟傳統意義的分析有一個本質區別,就是傳統的分析是基于結構化、關系性的數據。而且往往是取一個很小的數據集,來對整個數據進行預測和判斷。但現在是大數據時代,理念已經完全改變了,現在的大數據分析,是對整個數據全集直接進行存儲和管理分析。
第二、以前的分析是小樣本分析,所以往往要用小樣本來預測整個數據全集的特性,這就決定了所采集的小樣本必須是高品質的,否則預測出來的結果就會出現很大偏差。現在的大數據分析,是對數據全集的分析,所以要對數據的一些噪音有一定的包容性。
第三、原先傳統的數據分析,是根據小樣本數據的分析對全局數據進行分析和預測。所以在整個預測分析過程中往往采用因果關系的推理過程。現在的大數據分析,因果關系并不是關注點,而是基于對整個數據全集的分析。對企業來說需要了解的是,關聯性的分析和規律性的特性。比如啤酒往往跟尿布的銷售同步上升,那么在大數據的分析下,我們不需要了解為什么啤酒和尿布的銷售量會同步增長,只需要知道尿布和啤酒是同步上升就可以了,基于這個結果,就可以制定很多商業策略和營銷手段。
第四、現在的數據往往是海量的,特別是很多新興的數據,很具有時效性,打破了原先數據先搜集、清洗、存儲、然后進行分析的滯后手段。很多分析的需求往往是實時的,需要邊采集,邊分析,這也是大數據分析的另一大特性。
[page]
早在中學階段,統計學就告訴我們一個事實:數據是不會說謊的,大量的統計數據經過整理建模,可以最直觀地反映真實的情況。近幾年來,大數據技術在各領域取得的成功也為這一事實提供了最佳的佐證。不過,最近普林斯頓大學和社交軟件老大facebook之間的互掐事件,也說明了另一個事實:數據分析有時候也是會出問題的。
普林斯頓奇怪研究惹毛facebook
上個月底,美國普林斯頓大學發表了一篇十分有料的研究報告,報告上稱,按照普林斯頓研究人員的統計和計算,目前的社交網站龍頭老大facebook在三年內將會流失百分之八十的用戶,面臨關門大吉的境地。這份報告寫得十分正式,一點也不像惡搞的玩笑,經過各大媒體的瘋狂轉載,facebook終于怒了,幾天之后facebook的數據科學家們也發表了一份研究報告,用和普林斯頓研究員一樣的數學模型和數據獲取渠道,得到了更聳人聽聞的分析結果:普林斯頓大學學生將在2018年減少一半,到2021年將失去所有學生。
很明顯,facebook和普林斯頓的互掐在業界已經成了一個段子,他們的分析結果顯然都是不靠譜的,但是他們所用的方法,卻是實實在在的大數據技術和嚴謹的數學模型,難道,數據真的會說謊嗎?
分析算法和數據渠道選用不當,數據確實會說謊
之所以普林斯頓和facebook的研究報告會得出那樣離譜的結果,主要原因在于他們獲取數據的渠道以及分析數據所用的算法模型不當,在數據分析中,只要這兩個東西錯了,數據一定會“說謊”。
研究報告中,普林斯頓和facebook用于分析對方的模型都是“流行病學模型”,這個模型一般被用于預測某種傳染性疾病從爆發到消失的時間及規模,初步看來,普林斯頓大學和facebook的使用人群都符合“未感染”、“感染中”、“已痊愈”的三類劃分,與流行病模型確實有相似之處,但仔細一想卻經不起推敲,因為流行病會受到藥物及人體自身免疫系統的抵抗而消失,但facebook和普林斯頓大學卻不會,相反,社交軟件和高等學府是人們需要的東西。
除了分析模型選用錯誤,普林斯頓大學在獲取數據的渠道上,也存在選擇不當的問題,研究人員在統計facebook的使用度時,依靠的是谷歌上“facebook”詞條的搜索數量,并且由“facebook”詞條的搜索頻率越來越低就判斷出facebook正在流失用戶,這是非常武斷的。因為隨著移動技術的發展,越來越多的人會通過客戶端而不是網頁來登錄facebook,在這種趨勢下,谷歌上“fcebook”詞條的搜索頻率必然會越來越低,但這并不代表它的用戶數量也在減少。
普林斯頓和facebook的段子我們可以一笑而過,在數據分析時,準確選用分析模型及數據來源的重要性由此也可見一斑,不然數據真說起謊來,可是一點也不好笑。