空說太枯燥了,舉幾個(gè)栗子:
1.1分析出來的真的是根因嗎?
使用大數(shù)據(jù)分析一個(gè)重要的使命就是發(fā)現(xiàn)事物的內(nèi)在關(guān)聯(lián),其中一個(gè)應(yīng)用就是進(jìn)行根因分析,盡管我認(rèn)為,在未來的社會(huì)知道是什么比知道為什么更加重要,但是現(xiàn)在仍然還是因果關(guān)系主導(dǎo)的世界,我們總是嘗試用大數(shù)據(jù)來分析問題出現(xiàn)時(shí)的根因。
這里面有個(gè)問題,在沒有人工經(jīng)驗(yàn)的情況下,你分析出來的根因有可能只是一個(gè)現(xiàn)象級的規(guī)律甚至是一個(gè)反向的因果。
比如,想知道太陽每天早上升起的原因,分析如下:
1.太陽每天早上都會(huì)升起。
2.公雞每天早上都會(huì)打鳴。
3.假如你不知道太陽升起和公雞打鳴的科學(xué)原理,你是不是會(huì)得到結(jié)論:公雞是太陽升起的根因?
這里有一個(gè)不是辦法的辦法是,加入工程經(jīng)驗(yàn)的分析判斷,這里就是純粹的數(shù)據(jù)分析工程師和我們提倡的全棧算法工程師的其中一點(diǎn)差別,也是門檻所在。
1.2相關(guān)系數(shù)真的靠得住嗎?
相關(guān)系數(shù),往往用來衡量兩個(gè)變量之間相關(guān)性高低,我們先看下經(jīng)典的皮爾遜相關(guān)系數(shù)的定義:
這是衡量線性相關(guān)性的經(jīng)典公式,但是,變量之間是非線性的呢?
舉個(gè)栗子,下圖中溫度和冰激凌銷量幾乎為0,你能說兩者沒有相關(guān)性嗎?
真實(shí)世界中很少有線性關(guān)系,大多數(shù)的都是非線性關(guān)系,比如GDP增長與時(shí)間的關(guān)系、收入與幸福的關(guān)系等等,都是呈現(xiàn)log的曲線形狀,用相關(guān)系數(shù)來衡量,會(huì)發(fā)現(xiàn)呈現(xiàn)弱相關(guān)。
這里有幾個(gè)辦法:
1.數(shù)據(jù)可視化觀察。畫出圖來,實(shí)際分析一下,是否與得到的量化值是一致的?如上述的例子,實(shí)際通過圖來分析就知道,實(shí)際是非線性相關(guān)。這也是數(shù)據(jù)分析領(lǐng)域很重要的一塊內(nèi)容:數(shù)據(jù)可視化。
2.偏相關(guān)。原理類似于求偏導(dǎo)數(shù),基本思路是固定其他維度來分析當(dāng)前維度與目標(biāo)的相關(guān)性。網(wǎng)絡(luò)規(guī)劃優(yōu)化中絕大部分都是屬于這種情況,比如,分析宏觀的吞吐率和用戶數(shù)的關(guān)系,需要在覆蓋、干擾、用戶行為一致或者差不多的情況下來分析,這也是網(wǎng)絡(luò)規(guī)劃優(yōu)化難的地方。
再回到剛才溫度和冰激凌的例子,高于35度,冰激凌銷量和溫度是負(fù)相關(guān),可能是有其他因素沒有考慮到,比如:溫度過高大家都不出門了,選擇在家里避暑,而冰激凌本身也不適合網(wǎng)購,從而影響冰激凌銷量。如果用偏相關(guān)的方法做,那就是要分析在出門次數(shù)這個(gè)特征差不多的情況下,分析冰激凌銷量和溫度的關(guān)系。
1.3數(shù)據(jù)的分布真的有那么重要嗎?
非常重要!
過于重視算法本身而忽略數(shù)據(jù)本身是錯(cuò)誤的,數(shù)據(jù)處理和分析這個(gè)過程在大數(shù)據(jù)建模的過程中耗時(shí)至少要達(dá)到一半及以上。
還是舉幾個(gè)栗子:
第一個(gè)栗子,還是剛才聊的相關(guān)系數(shù):
按照相關(guān)系數(shù)計(jì)算公式,x和y的相關(guān)系數(shù)比較高,原因是因?yàn)橐粋€(gè)異常點(diǎn)的存在,如果去除掉這個(gè)異常值,則x和y沒有相關(guān)性可言。但如果沒有進(jìn)行數(shù)據(jù)分布的分析(可以參考離群點(diǎn)檢測的一些方法,這里不展開),則認(rèn)為x和y是強(qiáng)相關(guān)了。
第二個(gè)栗子,分類:
假如你通過某種算法得到了一種模型進(jìn)行分類,分類準(zhǔn)確率有80%。
假設(shè)檢驗(yàn)樣本的分布是下圖,那么80%的分類準(zhǔn)確性還是比較理想的。
也就是說,我的模型隨便蒙一個(gè),比如,無論檢驗(yàn)樣本是什么,我都認(rèn)為樣本是藍(lán)色的,這樣模型的分類準(zhǔn)確性也在80%以上。
這只是個(gè)例子,真實(shí)的網(wǎng)絡(luò)中進(jìn)行目標(biāo)和特征的回歸有很多這樣的現(xiàn)象,需要做一些額外的樣本平衡的處理,平衡樣本處理是一塊單獨(dú)的內(nèi)容,簡單描述一下,主要是兩個(gè)大類。
1、過采樣。過采樣的原理是將樣本較少的一類的樣本數(shù)目填充起來,填充的辦法很多,最簡單的就是重復(fù)采樣,高級一點(diǎn)的就是通過一定的衡量準(zhǔn)則(如距離)利用幾個(gè)樣本生成新的樣本(如距離平均)。
2、欠采樣。欠采樣是對樣本較多的一類的樣本數(shù)目通過采樣的方法降低,采樣也有一些方法,最簡單的就是隨機(jī)采樣,高級一點(diǎn)的是根據(jù)一定衡量準(zhǔn)則(如信息熵)來采樣。
另外還有一整套的分析模型的方法,如回歸診斷,在里面可以對數(shù)據(jù)進(jìn)行很多分析,如正態(tài)性、獨(dú)立性、線性、同方差性等等,這些都是后續(xù)分析和建模最基礎(chǔ)的,這里不展開描述,有機(jī)會(huì)可以單獨(dú)寫寫。
順便說一下,大數(shù)據(jù)的建模最后的公式可能只有一個(gè),但是得到這個(gè)公式需要大量的嘗試、觀察、分析。那個(gè)很經(jīng)典的例子,福特的流水線出問題,斯坦門茨畫了一條線解決了這個(gè)問題,開價(jià)10萬美元,看結(jié)果貌似很簡單,但是背后是支撐他畫這條線的技能儲備,這個(gè)儲備價(jià)值99999美元。
想了解大數(shù)據(jù)分析的更多知識嗎?10月10日-12日在上海世博展覽中心舉行的華為全聯(lián)接大會(huì)將有多場大數(shù)據(jù)分論壇滿足你的需要。趁現(xiàn)在,最低單日票價(jià)只要150,快來點(diǎn)擊華為官網(wǎng)售票頁面,開啟未來通道吧!