大數(shù)據(jù)分析中的“眼見為實(shí)”

責(zé)任編輯：zsheng |來源：企業(yè)網(wǎng)D1Net 2018-09-11 11:06:21 本文摘自：IT168

在大數(shù)據(jù)分析中，有很多的“眼見為實(shí)”，這里的意思是通過一定的數(shù)學(xué)方法給出了量化的值，我們認(rèn)為這個(gè)數(shù)學(xué)方法是沒錯(cuò)的，計(jì)算值的方式是沒錯(cuò)的，則我們認(rèn)為這個(gè)值就代表了“真相”。但是事實(shí)真的是這樣嗎?

空說太枯燥了，舉幾個(gè)栗子：

1.1分析出來的真的是根因嗎?

使用大數(shù)據(jù)分析一個(gè)重要的使命就是發(fā)現(xiàn)事物的內(nèi)在關(guān)聯(lián)，其中一個(gè)應(yīng)用就是進(jìn)行根因分析，盡管我認(rèn)為，在未來的社會(huì)知道是什么比知道為什么更加重要，但是現(xiàn)在仍然還是因果關(guān)系主導(dǎo)的世界，我們總是嘗試用大數(shù)據(jù)來分析問題出現(xiàn)時(shí)的根因。

這里面有個(gè)問題，在沒有人工經(jīng)驗(yàn)的情況下，你分析出來的根因有可能只是一個(gè)現(xiàn)象級的規(guī)律甚至是一個(gè)反向的因果。

比如，想知道太陽每天早上升起的原因，分析如下：

1.太陽每天早上都會(huì)升起。

2.公雞每天早上都會(huì)打鳴。

3.假如你不知道太陽升起和公雞打鳴的科學(xué)原理，你是不是會(huì)得到結(jié)論：公雞是太陽升起的根因?

這里有一個(gè)不是辦法的辦法是，加入工程經(jīng)驗(yàn)的分析判斷，這里就是純粹的數(shù)據(jù)分析工程師和我們提倡的全棧算法工程師的其中一點(diǎn)差別，也是門檻所在。

1.2相關(guān)系數(shù)真的靠得住嗎?

相關(guān)系數(shù)，往往用來衡量兩個(gè)變量之間相關(guān)性高低，我們先看下經(jīng)典的皮爾遜相關(guān)系數(shù)的定義：

這是衡量線性相關(guān)性的經(jīng)典公式，但是，變量之間是非線性的呢?

舉個(gè)栗子，下圖中溫度和冰激凌銷量幾乎為0，你能說兩者沒有相關(guān)性嗎?

真實(shí)世界中很少有線性關(guān)系，大多數(shù)的都是非線性關(guān)系，比如GDP增長與時(shí)間的關(guān)系、收入與幸福的關(guān)系等等，都是呈現(xiàn)log的曲線形狀，用相關(guān)系數(shù)來衡量，會(huì)發(fā)現(xiàn)呈現(xiàn)弱相關(guān)。

這里有幾個(gè)辦法：

1.數(shù)據(jù)可視化觀察。畫出圖來，實(shí)際分析一下，是否與得到的量化值是一致的?如上述的例子，實(shí)際通過圖來分析就知道，實(shí)際是非線性相關(guān)。這也是數(shù)據(jù)分析領(lǐng)域很重要的一塊內(nèi)容：數(shù)據(jù)可視化。

2.偏相關(guān)。原理類似于求偏導(dǎo)數(shù)，基本思路是固定其他維度來分析當(dāng)前維度與目標(biāo)的相關(guān)性。網(wǎng)絡(luò)規(guī)劃優(yōu)化中絕大部分都是屬于這種情況，比如，分析宏觀的吞吐率和用戶數(shù)的關(guān)系，需要在覆蓋、干擾、用戶行為一致或者差不多的情況下來分析，這也是網(wǎng)絡(luò)規(guī)劃優(yōu)化難的地方。

再回到剛才溫度和冰激凌的例子，高于35度，冰激凌銷量和溫度是負(fù)相關(guān)，可能是有其他因素沒有考慮到，比如：溫度過高大家都不出門了，選擇在家里避暑，而冰激凌本身也不適合網(wǎng)購，從而影響冰激凌銷量。如果用偏相關(guān)的方法做，那就是要分析在出門次數(shù)這個(gè)特征差不多的情況下，分析冰激凌銷量和溫度的關(guān)系。

1.3數(shù)據(jù)的分布真的有那么重要嗎?

非常重要!

過于重視算法本身而忽略數(shù)據(jù)本身是錯(cuò)誤的，數(shù)據(jù)處理和分析這個(gè)過程在大數(shù)據(jù)建模的過程中耗時(shí)至少要達(dá)到一半及以上。

還是舉幾個(gè)栗子：

第一個(gè)栗子，還是剛才聊的相關(guān)系數(shù)：

按照相關(guān)系數(shù)計(jì)算公式，x和y的相關(guān)系數(shù)比較高，原因是因?yàn)橐粋€(gè)異常點(diǎn)的存在，如果去除掉這個(gè)異常值，則x和y沒有相關(guān)性可言。但如果沒有進(jìn)行數(shù)據(jù)分布的分析(可以參考離群點(diǎn)檢測的一些方法，這里不展開)，則認(rèn)為x和y是強(qiáng)相關(guān)了。

第二個(gè)栗子，分類：

假如你通過某種算法得到了一種模型進(jìn)行分類，分類準(zhǔn)確率有80%。

假設(shè)檢驗(yàn)樣本的分布是下圖，那么80%的分類準(zhǔn)確性還是比較理想的。

也就是說，我的模型隨便蒙一個(gè)，比如，無論檢驗(yàn)樣本是什么，我都認(rèn)為樣本是藍(lán)色的，這樣模型的分類準(zhǔn)確性也在80%以上。

這只是個(gè)例子，真實(shí)的網(wǎng)絡(luò)中進(jìn)行目標(biāo)和特征的回歸有很多這樣的現(xiàn)象，需要做一些額外的樣本平衡的處理，平衡樣本處理是一塊單獨(dú)的內(nèi)容，簡單描述一下，主要是兩個(gè)大類。

1、過采樣。過采樣的原理是將樣本較少的一類的樣本數(shù)目填充起來，填充的辦法很多，最簡單的就是重復(fù)采樣，高級一點(diǎn)的就是通過一定的衡量準(zhǔn)則(如距離)利用幾個(gè)樣本生成新的樣本(如距離平均)。

2、欠采樣。欠采樣是對樣本較多的一類的樣本數(shù)目通過采樣的方法降低，采樣也有一些方法，最簡單的就是隨機(jī)采樣，高級一點(diǎn)的是根據(jù)一定衡量準(zhǔn)則(如信息熵)來采樣。

另外還有一整套的分析模型的方法，如回歸診斷，在里面可以對數(shù)據(jù)進(jìn)行很多分析，如正態(tài)性、獨(dú)立性、線性、同方差性等等，這些都是后續(xù)分析和建模最基礎(chǔ)的，這里不展開描述，有機(jī)會(huì)可以單獨(dú)寫寫。

順便說一下，大數(shù)據(jù)的建模最后的公式可能只有一個(gè)，但是得到這個(gè)公式需要大量的嘗試、觀察、分析。那個(gè)很經(jīng)典的例子，福特的流水線出問題，斯坦門茨畫了一條線解決了這個(gè)問題，開價(jià)10萬美元，看結(jié)果貌似很簡單，但是背后是支撐他畫這條線的技能儲備，這個(gè)儲備價(jià)值99999美元。

想了解大數(shù)據(jù)分析的更多知識嗎?10月10日-12日在上海世博展覽中心舉行的華為全聯(lián)接大會(huì)將有多場大數(shù)據(jù)分論壇滿足你的需要。趁現(xiàn)在，最低單日票價(jià)只要150，快來點(diǎn)擊華為官網(wǎng)售票頁面，開啟未來通道吧!

關(guān)鍵字：數(shù)據(jù)分析