精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:大數(shù)據(jù)業(yè)界動(dòng)態(tài) → 正文

大數(shù)據(jù)分析中的“眼見為實(shí)”

責(zé)任編輯:zsheng |來源:企業(yè)網(wǎng)D1Net  2018-09-11 11:06:21 本文摘自:IT168

在大數(shù)據(jù)分析中,有很多的“眼見為實(shí)”,這里的意思是通過一定的數(shù)學(xué)方法給出了量化的值,我們認(rèn)為這個(gè)數(shù)學(xué)方法是沒錯(cuò)的,計(jì)算值的方式是沒錯(cuò)的,則我們認(rèn)為這個(gè)值就代表了“真相”。但是事實(shí)真的是這樣嗎?

空說太枯燥了,舉幾個(gè)栗子:

1.1分析出來的真的是根因嗎?

使用大數(shù)據(jù)分析一個(gè)重要的使命就是發(fā)現(xiàn)事物的內(nèi)在關(guān)聯(lián),其中一個(gè)應(yīng)用就是進(jìn)行根因分析,盡管我認(rèn)為,在未來的社會(huì)知道是什么比知道為什么更加重要,但是現(xiàn)在仍然還是因果關(guān)系主導(dǎo)的世界,我們總是嘗試用大數(shù)據(jù)來分析問題出現(xiàn)時(shí)的根因。

這里面有個(gè)問題,在沒有人工經(jīng)驗(yàn)的情況下,你分析出來的根因有可能只是一個(gè)現(xiàn)象級的規(guī)律甚至是一個(gè)反向的因果。

比如,想知道太陽每天早上升起的原因,分析如下:

1.太陽每天早上都會(huì)升起。

2.公雞每天早上都會(huì)打鳴。

3.假如你不知道太陽升起和公雞打鳴的科學(xué)原理,你是不是會(huì)得到結(jié)論:公雞是太陽升起的根因?

這里有一個(gè)不是辦法的辦法是,加入工程經(jīng)驗(yàn)的分析判斷,這里就是純粹的數(shù)據(jù)分析工程師和我們提倡的全棧算法工程師的其中一點(diǎn)差別,也是門檻所在。

1.2相關(guān)系數(shù)真的靠得住嗎?

相關(guān)系數(shù),往往用來衡量兩個(gè)變量之間相關(guān)性高低,我們先看下經(jīng)典的皮爾遜相關(guān)系數(shù)的定義:

這是衡量線性相關(guān)性的經(jīng)典公式,但是,變量之間是非線性的呢?

舉個(gè)栗子,下圖中溫度和冰激凌銷量幾乎為0,你能說兩者沒有相關(guān)性嗎?

真實(shí)世界中很少有線性關(guān)系,大多數(shù)的都是非線性關(guān)系,比如GDP增長與時(shí)間的關(guān)系、收入與幸福的關(guān)系等等,都是呈現(xiàn)log的曲線形狀,用相關(guān)系數(shù)來衡量,會(huì)發(fā)現(xiàn)呈現(xiàn)弱相關(guān)。

這里有幾個(gè)辦法:

1.數(shù)據(jù)可視化觀察。畫出圖來,實(shí)際分析一下,是否與得到的量化值是一致的?如上述的例子,實(shí)際通過圖來分析就知道,實(shí)際是非線性相關(guān)。這也是數(shù)據(jù)分析領(lǐng)域很重要的一塊內(nèi)容:數(shù)據(jù)可視化。

2.偏相關(guān)。原理類似于求偏導(dǎo)數(shù),基本思路是固定其他維度來分析當(dāng)前維度與目標(biāo)的相關(guān)性。網(wǎng)絡(luò)規(guī)劃優(yōu)化中絕大部分都是屬于這種情況,比如,分析宏觀的吞吐率和用戶數(shù)的關(guān)系,需要在覆蓋、干擾、用戶行為一致或者差不多的情況下來分析,這也是網(wǎng)絡(luò)規(guī)劃優(yōu)化難的地方。

再回到剛才溫度和冰激凌的例子,高于35度,冰激凌銷量和溫度是負(fù)相關(guān),可能是有其他因素沒有考慮到,比如:溫度過高大家都不出門了,選擇在家里避暑,而冰激凌本身也不適合網(wǎng)購,從而影響冰激凌銷量。如果用偏相關(guān)的方法做,那就是要分析在出門次數(shù)這個(gè)特征差不多的情況下,分析冰激凌銷量和溫度的關(guān)系。

1.3數(shù)據(jù)的分布真的有那么重要嗎?

非常重要!

過于重視算法本身而忽略數(shù)據(jù)本身是錯(cuò)誤的,數(shù)據(jù)處理和分析這個(gè)過程在大數(shù)據(jù)建模的過程中耗時(shí)至少要達(dá)到一半及以上。

還是舉幾個(gè)栗子:

第一個(gè)栗子,還是剛才聊的相關(guān)系數(shù):

按照相關(guān)系數(shù)計(jì)算公式,x和y的相關(guān)系數(shù)比較高,原因是因?yàn)橐粋€(gè)異常點(diǎn)的存在,如果去除掉這個(gè)異常值,則x和y沒有相關(guān)性可言。但如果沒有進(jìn)行數(shù)據(jù)分布的分析(可以參考離群點(diǎn)檢測的一些方法,這里不展開),則認(rèn)為x和y是強(qiáng)相關(guān)了。

第二個(gè)栗子,分類:

假如你通過某種算法得到了一種模型進(jìn)行分類,分類準(zhǔn)確率有80%。

假設(shè)檢驗(yàn)樣本的分布是下圖,那么80%的分類準(zhǔn)確性還是比較理想的。

也就是說,我的模型隨便蒙一個(gè),比如,無論檢驗(yàn)樣本是什么,我都認(rèn)為樣本是藍(lán)色的,這樣模型的分類準(zhǔn)確性也在80%以上。

這只是個(gè)例子,真實(shí)的網(wǎng)絡(luò)中進(jìn)行目標(biāo)和特征的回歸有很多這樣的現(xiàn)象,需要做一些額外的樣本平衡的處理,平衡樣本處理是一塊單獨(dú)的內(nèi)容,簡單描述一下,主要是兩個(gè)大類。

1、過采樣。過采樣的原理是將樣本較少的一類的樣本數(shù)目填充起來,填充的辦法很多,最簡單的就是重復(fù)采樣,高級一點(diǎn)的就是通過一定的衡量準(zhǔn)則(如距離)利用幾個(gè)樣本生成新的樣本(如距離平均)。

2、欠采樣。欠采樣是對樣本較多的一類的樣本數(shù)目通過采樣的方法降低,采樣也有一些方法,最簡單的就是隨機(jī)采樣,高級一點(diǎn)的是根據(jù)一定衡量準(zhǔn)則(如信息熵)來采樣。

另外還有一整套的分析模型的方法,如回歸診斷,在里面可以對數(shù)據(jù)進(jìn)行很多分析,如正態(tài)性、獨(dú)立性、線性、同方差性等等,這些都是后續(xù)分析和建模最基礎(chǔ)的,這里不展開描述,有機(jī)會(huì)可以單獨(dú)寫寫。

順便說一下,大數(shù)據(jù)的建模最后的公式可能只有一個(gè),但是得到這個(gè)公式需要大量的嘗試、觀察、分析。那個(gè)很經(jīng)典的例子,福特的流水線出問題,斯坦門茨畫了一條線解決了這個(gè)問題,開價(jià)10萬美元,看結(jié)果貌似很簡單,但是背后是支撐他畫這條線的技能儲備,這個(gè)儲備價(jià)值99999美元。

想了解大數(shù)據(jù)分析的更多知識嗎?10月10日-12日在上海世博展覽中心舉行的華為全聯(lián)接大會(huì)將有多場大數(shù)據(jù)分論壇滿足你的需要。趁現(xiàn)在,最低單日票價(jià)只要150,快來點(diǎn)擊華為官網(wǎng)售票頁面,開啟未來通道吧!

關(guān)鍵字:數(shù)據(jù)分析

本文摘自:IT168

x 大數(shù)據(jù)分析中的“眼見為實(shí)” 掃一掃
分享本文到朋友圈
當(dāng)前位置:大數(shù)據(jù)業(yè)界動(dòng)態(tài) → 正文

大數(shù)據(jù)分析中的“眼見為實(shí)”

責(zé)任編輯:zsheng |來源:企業(yè)網(wǎng)D1Net  2018-09-11 11:06:21 本文摘自:IT168

在大數(shù)據(jù)分析中,有很多的“眼見為實(shí)”,這里的意思是通過一定的數(shù)學(xué)方法給出了量化的值,我們認(rèn)為這個(gè)數(shù)學(xué)方法是沒錯(cuò)的,計(jì)算值的方式是沒錯(cuò)的,則我們認(rèn)為這個(gè)值就代表了“真相”。但是事實(shí)真的是這樣嗎?

空說太枯燥了,舉幾個(gè)栗子:

1.1分析出來的真的是根因嗎?

使用大數(shù)據(jù)分析一個(gè)重要的使命就是發(fā)現(xiàn)事物的內(nèi)在關(guān)聯(lián),其中一個(gè)應(yīng)用就是進(jìn)行根因分析,盡管我認(rèn)為,在未來的社會(huì)知道是什么比知道為什么更加重要,但是現(xiàn)在仍然還是因果關(guān)系主導(dǎo)的世界,我們總是嘗試用大數(shù)據(jù)來分析問題出現(xiàn)時(shí)的根因。

這里面有個(gè)問題,在沒有人工經(jīng)驗(yàn)的情況下,你分析出來的根因有可能只是一個(gè)現(xiàn)象級的規(guī)律甚至是一個(gè)反向的因果。

比如,想知道太陽每天早上升起的原因,分析如下:

1.太陽每天早上都會(huì)升起。

2.公雞每天早上都會(huì)打鳴。

3.假如你不知道太陽升起和公雞打鳴的科學(xué)原理,你是不是會(huì)得到結(jié)論:公雞是太陽升起的根因?

這里有一個(gè)不是辦法的辦法是,加入工程經(jīng)驗(yàn)的分析判斷,這里就是純粹的數(shù)據(jù)分析工程師和我們提倡的全棧算法工程師的其中一點(diǎn)差別,也是門檻所在。

1.2相關(guān)系數(shù)真的靠得住嗎?

相關(guān)系數(shù),往往用來衡量兩個(gè)變量之間相關(guān)性高低,我們先看下經(jīng)典的皮爾遜相關(guān)系數(shù)的定義:

這是衡量線性相關(guān)性的經(jīng)典公式,但是,變量之間是非線性的呢?

舉個(gè)栗子,下圖中溫度和冰激凌銷量幾乎為0,你能說兩者沒有相關(guān)性嗎?

真實(shí)世界中很少有線性關(guān)系,大多數(shù)的都是非線性關(guān)系,比如GDP增長與時(shí)間的關(guān)系、收入與幸福的關(guān)系等等,都是呈現(xiàn)log的曲線形狀,用相關(guān)系數(shù)來衡量,會(huì)發(fā)現(xiàn)呈現(xiàn)弱相關(guān)。

這里有幾個(gè)辦法:

1.數(shù)據(jù)可視化觀察。畫出圖來,實(shí)際分析一下,是否與得到的量化值是一致的?如上述的例子,實(shí)際通過圖來分析就知道,實(shí)際是非線性相關(guān)。這也是數(shù)據(jù)分析領(lǐng)域很重要的一塊內(nèi)容:數(shù)據(jù)可視化。

2.偏相關(guān)。原理類似于求偏導(dǎo)數(shù),基本思路是固定其他維度來分析當(dāng)前維度與目標(biāo)的相關(guān)性。網(wǎng)絡(luò)規(guī)劃優(yōu)化中絕大部分都是屬于這種情況,比如,分析宏觀的吞吐率和用戶數(shù)的關(guān)系,需要在覆蓋、干擾、用戶行為一致或者差不多的情況下來分析,這也是網(wǎng)絡(luò)規(guī)劃優(yōu)化難的地方。

再回到剛才溫度和冰激凌的例子,高于35度,冰激凌銷量和溫度是負(fù)相關(guān),可能是有其他因素沒有考慮到,比如:溫度過高大家都不出門了,選擇在家里避暑,而冰激凌本身也不適合網(wǎng)購,從而影響冰激凌銷量。如果用偏相關(guān)的方法做,那就是要分析在出門次數(shù)這個(gè)特征差不多的情況下,分析冰激凌銷量和溫度的關(guān)系。

1.3數(shù)據(jù)的分布真的有那么重要嗎?

非常重要!

過于重視算法本身而忽略數(shù)據(jù)本身是錯(cuò)誤的,數(shù)據(jù)處理和分析這個(gè)過程在大數(shù)據(jù)建模的過程中耗時(shí)至少要達(dá)到一半及以上。

還是舉幾個(gè)栗子:

第一個(gè)栗子,還是剛才聊的相關(guān)系數(shù):

按照相關(guān)系數(shù)計(jì)算公式,x和y的相關(guān)系數(shù)比較高,原因是因?yàn)橐粋€(gè)異常點(diǎn)的存在,如果去除掉這個(gè)異常值,則x和y沒有相關(guān)性可言。但如果沒有進(jìn)行數(shù)據(jù)分布的分析(可以參考離群點(diǎn)檢測的一些方法,這里不展開),則認(rèn)為x和y是強(qiáng)相關(guān)了。

第二個(gè)栗子,分類:

假如你通過某種算法得到了一種模型進(jìn)行分類,分類準(zhǔn)確率有80%。

假設(shè)檢驗(yàn)樣本的分布是下圖,那么80%的分類準(zhǔn)確性還是比較理想的。

也就是說,我的模型隨便蒙一個(gè),比如,無論檢驗(yàn)樣本是什么,我都認(rèn)為樣本是藍(lán)色的,這樣模型的分類準(zhǔn)確性也在80%以上。

這只是個(gè)例子,真實(shí)的網(wǎng)絡(luò)中進(jìn)行目標(biāo)和特征的回歸有很多這樣的現(xiàn)象,需要做一些額外的樣本平衡的處理,平衡樣本處理是一塊單獨(dú)的內(nèi)容,簡單描述一下,主要是兩個(gè)大類。

1、過采樣。過采樣的原理是將樣本較少的一類的樣本數(shù)目填充起來,填充的辦法很多,最簡單的就是重復(fù)采樣,高級一點(diǎn)的就是通過一定的衡量準(zhǔn)則(如距離)利用幾個(gè)樣本生成新的樣本(如距離平均)。

2、欠采樣。欠采樣是對樣本較多的一類的樣本數(shù)目通過采樣的方法降低,采樣也有一些方法,最簡單的就是隨機(jī)采樣,高級一點(diǎn)的是根據(jù)一定衡量準(zhǔn)則(如信息熵)來采樣。

另外還有一整套的分析模型的方法,如回歸診斷,在里面可以對數(shù)據(jù)進(jìn)行很多分析,如正態(tài)性、獨(dú)立性、線性、同方差性等等,這些都是后續(xù)分析和建模最基礎(chǔ)的,這里不展開描述,有機(jī)會(huì)可以單獨(dú)寫寫。

順便說一下,大數(shù)據(jù)的建模最后的公式可能只有一個(gè),但是得到這個(gè)公式需要大量的嘗試、觀察、分析。那個(gè)很經(jīng)典的例子,福特的流水線出問題,斯坦門茨畫了一條線解決了這個(gè)問題,開價(jià)10萬美元,看結(jié)果貌似很簡單,但是背后是支撐他畫這條線的技能儲備,這個(gè)儲備價(jià)值99999美元。

想了解大數(shù)據(jù)分析的更多知識嗎?10月10日-12日在上海世博展覽中心舉行的華為全聯(lián)接大會(huì)將有多場大數(shù)據(jù)分論壇滿足你的需要。趁現(xiàn)在,最低單日票價(jià)只要150,快來點(diǎn)擊華為官網(wǎng)售票頁面,開啟未來通道吧!

關(guān)鍵字:數(shù)據(jù)分析

本文摘自:IT168

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號-6 京公網(wǎng)安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 双峰县| 黄石市| 德庆县| 蓬莱市| 卢龙县| 屯昌县| 蒲江县| 马山县| 寿光市| 浑源县| 太原市| 资兴市| 鄂托克前旗| 老河口市| 镶黄旗| 洮南市| 沁阳市| 和田市| 浦东新区| 宜都市| 泸溪县| 蓬莱市| 浦江县| 团风县| 乐山市| 城固县| 花垣县| 芜湖县| 晋中市| 红河县| 襄樊市| 广宁县| 正定县| 越西县| 永安市| 盐津县| 冕宁县| 沽源县| 额济纳旗| 吴江市| 福清市|