精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當(dāng)前位置:大數(shù)據(jù)業(yè)界動(dòng)態(tài) → 正文

大數(shù)據(jù),多大算大?

責(zé)任編輯:editor006 |來源:企業(yè)網(wǎng)D1Net  2017-06-06 17:17:59 本文摘自:www.yidianzixun.com

大數(shù)據(jù),多大算大?”——這是一個(gè)經(jīng)常被問到的問題。

這不是一個(gè)經(jīng)濟(jì)學(xué)問題,也不是一個(gè)數(shù)學(xué)問題,而是需要具體情況具體分析的一個(gè)實(shí)驗(yàn)問題。然而,實(shí)驗(yàn)需要工具。

首先,這取決于目標(biāo)。如果沒有明確的目標(biāo),數(shù)據(jù)常常被籠統(tǒng)地認(rèn)為有用。然而,實(shí)際并非如此。互聯(lián)網(wǎng)每天都產(chǎn)生大量數(shù)據(jù),但其中大部分?jǐn)?shù)據(jù)是噪音,不僅沒有用,還需要被化療掉。當(dāng)我們設(shè)定好一個(gè)可以量化的目標(biāo)變量,算法才可以用科學(xué)的方式量化評(píng)估數(shù)據(jù)價(jià)值。

其次,我們需要工具,可以自動(dòng)化跑通建模全流程,從而評(píng)估效果。這在機(jī)器學(xué)習(xí)技術(shù)——有監(jiān)督學(xué)習(xí)中有詳細(xì)介紹。在分類問題中,量化效果的指標(biāo)包括:AUC, KS, Accuracy, Precision, Recall, F1 measure;在回歸問題中,量化效果的指標(biāo)包括:RMSE, RMSLE, MAE, Gini。也就是說,當(dāng)我們明確目標(biāo)后,把數(shù)據(jù)丟給工具,工具告訴我們:用這份數(shù)據(jù)建模,效果是多少。

當(dāng)我們有了目標(biāo)和工具,我們便可以評(píng)估樣本大小和數(shù)據(jù)價(jià)值的關(guān)系了。我們可以把數(shù)據(jù)進(jìn)行分割,一份用于訓(xùn)練模型(訓(xùn)練數(shù)據(jù)),一份用于測試效果。對于訓(xùn)練數(shù)據(jù),我們可以再隨機(jī)均分為N份,基于部分訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)測并計(jì)算效果。然后,我們便可以評(píng)估訓(xùn)練樣本大小和模型效果之間的關(guān)系。不僅如此,我們還可以由此推斷,什么類型的樣本最有價(jià)值。

不是所有特征(變量)都有用,有用的特征往往并不多。建模工具同時(shí)還可以提供——哪些特征有用,權(quán)重分別是多少,詳見機(jī)器學(xué)習(xí)技術(shù)——有監(jiān)督學(xué)習(xí)。基于機(jī)器學(xué)習(xí)算法選擇的變量和對應(yīng)權(quán)重,我們可以進(jìn)一步進(jìn)行關(guān)聯(lián),找到和有用變量相關(guān)的其他潛在變量。

“大數(shù)據(jù),多大算大?”這是一個(gè)簡單的問題,如果你有工具。你丟給工具一份數(shù)據(jù),工具告訴你:

1.這份數(shù)據(jù)的效果有多好?

2.樣本大小與數(shù)據(jù)效果的關(guān)系?

3.什么樣本最有用?

4.什么特征最有用?

如此,你便可以繼續(xù)收集和重要樣本類似的樣本,繼續(xù)提取和重要變量相關(guān)的變量。

如果我們可以輕而易舉地知道什么數(shù)據(jù)有用,那么,大數(shù)據(jù),多大都不算大。

關(guān)鍵字:訓(xùn)練模型數(shù)據(jù)建模

本文摘自:www.yidianzixun.com

x 大數(shù)據(jù),多大算大? 掃一掃
分享本文到朋友圈
當(dāng)前位置:大數(shù)據(jù)業(yè)界動(dòng)態(tài) → 正文

大數(shù)據(jù),多大算大?

責(zé)任編輯:editor006 |來源:企業(yè)網(wǎng)D1Net  2017-06-06 17:17:59 本文摘自:www.yidianzixun.com

大數(shù)據(jù),多大算大?”——這是一個(gè)經(jīng)常被問到的問題。

這不是一個(gè)經(jīng)濟(jì)學(xué)問題,也不是一個(gè)數(shù)學(xué)問題,而是需要具體情況具體分析的一個(gè)實(shí)驗(yàn)問題。然而,實(shí)驗(yàn)需要工具。

首先,這取決于目標(biāo)。如果沒有明確的目標(biāo),數(shù)據(jù)常常被籠統(tǒng)地認(rèn)為有用。然而,實(shí)際并非如此。互聯(lián)網(wǎng)每天都產(chǎn)生大量數(shù)據(jù),但其中大部分?jǐn)?shù)據(jù)是噪音,不僅沒有用,還需要被化療掉。當(dāng)我們設(shè)定好一個(gè)可以量化的目標(biāo)變量,算法才可以用科學(xué)的方式量化評(píng)估數(shù)據(jù)價(jià)值。

其次,我們需要工具,可以自動(dòng)化跑通建模全流程,從而評(píng)估效果。這在機(jī)器學(xué)習(xí)技術(shù)——有監(jiān)督學(xué)習(xí)中有詳細(xì)介紹。在分類問題中,量化效果的指標(biāo)包括:AUC, KS, Accuracy, Precision, Recall, F1 measure;在回歸問題中,量化效果的指標(biāo)包括:RMSE, RMSLE, MAE, Gini。也就是說,當(dāng)我們明確目標(biāo)后,把數(shù)據(jù)丟給工具,工具告訴我們:用這份數(shù)據(jù)建模,效果是多少。

當(dāng)我們有了目標(biāo)和工具,我們便可以評(píng)估樣本大小和數(shù)據(jù)價(jià)值的關(guān)系了。我們可以把數(shù)據(jù)進(jìn)行分割,一份用于訓(xùn)練模型(訓(xùn)練數(shù)據(jù)),一份用于測試效果。對于訓(xùn)練數(shù)據(jù),我們可以再隨機(jī)均分為N份,基于部分訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)測并計(jì)算效果。然后,我們便可以評(píng)估訓(xùn)練樣本大小和模型效果之間的關(guān)系。不僅如此,我們還可以由此推斷,什么類型的樣本最有價(jià)值。

不是所有特征(變量)都有用,有用的特征往往并不多。建模工具同時(shí)還可以提供——哪些特征有用,權(quán)重分別是多少,詳見機(jī)器學(xué)習(xí)技術(shù)——有監(jiān)督學(xué)習(xí)。基于機(jī)器學(xué)習(xí)算法選擇的變量和對應(yīng)權(quán)重,我們可以進(jìn)一步進(jìn)行關(guān)聯(lián),找到和有用變量相關(guān)的其他潛在變量。

“大數(shù)據(jù),多大算大?”這是一個(gè)簡單的問題,如果你有工具。你丟給工具一份數(shù)據(jù),工具告訴你:

1.這份數(shù)據(jù)的效果有多好?

2.樣本大小與數(shù)據(jù)效果的關(guān)系?

3.什么樣本最有用?

4.什么特征最有用?

如此,你便可以繼續(xù)收集和重要樣本類似的樣本,繼續(xù)提取和重要變量相關(guān)的變量。

如果我們可以輕而易舉地知道什么數(shù)據(jù)有用,那么,大數(shù)據(jù),多大都不算大。

關(guān)鍵字:訓(xùn)練模型數(shù)據(jù)建模

本文摘自:www.yidianzixun.com

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號(hào)-6 京公網(wǎng)安備 11010502049343號(hào)

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 化州市| 永福县| 昔阳县| 蓬溪县| 常德市| 镶黄旗| 安徽省| 上饶县| 洪江市| 博兴县| 五河县| 嘉义市| 襄城县| 陈巴尔虎旗| 衡山县| 邓州市| 呼图壁县| 乐至县| 阳春市| 柞水县| 石楼县| 建瓯市| 茶陵县| 全州县| 九龙坡区| 永寿县| 黎平县| 巫溪县| 三明市| 莱芜市| 赤峰市| 西充县| 灌云县| 合阳县| 芜湖县| 平罗县| 乌海市| 青田县| 吉首市| 华容县| 东方市|