大數(shù)據(jù)，多大算大？

責(zé)任編輯：editor006 |來源：企業(yè)網(wǎng)D1Net 2017-06-06 17:17:59 本文摘自：www.yidianzixun.com

“大數(shù)據(jù)，多大算大？”——這是一個(gè)經(jīng)常被問到的問題。

這不是一個(gè)經(jīng)濟(jì)學(xué)問題，也不是一個(gè)數(shù)學(xué)問題，而是需要具體情況具體分析的一個(gè)實(shí)驗(yàn)問題。然而，實(shí)驗(yàn)需要工具。

首先，這取決于目標(biāo)。如果沒有明確的目標(biāo)，數(shù)據(jù)常常被籠統(tǒng)地認(rèn)為有用。然而，實(shí)際并非如此。互聯(lián)網(wǎng)每天都產(chǎn)生大量數(shù)據(jù)，但其中大部分?jǐn)?shù)據(jù)是噪音，不僅沒有用，還需要被化療掉。當(dāng)我們設(shè)定好一個(gè)可以量化的目標(biāo)變量，算法才可以用科學(xué)的方式量化評(píng)估數(shù)據(jù)價(jià)值。

其次，我們需要工具，可以自動(dòng)化跑通建模全流程，從而評(píng)估效果。這在機(jī)器學(xué)習(xí)技術(shù)——有監(jiān)督學(xué)習(xí)中有詳細(xì)介紹。在分類問題中，量化效果的指標(biāo)包括：AUC, KS, Accuracy, Precision, Recall, F1 measure；在回歸問題中，量化效果的指標(biāo)包括：RMSE, RMSLE, MAE, Gini。也就是說，當(dāng)我們明確目標(biāo)后，把數(shù)據(jù)丟給工具，工具告訴我們：用這份數(shù)據(jù)建模，效果是多少。

當(dāng)我們有了目標(biāo)和工具，我們便可以評(píng)估樣本大小和數(shù)據(jù)價(jià)值的關(guān)系了。我們可以把數(shù)據(jù)進(jìn)行分割，一份用于訓(xùn)練模型（訓(xùn)練數(shù)據(jù)），一份用于測試效果。對于訓(xùn)練數(shù)據(jù)，我們可以再隨機(jī)均分為N份，基于部分訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)測并計(jì)算效果。然后，我們便可以評(píng)估訓(xùn)練樣本大小和模型效果之間的關(guān)系。不僅如此，我們還可以由此推斷，什么類型的樣本最有價(jià)值。

不是所有特征（變量）都有用，有用的特征往往并不多。建模工具同時(shí)還可以提供——哪些特征有用，權(quán)重分別是多少，詳見機(jī)器學(xué)習(xí)技術(shù)——有監(jiān)督學(xué)習(xí)。基于機(jī)器學(xué)習(xí)算法選擇的變量和對應(yīng)權(quán)重，我們可以進(jìn)一步進(jìn)行關(guān)聯(lián)，找到和有用變量相關(guān)的其他潛在變量。

“大數(shù)據(jù)，多大算大？”這是一個(gè)簡單的問題，如果你有工具。你丟給工具一份數(shù)據(jù)，工具告訴你：

1.這份數(shù)據(jù)的效果有多好？

2.樣本大小與數(shù)據(jù)效果的關(guān)系？

3.什么樣本最有用？

4.什么特征最有用？

如此，你便可以繼續(xù)收集和重要樣本類似的樣本，繼續(xù)提取和重要變量相關(guān)的變量。

如果我們可以輕而易舉地知道什么數(shù)據(jù)有用，那么，大數(shù)據(jù)，多大都不算大。

關(guān)鍵字：訓(xùn)練模型數(shù)據(jù)建模