“大數(shù)據(jù),多大算大?”——這是一個(gè)經(jīng)常被問到的問題。
這不是一個(gè)經(jīng)濟(jì)學(xué)問題,也不是一個(gè)數(shù)學(xué)問題,而是需要具體情況具體分析的一個(gè)實(shí)驗(yàn)問題。然而,實(shí)驗(yàn)需要工具。
首先,這取決于目標(biāo)。如果沒有明確的目標(biāo),數(shù)據(jù)常常被籠統(tǒng)地認(rèn)為有用。然而,實(shí)際并非如此。互聯(lián)網(wǎng)每天都產(chǎn)生大量數(shù)據(jù),但其中大部分?jǐn)?shù)據(jù)是噪音,不僅沒有用,還需要被化療掉。當(dāng)我們設(shè)定好一個(gè)可以量化的目標(biāo)變量,算法才可以用科學(xué)的方式量化評(píng)估數(shù)據(jù)價(jià)值。
其次,我們需要工具,可以自動(dòng)化跑通建模全流程,從而評(píng)估效果。這在機(jī)器學(xué)習(xí)技術(shù)——有監(jiān)督學(xué)習(xí)中有詳細(xì)介紹。在分類問題中,量化效果的指標(biāo)包括:AUC, KS, Accuracy, Precision, Recall, F1 measure;在回歸問題中,量化效果的指標(biāo)包括:RMSE, RMSLE, MAE, Gini。也就是說,當(dāng)我們明確目標(biāo)后,把數(shù)據(jù)丟給工具,工具告訴我們:用這份數(shù)據(jù)建模,效果是多少。
當(dāng)我們有了目標(biāo)和工具,我們便可以評(píng)估樣本大小和數(shù)據(jù)價(jià)值的關(guān)系了。我們可以把數(shù)據(jù)進(jìn)行分割,一份用于訓(xùn)練模型(訓(xùn)練數(shù)據(jù)),一份用于測試效果。對于訓(xùn)練數(shù)據(jù),我們可以再隨機(jī)均分為N份,基于部分訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)測并計(jì)算效果。然后,我們便可以評(píng)估訓(xùn)練樣本大小和模型效果之間的關(guān)系。不僅如此,我們還可以由此推斷,什么類型的樣本最有價(jià)值。
不是所有特征(變量)都有用,有用的特征往往并不多。建模工具同時(shí)還可以提供——哪些特征有用,權(quán)重分別是多少,詳見機(jī)器學(xué)習(xí)技術(shù)——有監(jiān)督學(xué)習(xí)。基于機(jī)器學(xué)習(xí)算法選擇的變量和對應(yīng)權(quán)重,我們可以進(jìn)一步進(jìn)行關(guān)聯(lián),找到和有用變量相關(guān)的其他潛在變量。
“大數(shù)據(jù),多大算大?”這是一個(gè)簡單的問題,如果你有工具。你丟給工具一份數(shù)據(jù),工具告訴你:
1.這份數(shù)據(jù)的效果有多好?
2.樣本大小與數(shù)據(jù)效果的關(guān)系?
3.什么樣本最有用?
4.什么特征最有用?
如此,你便可以繼續(xù)收集和重要樣本類似的樣本,繼續(xù)提取和重要變量相關(guān)的變量。
如果我們可以輕而易舉地知道什么數(shù)據(jù)有用,那么,大數(shù)據(jù),多大都不算大。