關(guān)于我們聯(lián)系我們

數(shù)據(jù)科學(xué)家最常用的十種算法和方法

責(zé)任編輯：editor007 作者：Gregory |來源：企業(yè)網(wǎng)D1Net 2016-10-13 22:12:15 本文摘自：新智元

最近KDnuggets針對數(shù)據(jù)科學(xué)家最常使用的算法作了一個調(diào)查，有一些意外的發(fā)現(xiàn)，包括最學(xué)術(shù)向的算法和最產(chǎn)業(yè)向的算法。

下面是調(diào)查結(jié)果，總調(diào)查人數(shù)是 844 人。

數(shù)據(jù)科學(xué)家最常用的Top 10種算法和方法，以及投票比例：

數(shù)據(jù)科學(xué)家

表1：數(shù)據(jù)科學(xué)家最常用的Top 10算法&方法。所有算法和方法的列表在文末。

說明：這個投票的本意是找出數(shù)據(jù)科學(xué)家最常用的工具，但“工具”這個詞含義不明確，所以為了簡便我最初把這個表成為top 10“算法”。當然，正如有讀者指出的，“統(tǒng)計學(xué)”或“可視化”以及其他幾個都不是算法，更好的描述應(yīng)該是“方法”。所以我把這個表更名為Top 10算法和方法。

投票者平均使用的算法/方法數(shù)是8.1中，比2011年的類似調(diào)查增加了很多。

在2011年的調(diào)查“數(shù)據(jù)科學(xué)/數(shù)據(jù)挖掘的常用算法”中，我們提到最常用的方法是回歸、聚類、決策樹/決策規(guī)則，以及可視化。兩次調(diào)查中投票數(shù)增加最多的是：

提升方法，2016年票數(shù)占32.8%，2011年占23.5%，票數(shù)增加40%

文本挖掘，從2011年的27.7%到2016年的35.9%，票數(shù)增加30%

可視化，從2011年的38.3%到2016年的48.7%，票數(shù)增加27%

時間序列/序列分析，從2011年的29.6%到2016年的37.0%，票數(shù)增25%

異常/偏差檢測，從2011年的16.4%到2016年的19.5%，票數(shù)增加 19%

集成方法，從2011年的28.3%到2016年的33.6%，票數(shù)增加19%

SVM，從2011年的28.6%到2016年的33.6%，票數(shù)增加18%

回歸，從2011年的57.9%到2016年的67.1%，票數(shù)增加16%

2016年新增的回答有：

K-NN，占比46%

PCA，占比43%

隨機森林，占比38%

優(yōu)化，占比24%

神經(jīng)網(wǎng)絡(luò) –深度學(xué)習(xí)，占比19%

奇異值分解，占比16%

投票數(shù)減少最多的有：

關(guān)聯(lián)規(guī)則，從2011年的28.6%到2016年的15.3%，減少了47%

增量建模，從4.8%到3.1%，減少了36% (這個讓人吃驚)

因素分析，從18.6%到14.2%，減少了24%

生存分析，從9.3%到7.9%，減少了15%

下面的表格表示不同算法類型的應(yīng)用：監(jiān)督、無監(jiān)督、元，及其他，以及投票者職業(yè)類型的占比。在職業(yè)類型中，我們排除了“未回答”(4.5%)和“其他”(3%)。

　　我們發(fā)現(xiàn)，幾乎所有人都使用監(jiān)督式學(xué)習(xí)算法。

政府和產(chǎn)業(yè)數(shù)據(jù)科學(xué)家比學(xué)生或?qū)W術(shù)研究人員使用更多不同類型的算法。

產(chǎn)業(yè)數(shù)據(jù)科學(xué)家更喜歡元算法。

接下來，我們分析了不同職業(yè)人士最常用的10中算法深度學(xué)習(xí)：

為了讓結(jié)果更清晰，我們計算了職業(yè)類型和平均算法使用的偏差，即偏差(ALG，類型)=使用(ALG，類型)/使用(ALG，所有)。

　　圖2：按職業(yè)類型分的算法使用偏差

我們發(fā)現(xiàn)，產(chǎn)業(yè)數(shù)據(jù)科學(xué)家更喜歡用回歸、可視化、統(tǒng)計、隨機森林和時間序列。政府/非營利機構(gòu)用得更多的是可視化、PCA和時間序列。學(xué)術(shù)研究者更常用的是PCA和深度學(xué)習(xí)。學(xué)生普遍上使用的算法較少，常用的是文本挖掘和深度學(xué)習(xí)。

接下來我們分析了能代表 KDnuggets 整體用戶的具體地區(qū)參與人數(shù)：

投票參與者的地區(qū)分布：

美國/加拿大，40%

歐洲，32%

亞洲，18%

拉丁美洲，5.0%

非洲/中東，3.4%

澳大利亞/新西蘭，2.2%

在2011年的投票中，我們把產(chǎn)業(yè)/政府和學(xué)術(shù)研究者/學(xué)生分別合并成一個組，并用以下公式計算產(chǎn)業(yè)/政府的算法“親和度”：

N(Alg,Ind_Gov) / N(Alg,Aca_Stu)

——————————- – 1

N(Ind_Gov) / N(Aca_Stu)

因此，親和度為0的算法表示它在產(chǎn)業(yè)/政府和學(xué)術(shù)研究者或?qū)W生中的使用情況一致。IG值越高，表示這個算法越“產(chǎn)業(yè)向”，越低，表示算法越“學(xué)術(shù)向”。

2011年的調(diào)查中，最“產(chǎn)業(yè)向的算法”是：

增量建模，2.01

異常檢測，1.61

生存分析，1.39

因素分析，0.83

時間序列/序列，0.69

關(guān)聯(lián)規(guī)則，0.5

在最新的調(diào)查中，增量建模(uplift modeling)是最“產(chǎn)業(yè)向的算法”，令人驚奇的發(fā)現(xiàn)是使用它的人非常少——只有3.1%，是這個調(diào)查中得票數(shù)最少的算法。

最“學(xué)術(shù)向的算法”是：

常規(guī)神經(jīng)網(wǎng)絡(luò)，-0.35

樸素貝葉斯，-0.35

支持向量機(SVM)，-0.24

深度學(xué)習(xí)，-0.19

EM, -0.17

下面的圖表列出了所有的算法和它們的產(chǎn)業(yè)/學(xué)術(shù)親和度。

　　圖3：數(shù)據(jù)科學(xué)家最常用的算法：產(chǎn)業(yè) vs 學(xué)術(shù)

下面的表格列出了所有算法的細節(jié)，%表示兩次調(diào)查中該算法的得票數(shù)占比，以及比重的變化(%2016/%2011 -1)。

　　表3：KDnuggets 2016調(diào)查：數(shù)據(jù)科學(xué)家使用的算法

N：按投票數(shù)的排序

Algorithm：算法名稱

Type: S – 監(jiān)督(Supervised), U – 無監(jiān)督(Unsupervised), M – 元(Meta), Z – 其他

2016 % ：2016年該算法的得票率

2011 % ：2011年該算法的得票率

change (%2016 / %2011 – 1)：得票率變化

Industry affinity：如上文解釋。

原文鏈接：http://www.kdnuggets.com/2016/09/poll-algorithms-used-data-scientists.html

關(guān)鍵字：算法方法科學(xué)家

數(shù)據(jù)科學(xué)家最常用的十種算法和方法

責(zé)任編輯：editor007 作者：Gregory |來源：企業(yè)網(wǎng)D1Net 2016-10-13 22:12:15 本文摘自：新智元

下面是調(diào)查結(jié)果，總調(diào)查人數(shù)是 844 人。

數(shù)據(jù)科學(xué)家最常用的Top 10種算法和方法，以及投票比例：

表1：數(shù)據(jù)科學(xué)家最常用的Top 10算法&方法。所有算法和方法的列表在文末。

投票者平均使用的算法/方法數(shù)是8.1中，比2011年的類似調(diào)查增加了很多。

提升方法，2016年票數(shù)占32.8%，2011年占23.5%，票數(shù)增加40%

文本挖掘，從2011年的27.7%到2016年的35.9%，票數(shù)增加30%

可視化，從2011年的38.3%到2016年的48.7%，票數(shù)增加27%

時間序列/序列分析，從2011年的29.6%到2016年的37.0%，票數(shù)增25%

異常/偏差檢測，從2011年的16.4%到2016年的19.5%，票數(shù)增加 19%

集成方法，從2011年的28.3%到2016年的33.6%，票數(shù)增加19%

SVM，從2011年的28.6%到2016年的33.6%，票數(shù)增加18%

回歸，從2011年的57.9%到2016年的67.1%，票數(shù)增加16%

2016年新增的回答有：

K-NN，占比46%

PCA，占比43%

隨機森林，占比38%

優(yōu)化，占比24%

神經(jīng)網(wǎng)絡(luò) –深度學(xué)習(xí)，占比19%

奇異值分解，占比16%

投票數(shù)減少最多的有：

關(guān)聯(lián)規(guī)則，從2011年的28.6%到2016年的15.3%，減少了47%

增量建模，從4.8%到3.1%，減少了36% (這個讓人吃驚)

因素分析，從18.6%到14.2%，減少了24%

生存分析，從9.3%到7.9%，減少了15%

　　我們發(fā)現(xiàn)，幾乎所有人都使用監(jiān)督式學(xué)習(xí)算法。

政府和產(chǎn)業(yè)數(shù)據(jù)科學(xué)家比學(xué)生或?qū)W術(shù)研究人員使用更多不同類型的算法。

產(chǎn)業(yè)數(shù)據(jù)科學(xué)家更喜歡元算法。

接下來，我們分析了不同職業(yè)人士最常用的10中算法深度學(xué)習(xí)：

為了讓結(jié)果更清晰，我們計算了職業(yè)類型和平均算法使用的偏差，即偏差(ALG，類型)=使用(ALG，類型)/使用(ALG，所有)。

　　圖2：按職業(yè)類型分的算法使用偏差

接下來我們分析了能代表 KDnuggets 整體用戶的具體地區(qū)參與人數(shù)：

投票參與者的地區(qū)分布：

美國/加拿大，40%

歐洲，32%

亞洲，18%

拉丁美洲，5.0%

非洲/中東，3.4%

澳大利亞/新西蘭，2.2%

N(Alg,Ind_Gov) / N(Alg,Aca_Stu)

——————————- – 1

N(Ind_Gov) / N(Aca_Stu)

2011年的調(diào)查中，最“產(chǎn)業(yè)向的算法”是：

增量建模，2.01

異常檢測，1.61

生存分析，1.39

因素分析，0.83

時間序列/序列，0.69

關(guān)聯(lián)規(guī)則，0.5

最“學(xué)術(shù)向的算法”是：

常規(guī)神經(jīng)網(wǎng)絡(luò)，-0.35

樸素貝葉斯，-0.35

支持向量機(SVM)，-0.24

深度學(xué)習(xí)，-0.19

EM, -0.17

下面的圖表列出了所有的算法和它們的產(chǎn)業(yè)/學(xué)術(shù)親和度。

　　圖3：數(shù)據(jù)科學(xué)家最常用的算法：產(chǎn)業(yè) vs 學(xué)術(shù)

下面的表格列出了所有算法的細節(jié)，%表示兩次調(diào)查中該算法的得票數(shù)占比，以及比重的變化(%2016/%2011 -1)。

　　表3：KDnuggets 2016調(diào)查：數(shù)據(jù)科學(xué)家使用的算法

N：按投票數(shù)的排序

Algorithm：算法名稱

Type: S – 監(jiān)督(Supervised), U – 無監(jiān)督(Unsupervised), M – 元(Meta), Z – 其他

2016 % ：2016年該算法的得票率

2011 % ：2011年該算法的得票率

change (%2016 / %2011 – 1)：得票率變化

Industry affinity：如上文解釋。

原文鏈接：http://www.kdnuggets.com/2016/09/poll-algorithms-used-data-scientists.html

關(guān)鍵字：算法方法科學(xué)家

精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

數(shù)據(jù)科學(xué)家最常用的十種算法和方法

相關(guān)文章

數(shù)據(jù)科學(xué)家最常用的十種算法和方法

網(wǎng)站地圖

聯(lián)系我們：

投稿信箱：