精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

你的大數據項目使用的工具正確嗎?

責任編輯:editor005 |來源:企業網D1Net  2016-04-01 14:06:45 本文摘自:InfoQ

工具/產品/解決方案是數據科學家洞察數據的利器。 KDNuggets網站 對此觀點進行了年度調查,來分析數據科學家在用哪些類型的工具,并提供了調查的 匿名原始數據 。

通過主成分析(PCA)法進行降維分析

對所有的工具同時進行關系分析,常規來說,PCA通過對大樣本數據統計性質(eg, 協方差)的分析,試圖用主要特征來解釋關系。

分析結果:

當前分析的目標:通過一些主成分來分析95種工具之間的關系。最終決定以PCA的特征值來決定主成分的數目,這里選用了兩種規則:一種是以特征值大于1的特征值數量來選擇主成分數量;一種是畫陡坡圖(scree plot),通過95個特征值你會發現一個拐點的特征值。

特征點點陡坡圖顯示在第13和第14特征點時出現拐點,因此,這里選擇的13個主成分來解釋它們之間的關系,見下圖。

大數據

  工具分類

下面列出根據主成分析得出的13類工具(投票數大于20):

大數據生態(Hadoop、Spark)和開源項目:Hadoop, HBase, Hive, Mahout, MLlib, Other Hadoop/HDFS-based tools, Pig, Scala, Spark, SQL on Hadoop tools

微軟數據科學家工具:Microsoft Azure ML, Microsoft Power BI, Microsoft SQL Server, Revolution Analytics

基于Python的機器學習:Dataiku, H2O (0xdata), Python, scikit-learn, Theano, Vowpal Wabbit

SAS公司產品:JMP, SAS Base, SAS Enterprise Miner

MATLAB、R語言等統計工具:Gnu Octave, MATLAB, Orange, R, RapidMiner, Rattle, Weka

IBM公司產品:IBM Cognos, IBM SPSS Modeler, IBM SPSS Statistics, IBM Watson Analytics

Linux工具和SQLang:Actian, C/C++, Perl, SQLang, Unix shell/awk/gawk

深度學習:Caffe, Pylearn2

商務智能軟件:Pentaho and QlikView

數據分析平臺:Datameer and Zementis

Excel和Word統計工具:XLSTAT for Excel

其它:Other Deep Learning tools, Other free analytics/data mining tools, Other Hadoop/HDF-based tools, Other paid analytics/data mining/data science software, Other programming languages

數據可視化:C4.5/C5.0/See5, Miner3D, Oracle Data Miner

總結

數據科學家在選擇大數據、數據挖掘和數據分析工具時,更傾向于有一定生態基礎的工具,這樣各個工具間可以相互支持。

為了提高在大數據項目中成功的機會,選擇正確的工具是非常重要的。沒有一個孤立的工具能夠做所有的數據分析,職業的數據專家趨向于使用不止一種相關的工具(分析中發現,數據專家平均使用5種數據分析工具)。你可以根據使用相關工具的數據專家來決定自己的選擇。

另外一個觀點是,要選擇大廠的產品,比如,IBM、微軟和SAS,大品牌的產品更豐富,可以使得你的產品更容易擴展。

關鍵字:工具降維數據挖掘

本文摘自:InfoQ

x 你的大數據項目使用的工具正確嗎? 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

你的大數據項目使用的工具正確嗎?

責任編輯:editor005 |來源:企業網D1Net  2016-04-01 14:06:45 本文摘自:InfoQ

工具/產品/解決方案是數據科學家洞察數據的利器。 KDNuggets網站 對此觀點進行了年度調查,來分析數據科學家在用哪些類型的工具,并提供了調查的 匿名原始數據 。

通過主成分析(PCA)法進行降維分析

對所有的工具同時進行關系分析,常規來說,PCA通過對大樣本數據統計性質(eg, 協方差)的分析,試圖用主要特征來解釋關系。

分析結果:

當前分析的目標:通過一些主成分來分析95種工具之間的關系。最終決定以PCA的特征值來決定主成分的數目,這里選用了兩種規則:一種是以特征值大于1的特征值數量來選擇主成分數量;一種是畫陡坡圖(scree plot),通過95個特征值你會發現一個拐點的特征值。

特征點點陡坡圖顯示在第13和第14特征點時出現拐點,因此,這里選擇的13個主成分來解釋它們之間的關系,見下圖。

大數據

  工具分類

下面列出根據主成分析得出的13類工具(投票數大于20):

大數據生態(Hadoop、Spark)和開源項目:Hadoop, HBase, Hive, Mahout, MLlib, Other Hadoop/HDFS-based tools, Pig, Scala, Spark, SQL on Hadoop tools

微軟數據科學家工具:Microsoft Azure ML, Microsoft Power BI, Microsoft SQL Server, Revolution Analytics

基于Python的機器學習:Dataiku, H2O (0xdata), Python, scikit-learn, Theano, Vowpal Wabbit

SAS公司產品:JMP, SAS Base, SAS Enterprise Miner

MATLAB、R語言等統計工具:Gnu Octave, MATLAB, Orange, R, RapidMiner, Rattle, Weka

IBM公司產品:IBM Cognos, IBM SPSS Modeler, IBM SPSS Statistics, IBM Watson Analytics

Linux工具和SQLang:Actian, C/C++, Perl, SQLang, Unix shell/awk/gawk

深度學習:Caffe, Pylearn2

商務智能軟件:Pentaho and QlikView

數據分析平臺:Datameer and Zementis

Excel和Word統計工具:XLSTAT for Excel

其它:Other Deep Learning tools, Other free analytics/data mining tools, Other Hadoop/HDF-based tools, Other paid analytics/data mining/data science software, Other programming languages

數據可視化:C4.5/C5.0/See5, Miner3D, Oracle Data Miner

總結

數據科學家在選擇大數據、數據挖掘和數據分析工具時,更傾向于有一定生態基礎的工具,這樣各個工具間可以相互支持。

為了提高在大數據項目中成功的機會,選擇正確的工具是非常重要的。沒有一個孤立的工具能夠做所有的數據分析,職業的數據專家趨向于使用不止一種相關的工具(分析中發現,數據專家平均使用5種數據分析工具)。你可以根據使用相關工具的數據專家來決定自己的選擇。

另外一個觀點是,要選擇大廠的產品,比如,IBM、微軟和SAS,大品牌的產品更豐富,可以使得你的產品更容易擴展。

關鍵字:工具降維數據挖掘

本文摘自:InfoQ

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 桑日县| 沙田区| 日照市| 洛阳市| 漳平市| 农安县| 马龙县| 土默特右旗| 日照市| 陆川县| 疏附县| 朝阳区| 房产| 陇西县| 织金县| 盐边县| 嘉善县| 曲麻莱县| 类乌齐县| 双牌县| 昭苏县| 新巴尔虎右旗| 广灵县| 雷波县| 千阳县| 武乡县| 林甸县| 大埔县| 化州市| 鄄城县| 常山县| 五寨县| 岱山县| 绥江县| 河池市| 南城县| 石河子市| 玉林市| 玛纳斯县| 通辽市| 黑河市|