精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

大數據和「數據挖掘」是何關系?是不是數據挖掘的延伸?

責任編輯:editor007 |來源:企業網D1Net  2015-01-05 17:20:20 本文摘自:中國大數據

數據挖掘

數據挖掘基于數據庫理論,機器學習,人工智能,現代統計學的迅速發展的交叉學科,在很多領域中都有應用。涉及到很多的算法,源于機器學習的神經網絡,決策樹,也有基于統計學習理論的支持向量機,分類回歸樹,和關聯分析的諸多算法。數據挖掘的定義是從海量數據中找到有意義的模式或知識。

大數據是最近兩年提出來,也是媒體忽悠的一個概念。有三個重要的特征:數據量大,結構復雜,數據更新速度很快。由于Web技術的發展,web用戶產生的數據自動保存、傳感器也在不斷收集數據,以及移動互聯網的發展,數據自動收集、存儲的速度在加快,全世界的數據量在不斷膨脹,數據的存儲和計算超出了單個計算機(小型機和大型機)的能力,這給數據挖掘技術的實施提出了挑戰(一般而言,數據挖掘的實施基于一臺小型機或大型機,也可以進行并行計算)。Google提出了分布式存儲文件系統,發展出后來的云存儲和云計算的概念。

大數據需要映射為小的單元進行計算,再對所有的結果進行整合,就是所謂的map-reduce算法框架。在單個計算機上進行的計算仍然需要采用一些數據挖掘技術,區別是原先的一些數據挖掘技術不一定能方便地嵌入到 map-reduce 框架中,有些算法需要調整。

此外,大數據處理能力的提升也對統計學提出了新的挑戰。統計學理論往往建立在樣本上,而在大數據時代,可能得到的是總體,而不再是總體的不放回抽樣。

以山西開礦的煤老板為例:

開礦的前提是有礦,包括煤礦的儲藏量,儲藏深度,煤的成色。

之后是挖礦,要把這些埋在地下的礦挖出來,需要挖礦工,挖礦機,運輸機。

之后是加工,洗煤,煉丹,等等。

最后才是轉化為銀子。

數據行業十分類似:

挖掘數據的前提是有數據,包括數據的儲藏量,儲藏深度,數據的成色。

之后是數據挖掘,要把這些埋藏的數據挖掘出來。

之后是數據分析輸出,要把這些數據可視化輸出,指導分析、商業實踐。

直到這一步,才創造了價值。

所謂的大數據,大約就是說現在有座正在形成的巨型礦山,快去搶占成為煤老板吧,下一個蓋茨興許將在這里誕生。

接下來好好說。如果說硬要說相似度的話,那么重合度的確是有很高。因為大數據干的事情其實就是數據挖掘做的事情。

數據挖掘之前叫 KDD(Knowledge Discovery and Data Mining, 或者也可以是 Knowledge Discovery in Database),這樣說就很好解釋了。數據挖掘就是從海量的數據中發現隱含的知識和規律。那么說,這個東西是啥時候提出來的?上個世紀。大數據啥時候提出來的?也就這幾年的事情吧。所以說,大數據很大程度上是數據挖掘的一個好聽的名字。

其實也不能一概否定「大數據」,至少通過媒體的熱炒,讓很多人知道了「數據」的重要性。只是很多人都不知道怎么做大數據,因為這個東西本來就是虛的嘛。如果想了解大數據,那么踏踏實實的做法是學習一下「數據挖掘」和「機器學習」相關的知識。

關鍵字:數據挖掘技術回歸樹統計學習

本文摘自:中國大數據

x 大數據和「數據挖掘」是何關系?是不是數據挖掘的延伸? 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

大數據和「數據挖掘」是何關系?是不是數據挖掘的延伸?

責任編輯:editor007 |來源:企業網D1Net  2015-01-05 17:20:20 本文摘自:中國大數據

數據挖掘

數據挖掘基于數據庫理論,機器學習,人工智能,現代統計學的迅速發展的交叉學科,在很多領域中都有應用。涉及到很多的算法,源于機器學習的神經網絡,決策樹,也有基于統計學習理論的支持向量機,分類回歸樹,和關聯分析的諸多算法。數據挖掘的定義是從海量數據中找到有意義的模式或知識。

大數據是最近兩年提出來,也是媒體忽悠的一個概念。有三個重要的特征:數據量大,結構復雜,數據更新速度很快。由于Web技術的發展,web用戶產生的數據自動保存、傳感器也在不斷收集數據,以及移動互聯網的發展,數據自動收集、存儲的速度在加快,全世界的數據量在不斷膨脹,數據的存儲和計算超出了單個計算機(小型機和大型機)的能力,這給數據挖掘技術的實施提出了挑戰(一般而言,數據挖掘的實施基于一臺小型機或大型機,也可以進行并行計算)。Google提出了分布式存儲文件系統,發展出后來的云存儲和云計算的概念。

大數據需要映射為小的單元進行計算,再對所有的結果進行整合,就是所謂的map-reduce算法框架。在單個計算機上進行的計算仍然需要采用一些數據挖掘技術,區別是原先的一些數據挖掘技術不一定能方便地嵌入到 map-reduce 框架中,有些算法需要調整。

此外,大數據處理能力的提升也對統計學提出了新的挑戰。統計學理論往往建立在樣本上,而在大數據時代,可能得到的是總體,而不再是總體的不放回抽樣。

以山西開礦的煤老板為例:

開礦的前提是有礦,包括煤礦的儲藏量,儲藏深度,煤的成色。

之后是挖礦,要把這些埋在地下的礦挖出來,需要挖礦工,挖礦機,運輸機。

之后是加工,洗煤,煉丹,等等。

最后才是轉化為銀子。

數據行業十分類似:

挖掘數據的前提是有數據,包括數據的儲藏量,儲藏深度,數據的成色。

之后是數據挖掘,要把這些埋藏的數據挖掘出來。

之后是數據分析輸出,要把這些數據可視化輸出,指導分析、商業實踐。

直到這一步,才創造了價值。

所謂的大數據,大約就是說現在有座正在形成的巨型礦山,快去搶占成為煤老板吧,下一個蓋茨興許將在這里誕生。

接下來好好說。如果說硬要說相似度的話,那么重合度的確是有很高。因為大數據干的事情其實就是數據挖掘做的事情。

數據挖掘之前叫 KDD(Knowledge Discovery and Data Mining, 或者也可以是 Knowledge Discovery in Database),這樣說就很好解釋了。數據挖掘就是從海量的數據中發現隱含的知識和規律。那么說,這個東西是啥時候提出來的?上個世紀。大數據啥時候提出來的?也就這幾年的事情吧。所以說,大數據很大程度上是數據挖掘的一個好聽的名字。

其實也不能一概否定「大數據」,至少通過媒體的熱炒,讓很多人知道了「數據」的重要性。只是很多人都不知道怎么做大數據,因為這個東西本來就是虛的嘛。如果想了解大數據,那么踏踏實實的做法是學習一下「數據挖掘」和「機器學習」相關的知識。

關鍵字:數據挖掘技術回歸樹統計學習

本文摘自:中國大數據

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 桦川县| 黄龙县| 肃南| 通道| 玉溪市| 科尔| 瑞安市| 恩平市| 铜梁县| 宜宾县| 饶阳县| 甘泉县| 灵台县| 荥阳市| 郎溪县| 宽城| 衡阳市| 南和县| 漯河市| 潼关县| 赣榆县| 五华县| 温宿县| 乌鲁木齐县| 鄄城县| 海丰县| 佛山市| 芦溪县| 淮北市| 开鲁县| 新巴尔虎右旗| 云阳县| 囊谦县| 什邡市| 太湖县| 汾西县| 利川市| 南木林县| 辽阳市| 丰顺县| 赤水市|