亚洲国产欧美91,国内精品一区视频在线播放,久久久精品一区二区三区

大數據是不是數據挖掘的延伸？

責任編輯：editor005

2015-01-06 14:27:25

摘自：36大數據

數據挖掘基于數據庫理論，機器學習，人工智能，現代統計學的迅速發展的交叉學科，在很多領域中都有應用。所謂的大數據，大約就是說現在有座正在形成的巨型礦山，快去搶占成為煤老板吧，下一個蓋茨興許將在這里誕生。

數據挖掘基于數據庫理論，機器學習，人工智能，現代統計學的迅速發展的交叉學科，在很多領域中都有應用。涉及到很多的算法，源于機器學習的神經網絡，決策樹，也有基于統計學習理論的支持向量機，分類回歸樹，和關聯分析的諸多算法。數據挖掘的定義是從海量數據中找到有意義的模式或知識。

數據挖掘

大數據是最近兩年提出來，也是媒體忽悠的一個概念。有三個重要的特征：數據量大，結構復雜，數據更新速度很快。由于Web技術的發展，web用戶產生的數據自動保存、傳感器也在不斷收集數據，以及移動互聯網的發展，數據自動收集、存儲的速度在加快，全世界的數據量在不斷膨脹，數據的存儲和計算超出了單個計算機(小型機和大型機)的能力，這給數據挖掘技術的實施提出了挑戰(一般而言，數據挖掘的實施基于一臺小型機或大型機，也可以進行并行計算)。Google提出了分布式存儲文件系統，發展出后來的云存儲和云計算的概念。

大數據需要映射為小的單元進行計算，再對所有的結果進行整合，就是所謂的map-reduce算法框架。在單個計算機上進行的計算仍然需要采用一些數據挖掘技術，區別是原先的一些數據挖掘技術不一定能方便地嵌入到 map-reduce 框架中，有些算法需要調整。

此外，大數據處理能力的提升也對統計學提出了新的挑戰。統計學理論往往建立在樣本上，而在大數據時代，可能得到的是總體，而不再是總體的不放回抽樣。

以山西開礦的煤老板為例：

開礦的前提是有礦，包括煤礦的儲藏量，儲藏深度，煤的成色。

之后是挖礦，要把這些埋在地下的礦挖出來，需要挖礦工，挖礦機，運輸機。

之后是加工，洗煤，煉丹，等等。

最后才是轉化為銀子。

數據行業十分類似：

挖掘數據的前提是有數據，包括數據的儲藏量，儲藏深度，數據的成色。

之后是數據挖掘，要把這些埋藏的數據挖掘出來。

之后是數據分析輸出，要把這些數據可視化輸出，指導分析、商業實踐。

直到這一步，才創造了價值。

所謂的大數據，大約就是說現在有座正在形成的巨型礦山，快去搶占成為煤老板吧，下一個蓋茨興許將在這里誕生。

接下來好好說。如果說硬要說相似度的話，那么重合度的確是有很高。因為大數據干的事情其實就是數據挖掘做的事情。

數據挖掘之前叫 KDD(Knowledge Discovery and Data Mining, 或者也可以是 Knowledge Discovery in Database)，這樣說就很好解釋了。數據挖掘就是從海量的數據中發現隱含的知識和規律。那么說，這個東西是啥時候提出來的?上個世紀。大數據啥時候提出來的?也就這幾年的事情吧。所以說，大數據很大程度上是數據挖掘的一個好聽的名字。

其實也不能一概否定“大數據”，至少通過媒體的熱炒，讓很多人知道了“數據”的重要性。只是很多人都不知道怎么做大數據，因為這個東西本來就是虛的嘛。如果想了解大數據，那么踏踏實實的做法是學習一下“數據挖掘”和“機器學習”相關的知識。

數據數據挖掘數據挖掘技術