精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

大數據是不是數據挖掘的延伸?

責任編輯:editor005

2015-01-06 14:27:25

摘自:36大數據

數據挖掘基于數據庫理論,機器學習,人工智能,現代統計學的迅速發展的交叉學科,在很多領域中都有應用。所謂的大數據,大約就是說現在有座正在形成的巨型礦山,快去搶占成為煤老板吧,下一個蓋茨興許將在這里誕生。

數據挖掘基于數據庫理論,機器學習,人工智能,現代統計學的迅速發展的交叉學科,在很多領域中都有應用。涉及到很多的算法,源于機器學習的神經網絡,決策樹,也有基于統計學習理論的支持向量機,分類回歸樹,和關聯分析的諸多算法。數據挖掘的定義是從海量數據中找到有意義的模式或知識。

數據挖掘

大數據是最近兩年提出來,也是媒體忽悠的一個概念。有三個重要的特征:數據量大,結構復雜,數據更新速度很快。由于Web技術的發展,web用戶產生的數據自動保存、傳感器也在不斷收集數據,以及移動互聯網的發展,數據自動收集、存儲的速度在加快,全世界的數據量在不斷膨脹,數據的存儲和計算超出了單個計算機(小型機和大型機)的能力,這給數據挖掘技術的實施提出了挑戰(一般而言,數據挖掘的實施基于一臺小型機或大型機,也可以進行并行計算)。Google提出了分布式存儲文件系統,發展出后來的云存儲和云計算的概念。

大數據需要映射為小的單元進行計算,再對所有的結果進行整合,就是所謂的map-reduce算法框架。在單個計算機上進行的計算仍然需要采用一些數據挖掘技術,區別是原先的一些數據挖掘技術不一定能方便地嵌入到 map-reduce 框架中,有些算法需要調整。

此外,大數據處理能力的提升也對統計學提出了新的挑戰。統計學理論往往建立在樣本上,而在大數據時代,可能得到的是總體,而不再是總體的不放回抽樣。

以山西開礦的煤老板為例:

開礦的前提是有礦,包括煤礦的儲藏量,儲藏深度,煤的成色。

之后是挖礦,要把這些埋在地下的礦挖出來,需要挖礦工,挖礦機,運輸機。

之后是加工,洗煤,煉丹,等等。

最后才是轉化為銀子。

數據行業十分類似:

挖掘數據的前提是有數據,包括數據的儲藏量,儲藏深度,數據的成色。

之后是數據挖掘,要把這些埋藏的數據挖掘出來。

之后是數據分析輸出,要把這些數據可視化輸出,指導分析、商業實踐。

直到這一步,才創造了價值。

所謂的大數據,大約就是說現在有座正在形成的巨型礦山,快去搶占成為煤老板吧,下一個蓋茨興許將在這里誕生。

接下來好好說。如果說硬要說相似度的話,那么重合度的確是有很高。因為大數據干的事情其實就是數據挖掘做的事情。

數據挖掘之前叫 KDD(Knowledge Discovery and Data Mining, 或者也可以是 Knowledge Discovery in Database),這樣說就很好解釋了。數據挖掘就是從海量的數據中發現隱含的知識和規律。那么說,這個東西是啥時候提出來的?上個世紀。大數據啥時候提出來的?也就這幾年的事情吧。所以說,大數據很大程度上是數據挖掘的一個好聽的名字。

其實也不能一概否定“大數據”,至少通過媒體的熱炒,讓很多人知道了“數據”的重要性。只是很多人都不知道怎么做大數據,因為這個東西本來就是虛的嘛。如果想了解大數據,那么踏踏實實的做法是學習一下“數據挖掘”和“機器學習”相關的知識。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 嵊泗县| 礼泉县| 钟祥市| 柘城县| 民丰县| 五大连池市| 壶关县| 宁安市| 英山县| 睢宁县| 柯坪县| 越西县| 新郑市| 陆河县| 霍州市| 固镇县| 罗平县| 拜城县| 磴口县| 中山市| 隆昌县| 田阳县| 博爱县| 罗甸县| 广南县| 会同县| 孟津县| 锦州市| 台湾省| 西昌市| 十堰市| 四子王旗| 房山区| 化州市| 侯马市| 建阳市| 台前县| 堆龙德庆县| 青浦区| 鸡东县| 新民市|