數據挖掘基于數據庫理論,機器學習,人工智能,現代統計學的迅速發展的交叉學科,在很多領域中都有應用。涉及到很多的算法,源于機器學習的神經網絡,決策樹,也有基于統計學習理論的支持向量機,分類回歸樹,和關聯分析的諸多算法。數據挖掘的定義是從海量數據中找到有意義的模式或知識。
大數據是最近兩年提出來,也是媒體忽悠的一個概念。有三個重要的特征:數據量大,結構復雜,數據更新速度很快。由于Web技術的發展,web用戶產生的數據自動保存、傳感器也在不斷收集數據,以及移動互聯網的發展,數據自動收集、存儲的速度在加快,全世界的數據量在不斷膨脹,數據的存儲和計算超出了單個計算機(小型機和大型機)的能力,這給數據挖掘技術的實施提出了挑戰(一般而言,數據挖掘的實施基于一臺小型機或大型機,也可以進行并行計算)。Google提出了分布式存儲文件系統,發展出后來的云存儲和云計算的概念。
大數據需要映射為小的單元進行計算,再對所有的結果進行整合,就是所謂的map-reduce算法框架。在單個計算機上進行的計算仍然需要采用一些數據挖掘技術,區別是原先的一些數據挖掘技術不一定能方便地嵌入到 map-reduce 框架中,有些算法需要調整。
此外,大數據處理能力的提升也對統計學提出了新的挑戰。統計學理論往往建立在樣本上,而在大數據時代,可能得到的是總體,而不再是總體的不放回抽樣。
以山西開礦的煤老板為例:
開礦的前提是有礦,包括煤礦的儲藏量,儲藏深度,煤的成色。
之后是挖礦,要把這些埋在地下的礦挖出來,需要挖礦工,挖礦機,運輸機。
之后是加工,洗煤,煉丹,等等。
最后才是轉化為銀子。
數據行業十分類似:
挖掘數據的前提是有數據,包括數據的儲藏量,儲藏深度,數據的成色。
之后是數據挖掘,要把這些埋藏的數據挖掘出來。
之后是數據分析輸出,要把這些數據可視化輸出,指導分析、商業實踐。
直到這一步,才創造了價值。
所謂的大數據,大約就是說現在有座正在形成的巨型礦山,快去搶占成為煤老板吧,下一個蓋茨興許將在這里誕生。
接下來好好說。如果說硬要說相似度的話,那么重合度的確是有很高。因為大數據干的事情其實就是數據挖掘做的事情。
數據挖掘之前叫 KDD(Knowledge Discovery and Data Mining, 或者也可以是 Knowledge Discovery in Database),這樣說就很好解釋了。數據挖掘就是從海量的數據中發現隱含的知識和規律。那么說,這個東西是啥時候提出來的?上個世紀。大數據啥時候提出來的?也就這幾年的事情吧。所以說,大數據很大程度上是數據挖掘的一個好聽的名字。
其實也不能一概否定「大數據」,至少通過媒體的熱炒,讓很多人知道了「數據」的重要性。只是很多人都不知道怎么做大數據,因為這個東西本來就是虛的嘛。如果想了解大數據,那么踏踏實實的做法是學習一下「數據挖掘」和「機器學習」相關的知識。