統計學習是一種方法,方法的好壞取決于人的使用。數據挖掘是眾多學科與統計學交叉產生的一門新興學科。
怎么感覺前面的答案都是門外漢在胡扯,現在業內流行一句話是,學數學的瞧不起學統計的,學統計的瞧不起學數據挖掘的。因為當你真的開始接觸數據挖掘的算法的時候,你會發現幾個瓶頸:
第一是精度和泛化性的問題,這是你不用測試集驗證集通過樣本內樣本外測試是沒法達到均衡的。
第二是模型優化及調參問題,你不懂算法原理根本就不知道怎么調,這個時候絕大多數人就放棄了,少部分人開始研讀算法,要知道大多數算法只有讀國外大牛英文文獻才能搞懂的,結果一看,哇靠,LDA,SVD,SVM,隨機森林,神經網絡,貝葉斯,最大熵,EM,混合高斯,HMM等等,哪個不是根據嚴格的凸優化及概率圖模型或者信息論嚴格推導出來的?這些都是實打實的數學概率統計基礎.
第三,業內標準的數據挖掘流程中最重要的一步是數據清洗和缺失填補,怎么洗,怎么填?現有的非監督算法都沒辦法很好的解決的哦!基礎的還得計算每一個特征的顯著性統計量,根據分位數,均值方差協方差相關系數進行過濾,填補,這一步是建模的關鍵哦!
最后,模型因子的顯著性評價,在一些算法,雖然指標證明是優秀的,但是如果因子的假設性檢驗證明不顯著的話,無疑是爛模型,稍微學過統計的應該可以理解。騷年,要玩數據挖掘還是老老實實地一步一步來吧。
數據挖掘與統計學的共同特征共同的目標。兩者都包含了大量的數學模型,都試圖通過對數據的描述,建立模型找出數據之間的關系,從而解決商業問題。共用模型。包括線性回歸、logistic回歸、聚類、時間序列、主成分分析等。數據挖掘與統計學的不同之處思想不一。數據挖掘偏向計算機學科,所關注的某些領域和統計學家所關注的有很大不同。不一定要有精確的理論支撐,只要是有用的,能夠解決問題的方式,都可以用來處理數據。而統計學是一門比較保守的學科,所沿用的模型一定要強調有理論依據(數學原理或經濟學理論)。處理數據量不一樣。統計學通常使用樣本數據,通過對樣本數據的估計來估算總體變量。數據挖掘使用的往往是總體數據,這也在過去的年代生產力和技術限制所致。數據挖掘由于采用了數據庫原理和計算機技術,它可以處理海量數據。發現的知識方式不一樣。數據挖掘的本質是很偶然的發現非預期但很有價值的知識和信息。這說明數據挖掘過程本質上是實驗性的。而統計學強調確定性分析。確定性分析著眼于尋找一個最適合的模型——建立一個推薦模型,這個模型也許不能很好的解釋觀測到的數據。