仔細選擇項目
要增加項目成功的可能性,你應該選擇那些對于商業行為比較重要比較有影響力的項目,比如提如何高顧客忠誠度、如何進行交叉銷售或者如何識別詐騙行為。有時那些聽起來看起來很高大上的項目很容易吸引我們的注意力,但當你做了很多工作分析了一通發現對增加企業收入完全沒有任何幫助的時候,你的項目就離失敗不遠了。
盡可能地多收集些數據
當為用戶行為建立模型時,應當既收集重點客戶的數據同時也收集那些潛在重點客戶的數據。在模型中忽視或者過度重視某些客戶群可能會讓你忽略一些模型中可能的重要變量。
不要只用內部數據
如果在數據挖掘項目中只考慮內部數據而忽視了社交媒體行為等外部數據的話,你可能會丟失一些模型中必需的重要變量。即便所研究的對象完全正確,如果訓練數據不對的話模型肯定也有問題。
合適的采樣方法
有時你所使用的分析平臺可能強大到允許你使用能夠收集到的所有數據來訓練模型。不過通常情況下訓練模型用的都是一個很小的樣本。采樣的方法簡單不怕,重要的是要使樣本能夠代表全體數據;相對的,復雜的采樣方法也有自己完善的理論。無論簡單或復雜,我們在選擇采樣方法時要有的放矢,搞清策略。
使用測試數據集
使用測試數據集來測試模型可以幫助我們了解模型的表現并避免模型的過度訓練。同時它也能夠確保我們的模型在現實中有意義。如果數據不準確或者不統一的話,一個交叉銷售推薦模型就可能會推薦已經不存在了的商品。
探索不同模型
建立模型的第一步通常是在眾多的變量中尋找最可能的幾個,然后建立不同的模型來進行測試。從不同的模型中我們可以根據效果進行篩選并最終找到一個最合適的模型。這樣做我們可以避免讓分析人員個人的傾向影響結果的精確性。
定時更新模型
如果你覺得你可以構建一個模型能夠適應過去和現在的所有數據并完美預測未來數據的話,我只能說你太年輕了。你精心構筑的模型可能沒一會功夫就過時了。我們必須根據收集到的數據以及要求的精度每個月、每周、每天甚至每個小時對模型進行修正。
將結果通俗化
在交流數據挖掘的結果時很重要的一點就是一定要讓非統計專業人員也能看得懂。你創建的模型有可能非常復雜,而了解每一個細節對于結果的應用來說又完全沒有必要。充滿統計學術語的交流只能讓人覺得你在裝,所以我們應當盡可能地讓結果清晰易懂好用,可以考慮多放些圖片和表格。
在現實環境中測試
如果不能在實際中應用你的模型并確確實實地對商業活動有所幫助的話,可以說你之前花的所有時間都打了水漂了。從項目開始之前就要清楚現實中的應用在哪里,交叉銷售模型就要交給市場部去用,其他模型也都得有一個好的歸宿。如果沒人用的話光靠自吹自擂是沒法證明自己的。