如何通過大數據找到客戶并帶來源源不斷的收益?
Intetix Foundation(英明泰思基金會)由從事數據科學、非營利組織和公共政策研究的中國學者發起成立,致力于通過數據科學改善人類社會和自然環境。通過聯絡、動員中美最頂尖的數據科學家和社會科學家,以及分布在全球的志愿者,我們創造性地踐行著我們的使命:為美好生活洞見數據價值。
原作者:1.Jeroen D’Haen 2.Dirk Van den Poel 3.Dirk Thorleuchter
摘要
一般來說,新客戶獲得的過程對銷售代表而言壓力頗大。幸運的是,銷售代表們可以運用一些模型來幫助自己選擇”正確的” 潛在客戶。在選擇“正確”潛在客戶的過程中有兩樣重要因素:潛在客戶成為真正客戶的可能性,以及其成為客戶后帶來的收益。本文主要討論后者。本文對現存的文獻貢獻主要有兩點:首先,給出了兩種數據源——網絡數據和可獲取的商業數據的預測效果,其目的在于找出作為收益預測輸入時具有更高精確度的一項,并且研究結合使用能否提高精確度;其次,研究了不同數據挖掘技術的預測效果。結果表明(bagged)決策樹(模型)在現實生活中的精確度更高。使用網絡數據優于商業數據,而二者的結合使用更優于其單獨使用。盡管商業數據在統計意義上頗為重要,但其附加價值相當有限。
1、介紹
新客戶的獲得是循序漸進的過程,只有部分特定的潛在客戶才會成為真正的客戶。一般來說,這個過程對銷售代表而言壓力頗大。幸運的是,銷售代表們可以運用一些模型來幫助自己選擇”正確的”潛在客戶。在選擇“正確”潛在客戶的過程中有兩樣重要因素:潛在客戶成為真正客戶的可能性,以及其成為客戶后帶來的收益。本文主要討論后者。本文旨在設計出一個能夠預測其能否帶來收益的模型。然而,此收益模型的主要瓶頸在于缺乏高質量的數據。本文將介紹一個新的數據源,并且比較它和傳統數據源的表現,此外,我們將不同的數據挖掘技術和不同的數據源進行組合比較,并給出哪種組合能有更高的精確度。
構造一個高質量的預測收益模型的先決條件是要能獲得高質量的數據。大多數模型都依賴于從特定供應商購買的商業數據。而從網絡獲取的文本信息被作為較新的模型數據源用于研究,運用網絡挖掘和文本挖掘技術能從現存的或潛在的客戶的網站上收集這類信息(Thorleuchter, Van den Poel, & Prinzie, 2012)。然而文本信息很少用作企業分析的輸入(Coussement & Van den Poel, 2009),因為網絡數據包含難以分析的非結構化數據,而隱式索引技術能讓數據更結構化且可被用于模型的輸入(Thorleuchter et al., 2012)。
本文對現存的文獻貢獻主要有兩點:首先,給出了兩種數據源——網絡數據和可獲取的商業數據,的預測效果,其目的在于找出作為收益預測輸入時具有更高精確度的一項,并且研究結合使用能否提高精確度。其次,研究了不同的挖掘技術的預測效果。因此所有的研究問題能闡述如下:技術與數據源的何種組合是最精確的。本文與Thorleuchter et al. (2012)給出的論文之間的差異也彰顯了這兩點主要貢獻。本文研究并比較了不同數據源和數據挖掘技術而不僅限于簡單地對網絡數據運用邏輯回歸方法。這樣就有一個清晰的基準(即商業數據)與網絡數據作比較。因此本文可被看作是將從通過數據挖掘技術從網上獲得的文本數據作為收益模型輸入的首次真正嘗試,并且本文將詳細描述觀測到的結果。
本文余下部分:首先比較網絡數據和可獲得的商業數據,再深入研究不同的數據挖掘技術,而結果將在對于所用數據的簡單介紹后給出,最后就是我們的結論,以及對于本文局限性的論述和對后繼研究的建議。
2、網絡數據與可獲得的商業化數據的比較
現今大多公司構建了包含大量客戶信息及購買行為信息的大容量數據庫(Shaw, Subramaniam, Tan, & Welge, 2001),而數據挖掘技術則被用于提取出隱藏于這些數據庫中的信息(Mitra, Pal, & Mitra, 2002)。然而,這種數據源并不適于辨識出有價值的潛在客戶(Arndt & Gersten, 2001)。公司構建的數據庫只能代表其內部信息,即只會包含該公司自己的客戶的信息。
3、數據挖掘技術
邏輯回歸
決策樹
決策樹有幾個特別的優點(Tirenni, Kaiser, & Herrmann, 2007)。決策樹是非參數方法,其單調預測變換時不變的(即無需變量變換)。參數化方法在數據維度較高情況下結果較差(我們所用數據即高維數據)(Petersen,Molinaro, Sinisi, & van der Laan, 2007)。另外,決策樹在異常值的影響下是粗略的,圖一給出了一棵簡單的樹可視化描述。
裝袋(Bagging)
評估標準
5、結果
表1展示了不同數據來源下的數據挖掘技術的全部結論。表1告訴我們數據裝袋是效果最好的(有最佳的AUC)。同時,與商業數據相比,網絡數據可以產出更好的結論,與數據來源結合起來則會更佳。但令人奇怪的一點是,當商業數據和網絡數據結合在一起時,AUC卻會比單獨使用商業數據時更低。這可能是因為邏輯回歸分析無法處理高維度,尤其當應用選擇法時。最終,回歸適合了理想模型。此外,在網絡數據及數據結合的案例中,更先進的數據裝袋技術優于回歸分析,而在商業數據模型中,預測性能方面沒有什么不同。因此,可能是網絡數據比商業數據包含更多的噪音干擾,且在自然中是非線性的。進一步的分析會展示這些結果是否是統計上顯著的。
無論使用哪種類型的數據,決策樹的AUC都為0.5。因為因為決策樹修剪后,只有根節點仍保持。結果,決策樹只給出一個不變的價值作為預測。在表2中我們可以看到,與決策樹相比,回歸和裝袋樹(同最高的AUC一起測驗)有明顯更高的準確性。裝袋樹和回歸沒有顯著不同。圖2中回歸線和裝袋樹相交,也對這一點做出了闡述。
圖2 ROC曲線-商業數據
至于網絡數據,比起回歸和一般決策樹(表3)來,明顯是裝袋具有更高的準確性。圖3顯示裝袋樹與其他任何數據挖掘技術都沒有相交。回歸比決策樹表現更好,但準確性仍較低(AUC=0.56,表1)。
圖3 ROC曲線-網絡數據
下一步就是將數據來源結合起來(網絡+商業上可獲得的外部數據),看看不同的數據挖掘技術的預測表現是什么。回歸又一次比決策樹效果更好(表4),盡管AUC仍較低(AUC=0.56,表1)。
此外,當結合兩種數據來源時,回歸效果比單獨使用商業數據時更差(表1)。裝袋樹有最高的AUC,效果比回歸和一般決策樹更好(表4)。圖4也清晰展現了這一點。
圖4 ROC曲線-兩種數據結合
最后一步是針對每個數據來源(在本例中是裝袋樹)比較出最佳的數據挖掘技術,并找出哪種數據類型會得出最佳結果。網絡數據比商業數據結果好,但結合兩種數據會提升預測表現(表5)。圖5以圖片形式生動展現了這一點。當裝袋決策樹時,也可能會得到重要變量的一個測量值。前十名的重要變量中絕大多數是網絡數據變量,但其中的兩個是來自商業數據集的。貸款和資本分別是重要變量的第四位和第九位,它們是預測公司盈利能力的兩個重要指標。
圖5 ROC曲線-最佳數據挖掘技術
6、結論與討論
本文的目的是研究在預測客戶盈利能力時,使用哪種數據來源并應用哪種數據挖掘方法更為有效。所研究的方法有邏輯回歸、決策樹和裝袋決策樹。所使用的兩種數據類型為:來源于網絡挖掘的數據和購買自專業賣主的數據。網絡數據免費且人人都可通過互聯網途徑獲得。不考慮數據來源的話,裝袋決策樹提供了最高的AUC(除商業數據外——在商業數據中,回歸的表現同樣好)。與商業數據相比,網絡數據有更高的預測表現,但將兩類數據結合的話,則會得到最好的結果。這對管理具有啟示。在建立模型時,裝袋決策樹應該比邏輯回歸和一般決策樹更受歡迎。而且,網絡數據是該模型理想的起點輸入。如果預算允許購買外部數據的話,還可以將其與網絡數據結合去提高模型未來的預測表現。不過,需要做一個成本效益分析,看看付出高額的數據購買費用是不是合理,因為預測表現的增長往往會比較小(相對而言)。
7、局限與進一步研究
本文所使用的定義是作為變量的,每年都不同。此外,數據集既要包括公司的老客戶也要包括新客戶。進一步的研究在定義變量時應該覆蓋這段時間的部分。第二個局限是,由于使用了特殊的修剪法,決策樹的AUC總是0.5。但是,我們確信,就算使用了不同的修剪方法,單一的決策樹也不會給出令人驚喜的結果。正如第一部分中的解釋一樣,在客戶獲得的過程中,兩個因素起作用:潛在客戶成為真正客戶的可能性,以及其成為客戶后的盈利能力。本文使用數據來源與數據挖掘技術結合的研究方法,關注于客戶盈利能力的預測。進一步的研究應當關注是否應當在客戶獲得模型中使用網絡數據,這已超出了本文的研究范圍。