當前位置：大數據 → 業界動態 → 正文

深入淺出談數據挖掘

責任編輯：editor004 作者：段勇 |來源：企業網D1Net 2015-02-09 11:16:10 本文摘自：CCTIME飛象網

編者的話：本文對數據挖掘概念的產生，數據挖掘與常規數據分析的主要區別，所能解決的幾大類問題和所應用的領域都有著非常清晰的論述。作者在此篇文章中認為數據挖掘最重要的要素是分析人員的相關業務知識和思維模式。豐富的業務知識是設計有效的相關變量的必要條件，而分析人員的思維模式從另外一個方面也保障了設計變量的結構化和完整性。所以我們在掌握豐富的業務知識同時，如果能夠按照正確的思維模式去思考問題，將會發現解決問題并不是很困難的。

一、數據挖掘的本質

一般來說，比較狹義的觀點認為數據挖掘區別于常規數據分析的關鍵點在于：數據挖掘主要側重解決四類問題：分類、聚類、關聯、預測（關于這四類問題后文會詳細闡述），而常規數據分析則側重于解決除此之外的其他數據分析問題：如描述性統計、交叉報表、假設檢驗等。

讓我們來看一個例子：某移動運營商想了解目前彩鈴業務的發展現狀如何？解決這個問題的方法就是常規的數據分析，通過描述性統計和交叉報表，可以知道目前彩鈴業務的用戶數、普及率、收入情況？不同品牌用戶間的情況和差異？不同消費水平用戶間的情況和差異……。這樣的分析主要解決了企業過去發生了什么以及存在什么問題；如果該運營商希望建立一個模型（或者規則），從沒有使用彩鈴的用戶群中找出一部分用戶作為彩鈴營銷活動的目標用戶，如通過短信或者外呼的方式告知用戶可以免費試用彩鈴一個月。解決這個問題則需要使用數據挖掘的方法，如通過決策樹方法可以找出使用彩鈴業務可能性較高的用戶的一系列特征規則，然后根據這些規則去篩選目標用戶。當然數據挖掘也并不是解決這個問題唯一辦法，因為在沒有數據挖據這個概念之前（1990年以前），這樣的問題在商業中也是普遍存在的。通過常規的數據分析依然能解決這個問題，例如研究不同品牌、不同消費水平、不同年齡、不同……的用戶使用彩鈴的情況，也可以總結出一套比較實用的規則來作為篩選彩鈴目標用戶的規則。當然，這樣的方法跟數據挖掘方法相比存在一定的不足，由于篇幅的限制，這個問題留給大家去思考。

個人的觀點：數據挖掘很大程度上來說更像是一個框架概念。它所使用的各種方法在這個概念形成之前已經普遍存在，例如統計學中的多元回歸、Logistic回歸，人工智能中的神經網絡等。在上個世紀90年代，由于數據庫的高速發展，企業對精確化營銷的迫切需求，導致了數據挖掘這個概念和新名詞的誕生。當然我們也不能簡單的認為數據挖掘就是一個“新瓶裝老酒”，畢竟，數據挖掘根據所解決的不同類型的問題，把包含統計學在內的各種方法進行了整合和重新設計，形成了一套新的數據分析方法論和框架，在這個框架內，源源不斷的很多人投入進來，這其中主要包含兩類人：一類人是在更新設計新的算法；一類人是在不斷的探索既有的方法在商業中的各種應用。

二、數據挖掘主要解決的四類問題

數據挖掘非常清晰的界定了它所能解決的幾類問題。這是一個高度的歸納，數據挖掘的應用就是把這幾類問題演繹的一個過程。下面讓我們來看看它所解決的四類問題是如何界定的：

1分類問題

分類問題屬于預測性的問題，但是它跟普通預測問題的區別在于其預測的結果是類別（如A、B、C三類）而不是一個具體的數值（如55、65、75……）。

舉個例子，你和朋友在路上走著，迎面走來一個人，你對朋友說：我猜這個人是個上海人，那么這個問題就屬于分類問題；如果你對朋友說：我猜這個人的年齡在30歲左右，那么這個問題就屬于后面要說到的預測問題。

商業案例中，分類問題可謂是最多的：給你一個客戶的相關信息，預測一下他未來一段時間是否會離網？信用度是好/一般/差？是否會使用你的某個產品？將來會成為你的高/中/低價值的客戶？是否會響應你的某個促銷活動？……。

有一種很特殊的分類問題，那就是“二分”問題，顯而易見，“二分”問題意味著預測的分類結果只有兩個類：如是/否；好/壞；高/低……。這類問題也稱為0/1問題。之所以說它很特殊，主要是因為解決這類問題時，我們只需關注預測屬于其中一類的概率即可，因為兩個類的概率可以互相推導。如預測X=1的概率為P（X=1），那么X=0的概率P（X=0）=1-P（X=1）。這一點是非常重要的。

可能很多人已經在關心數據挖掘方法是怎么預測P（X=1）這個問題的了，其實并不難。解決這類問題的一個大前提就是通過歷史數據的收集，已經明確知道了某些用戶的分類結果，如已經收集到了10000個用戶的分類結果，其中7000個是屬于“1”這類；3000個屬于“0”這類。伴隨著收集到分類結果的同時，還收集了這10000個用戶的若干特征（指標、變量）。這樣的數據集一般在數據挖掘中被稱為訓練集，顧名思義，分類預測的規則就是通過這個數據集訓練出來的。訓練的大概思路是這樣的：對所有已經收集到的特征/變量分別進行分析，尋找與目標0/1變量相關的特征/變量，然后歸納出P（X=1）與篩選出來的相關特征/變量之間的關系（不同方法歸納出來的關系的表達方式是各不相同的，如回歸的方法是通過函數關系式，決策樹方法是通過規則集）。

如需了解細節，請查閱：決策樹、Logistic回歸、判別分析、神經網絡、Inpurity、Entropy、Chi-square、Gini、Odds、OddsRatio……等相關知識。

2聚類問題

聚類問題不屬于預測性的問題，它主要解決的是把一群對象劃分成若干個組的問題。劃分的依據是聚類問題的核心。所謂“物以類聚，人以群分”，故得名聚類。

聚類問題容易與分類問題混淆，主要是語言表達的原因，因為我們常說這樣的話：“根據客戶的消費行為，我們把客戶分成三個類，第一個類的主要特征是……”，實際上這是一個聚類問題，但是在表達上容易讓我們誤解為這是個分類問題。分類問題與聚類問題是有本質區別的：分類問題是預測一個未知類別的用戶屬于哪個類別（相當于做單選題），而聚類問題是根據選定的指標，對一群用戶進行劃分（相當于做開放式的論述題），它不屬于預測問題。

聚類問題在商業案例中也是一個非常常見的，例如需要選擇若干個指標（如價值、成本、使用的產品等）對已有的用戶群進行劃分：特征相似的用戶聚為一類，特征不同的用戶分屬于不同的類。

聚類的方法層出不窮，基于用戶間彼此距離的長短來對用戶進行聚類劃分的方法依然是當前最流行的方法。大致的思路是這樣的：首先確定選擇哪些指標對用戶進行聚類；然后在選擇的指標上計算用戶彼此間的距離，距離的計算公式很多，最常用的就是直線距離（把選擇的指標當作維度、用戶在每個指標下都有相應的取值，可以看作多維空間中的一個點，用戶彼此間的距離就可理解為兩者之間的直線距離。）；最后聚類方法把彼此距離比較短的用戶聚為一類，類與類之間的距離相對比較長。

如需了解細節，請查閱：聚類分析、系統聚類、K-means聚類、歐氏距離、閔氏距離、馬氏距離等知識。

3關聯問題

說起關聯問題，可能要從“啤酒和尿布”說起了。有人說啤酒和尿布是沃爾瑪超市的一個經典案例，也有人說，是為了宣傳數據挖掘/數據倉庫而編造出來的虛構的“托”。不管如何，“啤酒和尿布”給了我們一個啟示：世界上的萬事萬物都有著千絲萬縷的聯系，我們要善于發現這種關聯。

關聯分析要解決的主要問題是：一群用戶購買了很多產品之后，哪些產品同時購買的幾率比較高？買了A產品的同時買哪個產品的幾率比較高？可能是由于最初關聯分析主要是在超市應用比較廣泛，所以又叫“購物籃分析”，英文簡稱為MBA，當然此MBA非彼MBA,意為MarketBasketAnalysis。

如果在研究的問題中，一個用戶購買的所有產品假定是同時一次性購買的，分析的重點就是所有用戶購買的產品之間關聯性；如果假定一個用戶購買的產品的時間是不同的，而且分析時需要突出時間先后上的關聯，如先買了什么，然后后買什么？那么這類問題稱之為序列問題，它是關聯問題的一種特殊情況。從某種意義上來說，序列問題也可以按照關聯問題來操作。

關聯分析有三個非常重要的概念，那就是“三度”：支持度、可信度、提升度。假設有10000個人購買了產品，其中購買A產品的人是1000個，購買B產品的人是2000個，AB同時購買的人是800個。支持度指的是關聯的產品（假定A產品和B產品關聯）同時購買的人數占總人數的比例，即800/10000=8%，有8%的用戶同時購買了A和B兩個產品；可信度指的是在購買了一個產品之后購買另外一個產品的可能性，例如購買了A產品之后購買B產品的可信度=800/1000=80%，即80%的用戶在購買了A產品之后會購買B產品；提升度就是在購買A產品這個條件下購買B產品的可能性與沒有這個條件下購買B產品的可能性之比，沒有任何條件下購買B產品可能性=2000/10000=20%，那么提升度=80%/20%=4。

如需了解細節，請查閱：關聯規則、apriror算法中等相關知識。

4預測問題

此處說的預測問題指的是狹義的預測，并不包含前面闡述的分類問題，因為分類問題也屬于預測。一般來說我們談預測問題主要指預測變量的取值為連續數值型的情況。

例如天氣預報預測明天的氣溫、國家預測下一年度的GDP增長率、電信運營商預測下一年的收入、用戶數等？

預測問題的解決更多的是采用統計學的技術，例如回歸分析和時間序列分析。回歸分析是一種非常古典而且影響深遠的統計方法，最早是由達爾文的表弟高爾頓在研究生物統計中提出來的方法，它的主要目的是研究目標變量與影響它的若干相關變量之間的關系，通過擬和類似Y=aX1+bX2+……的關系式來揭示變量之間的關系。通過這個關系式，在給定一組X1、X2……的取值之后就可以預測未知的Y值。

相對來說，用于預測問題的回歸分析在商業中的應用要遠遠少于在醫學、心理學、自然科學中的應用。最主要的原因是后者是更偏向于自然科學的理論研究，需要有理論支持的實證分析，而在商業統計分析中，更多的使用描述性統計和報表去揭示過去發生了什么，或者是應用性更強的分類、聚類問題。

如需了解細節，請查閱：一元線性回歸分析、多元線性回歸分析、最小二乘法等相關知識。

三、數據挖掘的應用領域

數據挖掘一開始就是面向應用而誕生的，前面說到數據挖掘主要解決四大類的問題，如果把這些問題演繹到不同的行業，我們將看到數據挖掘的應用是非常廣泛的。

以我們經常接觸的移動通信行業來說，結合前面提到的四大類問題，我們看看數據挖掘在通信行業都有哪些應用。

分類問題：

離網預測：預測用戶在未來一段時間內離網的風險。

信用申請評分：根據用戶資料評估用戶是否可以授信（如預付費用戶可以透支、后付費用戶可以延長帳期）。

信用行為評分：根據用戶過去的消費行為特征評估信用得分高低，便于調整話費透支額度或者付費帳期。

定位產品（如彩鈴、WAP、增值數據業務等）目標用戶：構建模型篩選產品營銷的目標用戶群。

聚類問題：

用戶細分：選擇若干指標把用戶群聚為若干個組，組內特征相似、組間特征差異明顯。當然用戶細分的方法很多，不一定都是采用聚類方法。聚類的優點是可以綜合處理多維變量，缺點是隨之帶來的不易解釋性。一種便于解釋的細分方法是結合業務對用戶群進行人為的劃分，習慣上稱為Pre-Define的方法。這種方法的優點是便于解釋且應用性強，缺點是對業務要求比較高，劃分邊界比較難定，對多維變量處理有難度。

關聯問題：

交叉銷售：針對用戶已經使用的產品和業務，向其推薦他沒有使用的，但可能有興趣的產品。交叉銷售的問題從某種角度上來也可以理解為分類問題，與定位產品目標用戶這個問題比較相似。

預測問題：

比較成型的應用不多，一般多為用戶數預測、收入預測等。

四、什么是數據挖掘最重要的要素？

回到一開始舉的那個案例來說，如果某運營商需要建立一個模型來篩選一部分目前還沒有用彩鈴的用戶作為推廣彩鈴業務的目標用戶，那么這樣一個任務要取得成功的關鍵要素是什么呢？是分析人員的思維模式、分析采用的方法、相關業務知識還是分析采用的工具？

從技術的角度來看這個問題，能不能得出精準的答案主要取決于是否尋找到與目標（是否使用彩鈴）相關的變量。而影響變量選擇的關鍵并不是選擇了不同分析方法，而是是否提供了足夠和有效的變量的去供分析方法選擇。也就是說不同的分析方法選擇相關變量的能力是相差不大的，關鍵是是否提供了足夠的變量供選擇。

變量的提供取決于變量的收集和設計，影響它最關鍵的兩個因素是：相關業務知識和分析人員的思維模式。豐富的業務知識是設計有效的相關變量的必要條件。分析人員的思維模式從另外一個方面保障了設計變量的結構化和完整性。麥肯錫公司一個重要的思維模式就是MECE，即不重疊、不遺漏。這是一個非常要命的觀點，如果都能按照這個模式去思考問題，你會發現解決問題原來也并不是那么困難。

分析人員的業務知識和思維模式不僅僅簡單的影響著變量的設計，還包括整個數據挖掘任務的方案框架設計以及后續的結果應用，在這里以終為始的思維模式又顯得尤為重要。

縱觀其他要素，分析方法對結果的影響主要體現在結果的解釋性和穩定性上：例如在信用評分應用中，Logistic回歸的結果就更便于解釋和應用；而決策樹方法對極值、非線性關系的處理就比其他方法更穩健。

此外，分析工具對結果的影響較小，但是在功能、操作的便利性和效率方面差別也是相當大的。SAS軟件相比SPSS、SPLUS等軟件來說在效率和功能方面有較大的優勢。

關鍵字：數據挖掘聚類方法