大數據的核心:數據挖掘。從頭至尾我們都脫離不了數據挖掘。其實從大學到現在一直都接觸數據挖掘,但是我們不關心是什么是數據挖掘,我們關心的是我們如何通過數據挖掘過程中找到我們需要的東西,而我們更關心的是這個過程是什么?如何開始?
總結的過程也是一個學習的過程,通過有章節的整理對目前正在的學習的內容做規整。在這個過程中我們會從具體的項目實施中去談數據挖掘,中間會貫穿很多的概念,算法,業務轉換,過程,建模等等。
我們列一下要談論的話題:
1、什么是數據挖掘及為什么要進行數據挖掘?
2、數據挖掘在營銷和CRM中的應用?
3、數據挖掘的過程
4、你應理解的統計學
5、數據描述與預測:剖析與預測建模
6、經典的數據挖掘技術
7、各類算法
8、數據倉庫、OLAP、分析沙箱和數據挖掘
9、具體的案例分析
什么是數據挖掘?
是知識發現、商業智能、預測分析還是預測建模。其實都可以歸為一類:數據挖掘是一項探測大量數據以發現有意義的模式(pattern)和規則(rule)的業務流程。
這里談到了發現模式與規則,其實就是一項業務流程,為業務服務。而我們要做就是讓業務做起來顯得更簡單,或直接幫助客戶如何提升業務。在大量的數據中找到有意義的模式和規則。在大量數據面前,數據的獲得不再是一個障礙,而是一個優勢。在現在很多的技術在大數據集上比在小數據集上的表現得更好——你可以用數據產生智慧,也可以用計算機來完成其最擅長的工作:提出問題并解決問題。模式和規則的定義:就是發現對業務有益的模式或規則。發現模式就意味著把保留活動的目標定位為最有可能流失的客戶。這就意味著優化客戶獲取資源,既考慮客戶數量上的短期效益,同時也考慮客戶價值的中期和長期收益。
而在上面的過程,最重要的一點就是:如何通過數據挖掘技術來維護與客戶之間的關系,這就是客戶關系管理,CRM。
專注于數據挖掘在營銷和客戶關系管理方面的應用——例如,為交叉銷售和向上銷售改進推薦,預測未來的用戶級別,建模客戶生存價值,根據用戶行為對客戶進行劃分,為訪問網站的客戶選擇最佳登錄頁面,確定適合列入營銷活動的候選者,以及預測哪些客戶處于停止使用軟件包、服務或藥物治療的風險中。
兩種關鍵技術:生存分析、統計算法。在加上文本挖掘和主成分分析。
經營有方的小店自然地形成與客戶之間的學習關系。隨著時間的推移,他們對客戶的了解也會越來越多,從而可以利用這些知識為他們提供更好的服務。結果是:忠實的顧客和盈利的商店。
但是擁有數十萬或數百萬客戶的大公司,則不能奢望與每個客戶形成密切的私人關系。面臨這樣困境,他們必須要面對的是,學會充分利用所擁有的大量信息——幾乎是每次與客戶交互產生的數據。這就是如何將客戶數據轉換成客戶知識的分析技術。
數據挖掘是一項與業務流程交互的業務流程。數據挖掘以數據作為開始,通過分析來啟動或激勵行為,這些行為反過來又將創建更多需要數據挖掘的數據。
因此,對于那些充分利用數據來改善業務的公司來說,不應僅僅把數據挖掘看作是細枝末節。相反,在業務策略上必須包含:1、數據收集。2、為長期利益分析數據。3、針對分析結果做出分析。
CRM(客戶關系管理系統)。在各行各業中,高瞻遠矚的公司的目標都是理解每個客戶,并通過利用這種理解,使得客戶與他們做生意更加容易。同樣要學習分析每個客戶的價值,清楚哪些客戶值得投資和努力來保留,哪些準許流失。把一個產品為中心的企業轉變成以客戶為中心的企業的代價超過了數據挖掘。假設數據挖掘的結果是像一個用戶推薦一個小首飾而不是一個小發明,但是如果經理的獎金取決于小發明的季度銷售量而不是小首飾的銷售量(即便后者更為有利可圖或者收獲長期盈利更多的客戶),那么數據挖掘的結果就會被忽視,這就導致挖掘結果不能產生決策。
我們要學會:從記錄的內容中學習。
為什么是現在要學會:
數據正在產生,不斷的產生,不斷的更新數據正在存儲在數據倉庫中——數據倉庫以一個共同的格式匯集許多不同來源的數據,具有一致格式的關鍵字和字段定義。業務系統旨在快速向終端提供結果,就對數據的格式和字段有額外的要求。數據倉庫的建立是為提供決策而設計,簡化數據挖掘工作者的工作。計算能力能夠承受對客戶關系管理的興趣非常強烈商業的數據發掘軟件已經形成數據挖掘人員的技能:需要有數字技能Excel表格使用能力,現在Excel表格處理能力相當強大。自從Office 365出來之后,此勢不可小覷。一種態度:不畏懼為了得到結果可能需要處理大數據量和復雜的過程。處理大型數據集、數據倉庫以及分析沙箱是數據挖掘成功的關健。數據挖掘不僅僅是產生技術結果,結果必須用來幫助人們(或者幫助越來越多自動化的流程)做出更明智的決定。產生技術結果只是第一步,通過結果了解真正的需求,把結果轉化為信息,信息轉化為行動,行動轉化為價值,才是真正的目的。數據挖掘的良性循環的重心在于業務的結果,而不只是利用先進的技術。識別業務機會挖掘數據將其轉換成可操作的信息根據信息采取行動度量結果
數據挖掘成功的關鍵是把其結合到業務流程中,并能夠促進數據挖掘人員和使用結果的業務用戶之間的通信。首先,必須明確,找到合適的業務需求,很多的人員,沒有在意這一點,導致解決的是對業務沒有幫助的問題。
在面臨不斷日新的社會,進步,遠不在改變,而在與變中的不變。即使改變時絕對的,但是仍有未改進之處以及沒有可能改變的方向:如果經驗不會保留,永遠保持幼年,那些不吸取教訓的人,注定要重蹈覆轍。
當與業務人員討論數據挖掘的機會時,確保重心在業務而不是技術和算法。讓我們的技術專家專注技術,同時讓我們業務專家專注業務。
電信客戶流失:
一個關鍵因素是過度呼叫,新的客戶在第一個月使用的分鐘數超過了他們的費用的計劃,當第一月的的賬單往往在第二月中旬送達客戶,客戶才了解費用使用計劃。到那個時候,客戶已經在第二個月產生了一個很大的賬單,導致客戶很不快樂。遺憾的是客戶服務人員也要等相同的時間等賬單周期到之后才能檢測到過度使用的狀況,致使沒有時間來主動反應。其實在這個過程中導致問題產生的原因就是,反饋時間的問題,如果在這個月末,分析報告能夠給出明確的預測或建議,上面的問題就會有很大的改善。這中間可以能也會包括運營商之間的手段問題,這個暫時不考慮。
上述問題折中的解決辦法:新生的數據挖掘組擁有資源,而且已經鑒別和調查了適當的數據源。采用一些相當簡單的程序,該小組能夠在這些客戶中第一次過度呼叫時把他們標識出來。使用這個信息,客戶中心能夠聯系處于風險中的客戶,并在第一個賬單失效之前把他們移到適當的賬單計劃中。
問題很簡單:在實驗室工作的很好的模型,為什么走出實驗室就不能工作?一個問題在于它通過記憶數據過擬合了模型集。這就導致在實驗室很成功的模型,拿到實際就令人很失望。建模的目標不是產生最好的模型。數據挖掘的目標是能處理現實世界中的問題,從而可以影響某種變化。你需要的穩定,即該模型不僅在模型集中工作的很好,在未知的數據上工作的也得很好。
導致不穩定有四大原因:
1、把事情搞錯:由于不了解具體的需求,就動手。導致矛盾在實際過程中爆發。
2、過擬合:該模型記憶模型集,而不是認識更多的一般模式。人們很在意認識模式(字面上的認識),致使認識模式可能脫穎而出。而認識模式(實際意義)卻并非如此。一個過擬合的例子。
3、樣本偏置:利用建立模型的數據無法準確地反映真實的世界,當不是通過原始數據的隨機抽樣創建模型時,這問題就可能發生。比如:一個地區的數據與另一個地區數據的關鍵詞不同,所以不能硬性的把一個地區的數據強加到另一個地區。
4、未來的事情可能與過去的不一樣:模型是建立在歷史數據上的,但利用在其他時段。這里隱含一個假設——用過去發生的事情指導未來發生的事情。雖然不要求模型總是假設過去式未來的序幕。
時間幀:
模型集中的每個變量都有一個與它相關的時間幀,它描述了該變量產生作用的時間段??梢岳斫鉃閷υ谶^去一段時間的數據的整合,超過這個時間的數據就作廢。
輸入變量和目標變量都有時間幀。輸入變量的時間幀嚴格早于目標變量,任何建立在此模型集上的模型都是一種預測模型。另一方面:當輸入變量和目標來自同一個時間幀內,它們產生剖析模型。
預測模型:
很多數據挖掘問題都可以概括為預測問題:基于過去的響應,基于過去的相應,誰將會有相應?基于過去的注銷記錄,誰有一個不良風險?解決問題最好的辦法是限定輸入變量嚴格產生于目標變臉之前。
如:考慮到一個零售商,它擁有一個目標網站,并計劃在9月份舉行一個活動。我們的目的,收集9月1日之前的數據,并對這些數據建立一個模型,以確定哪些客戶才加該活動,以及應采用哪些的營銷措施。應該使用什么樣的數據建立模型?而且應該使用相同時間段的數據進行此模型評分。把日歷回翻一年,即前一年的9月1日,對那個用戶數據作為一個起點,然后把結束日期放到去年年底的營銷數據上,這種就保證沒有“未來”數據的輸入信息會影響模型的目標估計能力。
預測面臨的挑戰是創建模型集所需的工作量。把日歷往回翻,這一做法寫起來很容易,但是在以客戶為中心、規范化的數據倉庫中很難實現。目的結果是為了獲取更穩定的結果,這些模型能發現導致客戶的一些重要行為的原因。
剖析模型:
剖析,從字面上的理解是,基于人口統計變量,例如:地理位置、性別和年齡等。剖析模型能發現同一條件下的關系,但他們不能指出原因和影響。出于這個原因,剖析模型經常使用客戶的人口統計信息作為輸入,而把客戶行為作為目標,在這種情況下,確定原因和影響更直觀。
有指導數據挖掘方法:
·把業務問題轉換為數據挖掘問題·選擇合適的數據·認識數據·創建一個模型集·修復問題數據·轉換數據以揭示信息·構建模型評估模型部署模型評估結果重新開始