數據挖掘主要做什么?換而言之,數據挖掘主要解決什么問題呢?這些問題,可以歸結為數據挖掘的基本任務。
數據挖掘的基本任務包括分類與預測、聚類分析、關聯規則、奇異值檢測和智能推薦等。通過完成這些任務,發現數據的價值,指導商業抉擇,帶來商業新價值。
關于這些基本任務,簡單描述如下。實際上對每個基本任務,可以看做是數據挖掘所能解決問題的一種類型。對于每個任務,可以從其定義、方法、評價和應用四個方面來認識。
分類與預測,一種基于類標號的學習方式,這種類標號若是離散的,屬于分類問題;若是連續的,屬于預測問題,或者稱為回歸問題。從廣義上來說,不管是分類,還是回歸,都可以看做是一種預測,差異就是預測的結果是離散的還是連續的。
聚類分析,就是“物以類聚,人以群分”在原始數據集中的運用,其目的是把原始數據聚成幾類,從而使得類內相似度高,類間差異性大。
關聯規則,數據挖掘可以用來發現規則,關聯規則屬于一種非常重要的規則,即通過數據挖掘方法,發現事務數據背后所隱含的某一種或者多種關聯,從而利用這些關聯來指導商業決策和行為。
奇異值檢測,根據一定準則識別或者檢測出數據集中的異常值,所謂異常值就是和數據集中的絕大多數據表現不一致。
智能推薦,這是數據挖掘一個很活躍的研究和應用領域,在各大電商網站中都會有各種形式推薦,比方說同類用戶所購買的產品,與你所購買產品相關聯的產品等。
對于每一種基本任務,除了了解它們具體可以做什么,重要的是要學習每一個任務有哪些行之有效的方法。舉個例子來說,分類與預測,常用的方法有決策樹、神經網絡、最近鄰、樸素貝葉斯、支持向量機、隨機森林等,因而對于這些典型的方法具體原理是什么,怎么使用,各自有著什么樣的特點,都應該深入地理解,接下來就是針對特定數據挖掘問題,思考其屬于哪一種類型的任務,然后根據任務的具體特點,選擇合適的方法來處理,并且對基于各種方法所建立的數據挖掘模型,要進行客觀地評估,已選擇最佳模型。
對于每一個基本任務具體有哪些方法,我會在后續進行總結。在這里,僅是說說數據挖掘主要解決什么問題,至于對于這些問題具體怎么來解決,針對每一種類型,會在后續的文章中逐一說來。
最后,借用這一段話收尾“數據就是21世紀的原油,需要加工才能產生價值。我們用數據做什么?怎樣帶來價值?目前常見的大概有五個方向:預測,推薦,問題識別,個性化,以及參考。預測,尤其是近期預測,以Google Flu Trends為代表,結合歷史數據推斷近期是否會爆發流感。內容推薦,以Netflix為代表,他們當時為電影評分推薦引擎專門設置了一個獎項。問題識別,如城市堵車問題,有一家叫做Inrix的公司在37個國家提供實時交通信息。個性化,以LinkedIn的Economic Graph為代表。公共參考這一塊,我很欣賞的一個非盈利組織DataKind做得很不錯,他們在全球很多國家都提供數據點,涉及饑餓問題、氣候問題等。另外美國政府在數據這方面也有很大投入,他們聘請了DJ Patil作為首席數據科學家,也建立了data.gov網站公布很多政務信息。”