精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

數據挖掘基本任務

責任編輯:editor006 作者:王路情 |來源:企業網D1Net  2015-07-23 17:47:58 本文摘自:王路情博客

數據挖掘

數據挖掘主要做什么?換而言之,數據挖掘主要解決什么問題呢?這些問題,可以歸結為數據挖掘的基本任務。

數據挖掘的基本任務包括分類與預測、聚類分析、關聯規則、奇異值檢測和智能推薦等。通過完成這些任務,發現數據的價值,指導商業抉擇,帶來商業新價值。

關于這些基本任務,簡單描述如下。實際上對每個基本任務,可以看做是數據挖掘所能解決問題的一種類型。對于每個任務,可以從其定義、方法、評價和應用四個方面來認識。

分類與預測,一種基于類標號的學習方式,這種類標號若是離散的,屬于分類問題;若是連續的,屬于預測問題,或者稱為回歸問題。從廣義上來說,不管是分類,還是回歸,都可以看做是一種預測,差異就是預測的結果是離散的還是連續的。

聚類分析,就是“物以類聚,人以群分”在原始數據集中的運用,其目的是把原始數據聚成幾類,從而使得類內相似度高,類間差異性大。

關聯規則,數據挖掘可以用來發現規則,關聯規則屬于一種非常重要的規則,即通過數據挖掘方法,發現事務數據背后所隱含的某一種或者多種關聯,從而利用這些關聯來指導商業決策和行為。

奇異值檢測,根據一定準則識別或者檢測出數據集中的異常值,所謂異常值就是和數據集中的絕大多數據表現不一致。

智能推薦,這是數據挖掘一個很活躍的研究和應用領域,在各大電商網站中都會有各種形式推薦,比方說同類用戶所購買的產品,與你所購買產品相關聯的產品等。

對于每一種基本任務,除了了解它們具體可以做什么,重要的是要學習每一個任務有哪些行之有效的方法。舉個例子來說,分類與預測,常用的方法有決策樹、神經網絡、最近鄰、樸素貝葉斯、支持向量機、隨機森林等,因而對于這些典型的方法具體原理是什么,怎么使用,各自有著什么樣的特點,都應該深入地理解,接下來就是針對特定數據挖掘問題,思考其屬于哪一種類型的任務,然后根據任務的具體特點,選擇合適的方法來處理,并且對基于各種方法所建立的數據挖掘模型,要進行客觀地評估,已選擇最佳模型。

對于每一個基本任務具體有哪些方法,我會在后續進行總結。在這里,僅是說說數據挖掘主要解決什么問題,至于對于這些問題具體怎么來解決,針對每一種類型,會在后續的文章中逐一說來。

最后,借用這一段話收尾“數據就是21世紀的原油,需要加工才能產生價值。我們用數據做什么?怎樣帶來價值?目前常見的大概有五個方向:預測,推薦,問題識別,個性化,以及參考。預測,尤其是近期預測,以Google Flu Trends為代表,結合歷史數據推斷近期是否會爆發流感。內容推薦,以Netflix為代表,他們當時為電影評分推薦引擎專門設置了一個獎項。問題識別,如城市堵車問題,有一家叫做Inrix的公司在37個國家提供實時交通信息。個性化,以LinkedIn的Economic Graph為代表。公共參考這一塊,我很欣賞的一個非盈利組織DataKind做得很不錯,他們在全球很多國家都提供數據點,涉及饑餓問題、氣候問題等。另外美國政府在數據這方面也有很大投入,他們聘請了DJ Patil作為首席數據科學家,也建立了data.gov網站公布很多政務信息。”

關鍵字:數據挖掘Netflix

本文摘自:王路情博客

x 數據挖掘基本任務 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

數據挖掘基本任務

責任編輯:editor006 作者:王路情 |來源:企業網D1Net  2015-07-23 17:47:58 本文摘自:王路情博客

數據挖掘

數據挖掘主要做什么?換而言之,數據挖掘主要解決什么問題呢?這些問題,可以歸結為數據挖掘的基本任務。

數據挖掘的基本任務包括分類與預測、聚類分析、關聯規則、奇異值檢測和智能推薦等。通過完成這些任務,發現數據的價值,指導商業抉擇,帶來商業新價值。

關于這些基本任務,簡單描述如下。實際上對每個基本任務,可以看做是數據挖掘所能解決問題的一種類型。對于每個任務,可以從其定義、方法、評價和應用四個方面來認識。

分類與預測,一種基于類標號的學習方式,這種類標號若是離散的,屬于分類問題;若是連續的,屬于預測問題,或者稱為回歸問題。從廣義上來說,不管是分類,還是回歸,都可以看做是一種預測,差異就是預測的結果是離散的還是連續的。

聚類分析,就是“物以類聚,人以群分”在原始數據集中的運用,其目的是把原始數據聚成幾類,從而使得類內相似度高,類間差異性大。

關聯規則,數據挖掘可以用來發現規則,關聯規則屬于一種非常重要的規則,即通過數據挖掘方法,發現事務數據背后所隱含的某一種或者多種關聯,從而利用這些關聯來指導商業決策和行為。

奇異值檢測,根據一定準則識別或者檢測出數據集中的異常值,所謂異常值就是和數據集中的絕大多數據表現不一致。

智能推薦,這是數據挖掘一個很活躍的研究和應用領域,在各大電商網站中都會有各種形式推薦,比方說同類用戶所購買的產品,與你所購買產品相關聯的產品等。

對于每一種基本任務,除了了解它們具體可以做什么,重要的是要學習每一個任務有哪些行之有效的方法。舉個例子來說,分類與預測,常用的方法有決策樹、神經網絡、最近鄰、樸素貝葉斯、支持向量機、隨機森林等,因而對于這些典型的方法具體原理是什么,怎么使用,各自有著什么樣的特點,都應該深入地理解,接下來就是針對特定數據挖掘問題,思考其屬于哪一種類型的任務,然后根據任務的具體特點,選擇合適的方法來處理,并且對基于各種方法所建立的數據挖掘模型,要進行客觀地評估,已選擇最佳模型。

對于每一個基本任務具體有哪些方法,我會在后續進行總結。在這里,僅是說說數據挖掘主要解決什么問題,至于對于這些問題具體怎么來解決,針對每一種類型,會在后續的文章中逐一說來。

最后,借用這一段話收尾“數據就是21世紀的原油,需要加工才能產生價值。我們用數據做什么?怎樣帶來價值?目前常見的大概有五個方向:預測,推薦,問題識別,個性化,以及參考。預測,尤其是近期預測,以Google Flu Trends為代表,結合歷史數據推斷近期是否會爆發流感。內容推薦,以Netflix為代表,他們當時為電影評分推薦引擎專門設置了一個獎項。問題識別,如城市堵車問題,有一家叫做Inrix的公司在37個國家提供實時交通信息。個性化,以LinkedIn的Economic Graph為代表。公共參考這一塊,我很欣賞的一個非盈利組織DataKind做得很不錯,他們在全球很多國家都提供數據點,涉及饑餓問題、氣候問題等。另外美國政府在數據這方面也有很大投入,他們聘請了DJ Patil作為首席數據科學家,也建立了data.gov網站公布很多政務信息。”

關鍵字:數據挖掘Netflix

本文摘自:王路情博客

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 永和县| 阜新市| 融水| 水富县| 满洲里市| 香河县| 长葛市| 垫江县| 广元市| 徐闻县| 蒙阴县| 常熟市| 淮南市| 大同市| 九龙县| 辽中县| 丹寨县| 泉州市| 武山县| 周口市| 钟山县| 曲阳县| 美姑县| 平凉市| 宁河县| 嘉善县| 东兴市| 紫云| 阿合奇县| 九台市| 汽车| 深水埗区| 探索| 道孚县| 防城港市| 宁津县| 南郑县| 陈巴尔虎旗| 龙泉市| 德昌县| 宜兰市|