精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

互聯網和金融,在數據挖掘上究竟存在什么區別?

責任編輯:editor005

2015-11-20 13:59:22

摘自:微頭條

一直想整理下對數據挖掘不同層次的理解,這也是這兩年多的時間里面,和很多金融領域、互聯網做數據相關工作的小伙伴,聊天交流的一些整理和歸納。

一、數據挖掘的層次

一直想整理下對數據挖掘不同層次的理解,這也是這兩年多的時間里面,和很多金融領域、互聯網做數據相關工作的小伙伴,聊天交流的一些整理和歸納。大概可以分為四類:

  (一)純粹的數據加工

側重于變量加工和預處理, 從源系統或數據倉庫,對相關數據進行提取、加工、衍生處理,生成各種業務表。然后,以客戶號為主鍵,把這些業務表整合匯總,最終可以拉出一張大寬表,這張寬表就可以稱之為“客戶畫像”。即,有關客戶的很多變量和特征的集合。

在這個階段,主要的數據加工工具為SQL和SAS base。

(二)傻瓜式的挖掘工具

較為典型的就是SAS EM和clementine,里面嵌入很多較為傳統成熟的算法、模塊和節點(例如邏輯回歸、決策樹、SVM、神經網絡、KNN、聚類等)。 通過鼠標的托拉拽,流程式的節點,基本上就可以實現你挖掘數據的需求。

傻瓜式操作的優點就是使得數據挖掘,入手非常快,較為簡單。但是,也存在一些缺陷,即,使得這個挖掘過程變得有點單調和無趣。沒辦法批量運算模型,也沒辦法開發一些個性化的算法和應用。用的比較熟練,并且想要進一步提升的時候,建議把這兩者拋棄。

(三)較為自由的挖掘工具

較為典型的就是R語言和Python。這兩個挖掘工具是開源的,前者是統計學家開發的,后者是計算機學家開發的。

一方面,可以有很多成熟的、前沿的算法包調用,另外一方面,還可以根據自己的需求,對既有的算法包進行修改調整,適應自己的分析需求,較為靈活。此外,Python在文本、非結構化數據、社會網絡方面的處理,功能比較強大。

(四)算法拆解和自行開發

一般會利用Python、C、C++,自己重新編寫算法代碼。例如,通過自己的代碼實現邏輯回歸運算過程。甚至,根據自己的業務需求和數據特點,更改其中一些假定和條件,以便提高模型運算的擬合效果。尤其,在生產系統上,通過C編寫的代碼,運行速度比較快,較易部署,能夠滿足實時的運算需求。

一般來說,從互聯網的招聘和對技能的需求來說,一般JD里面要求了前三種,這樣的職位會被稱為 “建模分析師” 。但是如果增加上了最后一條,這樣的職位或許就改稱為 “算法工程師” 。

二、模型的理解:傳統的和時髦的

據理解, 模型應該包括兩種類型。一類是傳統的較為成熟的模型,另外一類是較為時髦有趣的模型。 對于后者,大家會表現出更多的興趣,一般是代表著新技術、新方法和新思路。

(一)傳統的模型

傳統的模型,主要就是為了解決分類(例如決策樹、神經網絡、邏輯回歸等)、預測(例如回歸分析、時間序列等)、聚類(kmeans、系譜、密度聚類等)、關聯(無序關聯和有序關聯)這四類問題。這些都是較為常規和經典的。

(二)時髦有趣的模型

比較有趣、前沿的模型,大概包括以下幾種類型,即 社會網絡分析、文本分析、基于位置的服務(Location-Based Service,LBS)、數據可視化等。

它們之所以比較時髦,可能的原因是,采用比較新

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 黑河市| 瓦房店市| 林周县| 贵港市| 邵武市| 梓潼县| 玛多县| 邵武市| 钦州市| 湖州市| 视频| 布尔津县| 乐都县| 怀集县| 鄄城县| 时尚| 莱芜市| 尼木县| 台东县| 翁牛特旗| 上饶县| 仙游县| 开封市| 浦县| 龙陵县| 毕节市| 色达县| 长沙县| 黄冈市| 桂阳县| 盐津县| 衡南县| 遂昌县| 通道| 美姑县| 永年县| 辽宁省| 聊城市| 株洲市| 灵川县| 龙门县|