數據模型可以從兩個角度來區分:數據和業務。
一、數據模型
統計數據視角的實體模型通常指的是統計分析或大數據挖掘、深度學習、人工智能技術等種類的實體模型,這些模型是從科學研究視角去往界定的。
1、降維
對大量的數據和大規模的數據進行數據挖掘時,往往會面臨“維度災害”。 數據集的維度在無限地增加,但由于計算機的處理能力和速度有限,此外,數據集的多個維度之間可能存在共同的線性關系。這會立即造成學習模型的可擴展性不足,乃至許多那時候優化算法結果會無效。因而,人們必須減少層面總數并減少層面間共線性危害。
數據降維也稱為數據歸約或數據約減。它的目的就是為了減少數據計算和建模中涉及的維數。有兩種數據降維思想:一種是基于特征選擇的降維,另一種是基于維度變換的降維。
2、回歸
回歸是一種數據分析方法,它是研究變量X對因變量Y的數據分析。我們了解的最簡答的回歸模型就是一元線性回歸(只包含一個自變量和因變量,并且晾在這的關系可以用一條直線表示)。
回歸分析根據自變量的數量分為單回歸模型和多元回歸模型。根據影響是否是線性的,可以分為線性回歸和非線性回歸。
3、聚類
我們都聽過“物以類聚,人以群分”這個詞語,這個是聚類分析的基本思想。聚類分析法是大數據挖掘和測算中的基礎每日任務,聚類分析法是將很多統計數據集中化具備“類似”特點的統計數據點區劃為一致類型,并最后轉化成好幾個類的方式。大量數據集中必須有相似的數據點。基于這一假設,可以區分數據,并且可以找到每個數據集(分類)的特征。
4、分類
分類算法根據對己知類型訓煉集的測算和剖析,從文中發覺類型標準,為此分折新統計數據的類型的類別優化算法。分類算法是解決分類問題的一種方法,是數據挖掘、機器學習和模式識別的一個重要研究領域。
5、關聯
關聯規則學習根據尋找最能解釋數據變量之間關系的規則,在大量多元數據集中找到有用的關聯規則。這是一種從大量數據中找出各種數據之間關系的方法。此外,它還可以挖掘基于時間序列的各種數據之間的關系。
6、時間序列
時間序列是一種用于研究數據隨時間變化的算法,是一種常用的回歸預測方法。原則是事物的連續性。所謂連續性,是指客觀事物的發展具有規律性的連續性,事物的發展是按照其內在規律進行的。在一定的條件下,只要規則作用的條件不發生質的變化,事物的基本發展趨勢就會持續到未來。
7、異常數據檢測
在大多數數據挖掘或數據工作中,異常值將被視為“噪聲”,并在數據預處理過程中消除,以避免其對整體數據評估和分析挖掘的影響。然而,在某些情況下,如果數據工作的目標是關注異常值,這些異常值將成為數據工作的焦點。
數據集中的異常數據通常被稱為異常點、異常值或孤立點等。典型的特征是這些數據的特征或規則與大多數數據不一致,表現出“異常”的特征。檢測這些數據的方法稱為異常檢測。
二、業務模型
業務流程實體模型指的是對于某一業務流程情景而界定的,用以解決困難的某些實體模型,這種實體模型跟上邊實體模型的差別取決于情景化的運用。
1、會員數據化運營分析模型
類型:會員細分模型、會員價值模型、會員活躍度模型、會員流失預測模型、會員特征分析模型、市場營銷回應預測模型。
2、商品數據化運營分析模型
類型:商品價格敏感度模型、新產品市場定位模型、銷售預測模型、商品關聯銷售模型、異常訂單檢測模型、商品規劃的最優組合。
3、流量數據化運營分析模型
類型:流量波動檢測、渠道特征聚類、廣告整合傳播模型、流量預測模型。
4、內容數據化運營分析模型
類型:情感分析模型、搜索優化模型、文章關鍵字模型、主題模型、垃圾信息檢測模型。