精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

大數(shù)據(jù)分析的4個核心概念

責任編輯:zsheng

2018-11-08 11:54:37

摘自:大數(shù)據(jù)觀察

K―平均算法是一種得到廣泛應(yīng)用的基于劃分的聚類算法。其把M個對象分為N個簇,使得每個簇內(nèi)具有較高的相似度。

K―平均算法

K―平均算法是一種得到廣泛應(yīng)用的基于劃分的聚類算法。其把M個對象分為N個簇,使得每個簇內(nèi)具有較高的相似度。

在應(yīng)用該算法進行數(shù)據(jù)分析時,首先應(yīng)輸入包含M個對象的數(shù)據(jù)集A以及簇的數(shù)目N。從A中任意選擇N個對象作為初始簇中心并且不斷重復(fù),隨后計算出簇中對象的均值,將每個對象分配到最相似的簇并且不斷更新簇均值,最后計算準則函數(shù)直到其不再發(fā)生變化為止。因為該算法的復(fù)雜度大約是0(nkt),所以該算法在處理大數(shù)據(jù)集時是相對可伸縮的和高效率的。

奇異分解值

假設(shè)A是一個m×n階矩陣,其中的元素全部屬于實數(shù)域或復(fù)數(shù)域。如此則存在一個分解使得A=U∑V*。其中U是m×m階酉矩陣,Σ是半正定m×n階對角矩陣,而V*是n×n階酉矩陣的共軛轉(zhuǎn)置矩陣。這樣的分解就稱為A的奇異值分解。

在MATLAB仿真軟件中計算奇異值分解的函數(shù)式為:[b.c.d]=svd(x)

主成分分析(PCA算法)

從宏觀上來說,主成分分析是指在研究一項變量較多的課題時,將這些變量通過線性變換而簡化為幾個重要變量的一種多元統(tǒng)計分析方法。而在數(shù)據(jù)分析領(lǐng)域,主成分分析的主要作用是對大規(guī)模的數(shù)據(jù)集進行分析與簡化。其主要體現(xiàn)在降低數(shù)據(jù)集的維數(shù),同時盡可能保持數(shù)據(jù)集中的對所研究的問題最有價值的特征。簡而言之,就是保留低階主成分,忽略高階主成分。其具體方法是通過對協(xié)方差矩陣進行特征分解,從而得出數(shù)據(jù)的特征向量與特征值。主成分分析在數(shù)學(xué)上可以理解為一個正交化的線性變換,把數(shù)據(jù)整體變換到一個新的坐標系中,使得這一數(shù)據(jù)的任何投影的第一大方差在第一主成分上,第二大方差在第二主成分上,依次類推。

決策樹學(xué)習(xí)

從廣義上講,決策樹是一種運用圖解法的概率分析,即在已知各種事件發(fā)生概率的基礎(chǔ)上,通過構(gòu)建決策樹來探究期望值大于等于零的概率,同時判斷可行性的決策分析方法。

決策樹學(xué)習(xí)是數(shù)據(jù)分析領(lǐng)域常用的方法,其目的是構(gòu)建一個模型來預(yù)測樣本的目標值。一棵決策樹的訓(xùn)練就是依據(jù)一個既定指標,將訓(xùn)練數(shù)據(jù)集分為幾個子集并且在所產(chǎn)生的子集中不斷重復(fù)此方法的過程,直到一個訓(xùn)練子集的類標都相同時為止。決策樹主要有兩種類型:分類樹和回歸樹。其中分類樹的輸出是樣本的類標,而回歸樹輸出的是一個實數(shù)。決策樹的優(yōu)點體現(xiàn)在即可以處理數(shù)值型數(shù)據(jù)也可以處理類別型數(shù)據(jù),并且適合處理大規(guī)模數(shù)據(jù)。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6京公網(wǎng)安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 仲巴县| 栖霞市| 沙湾县| 绥宁县| 休宁县| 穆棱市| 德州市| 芮城县| 丹棱县| 洪洞县| 永德县| 瑞金市| 合川市| 札达县| 米泉市| 论坛| 遂宁市| 伊金霍洛旗| 和田市| 错那县| 庆城县| 盐津县| 潼南县| 资兴市| 龙井市| 衡水市| 安龙县| 竹山县| 灵丘县| 尉氏县| 伊吾县| 丽水市| 武胜县| 宽城| 呼玛县| 普定县| 开阳县| 梅州市| 安阳市| 卢湾区| 东乡族自治县|