精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

走進大數據之拓撲數據分析方法

責任編輯:editor007 |來源:企業網D1Net  2017-01-19 19:06:31 本文摘自:搜狐IT

拓撲數據分析(TDA),顧名思義,就是把拓撲學與數據分析結合的一種分析方法,用于深入研究大數據中潛藏的有價值的關系。

相比于主成分分析、聚類分析這些常用的方法,TDA不僅可以有效地捕捉高維數據空間的拓撲信息,而且擅長發現一些用傳統方法無法發現的小分類。這種方法也因此曾在基因與癌癥研究領域大顯身手。

1、 什么是拓撲數據分析

拓撲學研究的是一些特殊的幾何性質,這些性質在圖形連續改變形狀后還能繼續保持不變,稱為“拓撲性質”。而在復雜的高維數據內部也存在著類似的結構性質,我們可以形象地稱之為數據的形狀(特征)。

和通常研究的成對關系相比,這種相互關系的形狀之中可能潛藏了巨大的研究價值。要理解數據的形狀,就必須求助于拓撲學。TDA所做的就是抽取這種形狀并進行分析。

那么到底如何來刻畫數據的形狀呢?下圖是一個簡單的例子:

左邊是一只手的采樣數據點,宏觀看來像一只手。右邊則是經過拓撲數據分析得到的圖,有點像一只手的骨架。從左邊到右邊,就是一次形狀重構的過程。這種重構用了很少量的點和邊去刻畫原始數據集,同時保留了原始數據的基本特征。

2、 拓撲數據分析的三個要點

1)TDA的輸入可以是一個距離矩陣,表示任意兩數據點之間的距離。

它研究的是與坐標無關的形狀,完全不受坐標的限制。這也意味著拓撲形狀的構建依賴于距離函數的定義,或者說相似度概念的定義。坐標無關的特性,使得TDA可以整合來自不同平臺的數據,盡管這些數據的結構不太一樣,你只需要給出合理的距離函數。這是TDA的一個優點,通用性。

舉個例子,TDA在癌癥分析領域的成功,這種通用性是一個重要原因。因為不同癌癥數據集的指標、結構都不盡相同,而TDA可以輕松整合。

2)TDA研究的數據形狀,可以容忍數據小范圍的變形與失真。

想象在一塊橡皮上寫了一個字母”A”,你用力擠壓拉扯這塊橡皮,字母”A”雖然有點扭曲變形,但是“一個三角形帶兩個腳”這樣的基本特征仍然存在。從上面“手”的例子也可以看出,TDA對小誤差的容忍度很大。

3)如果我們要粗略的描繪一個湖泊輪廓,最簡潔的就是使用一個多邊形。

拓撲處理的是抽象的形狀,最典型的例子就是用六邊形來表示圓,這只需要用到6個點和6條邊。

TDA使用這種形式壓縮數據,用有限的點和邊來表示大量的數據,并且保留了數據重要的特征。

3、 拓撲數據分析的主要步驟

用一個濾波函數對每個數據點計算一個濾波值。這個濾波函數可以是數據矩陣的線性投影,比如PCA。也可以是距離矩陣的密度估計或者中心度指標,比如L-infinity(L-infinity的取值是該點到離它最遠的點的距離,是一個中心度指標)。

數據點按照其濾波值,從小到大被分到不同的濾波值區間里。參照下圖中“手”被切成等寬的塊。但需要注意的是,相鄰的濾波值區間設置有一定的重疊區域,也就是重疊區域的點同時屬于兩個區間(這一點很重要)。

對每個區間里的數據分別做聚類。

把上一步驟中各區間聚類的得到的小類放在一起,每一個小類用一個大小不同的圓表示。若兩個類之間存在相同的原始數據點(這就是區間需要相互重疊的原因),則在它們之間加上一條邊。

對上述圓和邊組成的圖形施加一層力學布局,讓其達到平衡,就得到最終的“數據圖形”。

下圖是一個簡單的示意圖,便于理解:

  4、 案例:ayasdi公司關于NBA球員的研究

有一份關于NBA球員的數據集,這份數據集編碼了球員在場上表現的各個方面,包括籃板、助攻、失誤、搶斷、封鎖、犯規、得分等各項指標的每分鐘頻率。對這份數據集進行拓撲化后,得到了下面這張圖。

籃球運動員的位置一般分為控球后衛、得分后衛、小前鋒、大前鋒、中鋒。然而在上圖的網絡中,我們看到了比傳統的五個位置更為精細的結構。比如在網絡的左側,守衛被細分成了三個組,攻擊守衛、防守守衛、擊球守衛。在網絡的中下部我們可以看到三個比較小的塊,其中有“NBA全明星”(Allstar NBA) 和“NBA全明星第二梯隊”(Allstar NBA 2nd Team)。

“NBA全明星”這個組幾乎由NBA歷史上最優秀的球員組成,“第二梯隊”雖然也都是由全能的優秀球員組成但表現上可能不如全明星組。

有意思的是,在全明星組中還有一些不太知名的球員,這些球員也許就是潛在的未來明星球員。

寫在最后

拓撲數據分析作為一種強大的工具,已經開始被廣泛的應用。在未來基于TDA的算法肯定會不斷的提出和完善。目前關于TDA詳細的中文資料比較少,附上一份簡單的python實現以供交流。

https://github.com/yxdong/tda

本文作者:楊曉東(點融黑幫),任職于點融data團隊,喜歡徒步,愛好動漫,每天下午點奶茶,歡迎交流或者拼單。

本文由@點融黑幫(ID:DianrongMafia)原創發布于搜狐科技,未經許可,禁止轉載。

關鍵字:大前鋒TDA數據點

本文摘自:搜狐IT

x 走進大數據之拓撲數據分析方法 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

走進大數據之拓撲數據分析方法

責任編輯:editor007 |來源:企業網D1Net  2017-01-19 19:06:31 本文摘自:搜狐IT

拓撲數據分析(TDA),顧名思義,就是把拓撲學與數據分析結合的一種分析方法,用于深入研究大數據中潛藏的有價值的關系。

相比于主成分分析、聚類分析這些常用的方法,TDA不僅可以有效地捕捉高維數據空間的拓撲信息,而且擅長發現一些用傳統方法無法發現的小分類。這種方法也因此曾在基因與癌癥研究領域大顯身手。

1、 什么是拓撲數據分析

拓撲學研究的是一些特殊的幾何性質,這些性質在圖形連續改變形狀后還能繼續保持不變,稱為“拓撲性質”。而在復雜的高維數據內部也存在著類似的結構性質,我們可以形象地稱之為數據的形狀(特征)。

和通常研究的成對關系相比,這種相互關系的形狀之中可能潛藏了巨大的研究價值。要理解數據的形狀,就必須求助于拓撲學。TDA所做的就是抽取這種形狀并進行分析。

那么到底如何來刻畫數據的形狀呢?下圖是一個簡單的例子:

左邊是一只手的采樣數據點,宏觀看來像一只手。右邊則是經過拓撲數據分析得到的圖,有點像一只手的骨架。從左邊到右邊,就是一次形狀重構的過程。這種重構用了很少量的點和邊去刻畫原始數據集,同時保留了原始數據的基本特征。

2、 拓撲數據分析的三個要點

1)TDA的輸入可以是一個距離矩陣,表示任意兩數據點之間的距離。

它研究的是與坐標無關的形狀,完全不受坐標的限制。這也意味著拓撲形狀的構建依賴于距離函數的定義,或者說相似度概念的定義。坐標無關的特性,使得TDA可以整合來自不同平臺的數據,盡管這些數據的結構不太一樣,你只需要給出合理的距離函數。這是TDA的一個優點,通用性。

舉個例子,TDA在癌癥分析領域的成功,這種通用性是一個重要原因。因為不同癌癥數據集的指標、結構都不盡相同,而TDA可以輕松整合。

2)TDA研究的數據形狀,可以容忍數據小范圍的變形與失真。

想象在一塊橡皮上寫了一個字母”A”,你用力擠壓拉扯這塊橡皮,字母”A”雖然有點扭曲變形,但是“一個三角形帶兩個腳”這樣的基本特征仍然存在。從上面“手”的例子也可以看出,TDA對小誤差的容忍度很大。

3)如果我們要粗略的描繪一個湖泊輪廓,最簡潔的就是使用一個多邊形。

拓撲處理的是抽象的形狀,最典型的例子就是用六邊形來表示圓,這只需要用到6個點和6條邊。

TDA使用這種形式壓縮數據,用有限的點和邊來表示大量的數據,并且保留了數據重要的特征。

3、 拓撲數據分析的主要步驟

用一個濾波函數對每個數據點計算一個濾波值。這個濾波函數可以是數據矩陣的線性投影,比如PCA。也可以是距離矩陣的密度估計或者中心度指標,比如L-infinity(L-infinity的取值是該點到離它最遠的點的距離,是一個中心度指標)。

數據點按照其濾波值,從小到大被分到不同的濾波值區間里。參照下圖中“手”被切成等寬的塊。但需要注意的是,相鄰的濾波值區間設置有一定的重疊區域,也就是重疊區域的點同時屬于兩個區間(這一點很重要)。

對每個區間里的數據分別做聚類。

把上一步驟中各區間聚類的得到的小類放在一起,每一個小類用一個大小不同的圓表示。若兩個類之間存在相同的原始數據點(這就是區間需要相互重疊的原因),則在它們之間加上一條邊。

對上述圓和邊組成的圖形施加一層力學布局,讓其達到平衡,就得到最終的“數據圖形”。

下圖是一個簡單的示意圖,便于理解:

  4、 案例:ayasdi公司關于NBA球員的研究

有一份關于NBA球員的數據集,這份數據集編碼了球員在場上表現的各個方面,包括籃板、助攻、失誤、搶斷、封鎖、犯規、得分等各項指標的每分鐘頻率。對這份數據集進行拓撲化后,得到了下面這張圖。

籃球運動員的位置一般分為控球后衛、得分后衛、小前鋒、大前鋒、中鋒。然而在上圖的網絡中,我們看到了比傳統的五個位置更為精細的結構。比如在網絡的左側,守衛被細分成了三個組,攻擊守衛、防守守衛、擊球守衛。在網絡的中下部我們可以看到三個比較小的塊,其中有“NBA全明星”(Allstar NBA) 和“NBA全明星第二梯隊”(Allstar NBA 2nd Team)。

“NBA全明星”這個組幾乎由NBA歷史上最優秀的球員組成,“第二梯隊”雖然也都是由全能的優秀球員組成但表現上可能不如全明星組。

有意思的是,在全明星組中還有一些不太知名的球員,這些球員也許就是潛在的未來明星球員。

寫在最后

拓撲數據分析作為一種強大的工具,已經開始被廣泛的應用。在未來基于TDA的算法肯定會不斷的提出和完善。目前關于TDA詳細的中文資料比較少,附上一份簡單的python實現以供交流。

https://github.com/yxdong/tda

本文作者:楊曉東(點融黑幫),任職于點融data團隊,喜歡徒步,愛好動漫,每天下午點奶茶,歡迎交流或者拼單。

本文由@點融黑幫(ID:DianrongMafia)原創發布于搜狐科技,未經許可,禁止轉載。

關鍵字:大前鋒TDA數據點

本文摘自:搜狐IT

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 昌黎县| 城固县| 平武县| 信阳市| 罗甸县| 象山县| 武定县| 科技| 额尔古纳市| 张家川| 德清县| 沈阳市| 深州市| 屯门区| 阳山县| 措美县| 金阳县| 靖宇县| 平塘县| 尉犁县| 浦县| 贵德县| 阜阳市| 永胜县| 固安县| 黑河市| 葫芦岛市| 张家界市| 盐亭县| 嘉黎县| 辛集市| 东城区| 高陵县| 明溪县| 横峰县| 丰原市| 静安区| 岑溪市| 托克逊县| 樟树市| 昌邑市|