精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

大數據的新算法:簡化數據分類

責任編輯:editor006

2015-05-21 16:29:04

摘自:Science Daily

簇分析就是用來有效地鑒別密集型區域,基于基本的準則將數據分為一定數量的重要子集合,每個子集合對應一種分類。與類似的方法相比,我們的算法能夠有效地剔除異類,要知道這些異類的數據點與其他數據存在較大差異是會損毀分析結果的。

如今,大數據時代悄然來臨。專家用“大數據”的表達描述大量信息,比如數十億人在計算機、智能手機以及其他電子設備上分享的照片、音頻、文本等數據。當前這種模式為我們的未來展現了前所未有的愿景:比如追蹤流感疫情蔓延,實時監控道路交通,處理緊急自然災害等。對人們而言,想要利用這些龐大的數據,首先必須要了解它們,而在此之前我們需要一種快捷有效自動的方式對數據進行分類。

大數據

其中一種最為常用的系統,是一系列稱之為簇分析的統計技術,這種技術能依據數據的“相似性”進行數據分組。來自意大利國際高等研究院(SISSA)的兩位研究者基于簡單且強大的原理設計了一種簇分析方法,被證明可以非常有效地解決一些大數據分析中遇到的主要典型問題。

數據集合可以視為多維空間的云數據點。這些點呈現不同分配方式:或稀疏地分布在一個區域,或密集地分布在另外一個區域。簇分析就是用來有效地鑒別密集型區域,基于基本的準則將數據分為一定數量的重要子集合,每個子集合對應一種分類。

“以一個面部圖像數據庫為例,”SISSA統計與生物物理系教授Alessandro Laio說,“數據庫可能包含同一個人的多張照片,簇分析可以用來歸類同一人的所有照片。這種類型的分析可用自動臉部識別系統來完成。”

“我們試著設計一種較現有方法更為有效的算法,來解決簇分析中典型的問題。”Laio繼續補充說。

“我們的方法基于一種新的鑒定簇中心,比如子集合,”另一位研究者Alex Rodriguez解釋道,“試想這樣的情形,在無法訪問地圖中,卻不得不鑒定全球所有的城市時,這無疑是一個艱巨的任務。”Rodriguez進一步解釋道,“因此我們在做一種探索式的識別,嘗試尋找一條簡單的規則或是一種捷徑來達成目標。”

“為了確定一個地方是否達到城市級別規模,我們可以讓當地居民計數自己的‘鄰居’,換句話說,他房子的100米內住了多少人。一旦得到這個數字,我們繼續去確認每一個居民,他們身邊最近的擁有最多鄰居數的居民。借助這兩組數據結果交叉的部分,就可以推斷每個人所在居住區域人口的稠密程度,以及擁有鄰居數最多的兩家間距。就全球人口而言,通過自動交叉檢測這些數據,我們能識別代表簇狀中心的個體,這些個體就是不同的城市。” Laio解釋道。

“我們的算法能夠精確地完成此類計算,也適用于其他場景,”Rodriguez進一步補充說,此算法表現相當優異。Rodriguez對此有著深刻理解:“借用面部數據檔案Olivetti Face數據庫,我們測試了自己的數學模型,并獲得了滿意的結果。此系統能夠正確地識別大部分個體,從不產生假陽性結果,這意味著在某些情況下,它可能無法識別事物,但絕不會混淆一個個體與另一個個體。與類似的方法相比,我們的算法能夠有效地剔除異類,要知道這些異類的數據點與其他數據存在較大差異是會損毀分析結果的。”

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 湟源县| 衡水市| 临安市| 临安市| 台东县| 淮安市| 临颍县| 大理市| 盐山县| 绿春县| 东城区| 读书| 云南省| 枣庄市| 株洲县| 乾安县| 视频| 合山市| 呼伦贝尔市| 苍南县| 沂水县| 玉门市| 凌云县| 抚松县| 青州市| 定安县| 阜康市| SHOW| 卢龙县| 伽师县| 苍溪县| 马山县| 南城县| 二连浩特市| 滨海县| 鸡西市| 句容市| 阳江市| 布尔津县| 珲春市| 应城市|