精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

基于Hadoop的社交網絡的分析,Hadoop社交分析

責任編輯:editor005

2015-01-29 13:43:49

摘自:幫客之家

昨天終于hadoop的項目驗收完成了,終于可以松一口氣了,總體還是比較滿意的。說一下項目流程,用mapreduce對數據進行預處理,然后用mahout中的聚類算法(kmeans)對數據進行處理,最后用peoplerank對數據進行處理

昨天終于hadoop的項目驗收完成了,終于可以松一口氣了,總體還是比較滿意的。

首先說一下項目流程,用mapreduce對數據進行預處理,然后用mahout中的聚類算法(kmeans)對數據進行處理,最后用peoplerank對數據進行處理。

根據老師交給我們的數據,包括Google+和Twitter的部分社交網絡數據。以下是兩個數據下載的鏈接

http://snap.stanford.edu/data/egonets-Gplus.html(Google+)

http://snap.stanford.edu/data/egonets-Twitter.html(Twitter)

這里面的Google的人數是大概是100000多,相互之間的映射關系(A->B,就是A關注B,或者A是B的好友)有20W+,Twitter的人數大概是80000多,相互之間的映射關系也有20W+。

對下面的圖片做一些解釋,橫坐標代表擁有好友的數量,縱坐標為擁有該好友數的用戶數。這樣的分布是符合網絡的無標度性。

我是在本地上實現分布式的,在我的機子上開啟了兩個虛擬機,和使用了其他兩個同學的電腦。

然后我們的性能是用ganglia進行檢測的,ganglia的安裝以及使用我已在之前的一篇博文中已經說過。

這只是其中一張性能分析的圖片,估計本地上配置除了問題,所以才導致,master做了所有的工作。

如果有想要程序的朋友,可以在下面留言,我會寫出全部的過程,和代碼。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 巴林左旗| 惠安县| 辛集市| 翁牛特旗| 囊谦县| 乌兰察布市| 青神县| 特克斯县| 股票| 龙胜| 囊谦县| 新津县| 洮南市| 秦安县| 惠安县| 仁寿县| 和林格尔县| 佛学| 南昌县| 南岸区| 彭水| 高邑县| 孙吴县| 建瓯市| 宜阳县| 监利县| 米易县| 竹溪县| 嘉禾县| 偃师市| 芮城县| 安西县| 涟源市| 新闻| 莱西市| 旬阳县| 丰台区| 阿荣旗| 宁海县| 南召县| 商水县|