精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

基于Hadoop的社交網絡的分析,Hadoop社交分析

責任編輯:editor005

2015-01-29 13:43:49

摘自:幫客之家

昨天終于hadoop的項目驗收完成了,終于可以松一口氣了,總體還是比較滿意的。說一下項目流程,用mapreduce對數據進行預處理,然后用mahout中的聚類算法(kmeans)對數據進行處理,最后用peoplerank對數據進行處理

昨天終于hadoop的項目驗收完成了,終于可以松一口氣了,總體還是比較滿意的。

首先說一下項目流程,用mapreduce對數據進行預處理,然后用mahout中的聚類算法(kmeans)對數據進行處理,最后用peoplerank對數據進行處理。

根據老師交給我們的數據,包括Google+和Twitter的部分社交網絡數據。以下是兩個數據下載的鏈接

http://snap.stanford.edu/data/egonets-Gplus.html(Google+)

http://snap.stanford.edu/data/egonets-Twitter.html(Twitter)

這里面的Google的人數是大概是100000多,相互之間的映射關系(A->B,就是A關注B,或者A是B的好友)有20W+,Twitter的人數大概是80000多,相互之間的映射關系也有20W+。

對下面的圖片做一些解釋,橫坐標代表擁有好友的數量,縱坐標為擁有該好友數的用戶數。這樣的分布是符合網絡的無標度性。

我是在本地上實現分布式的,在我的機子上開啟了兩個虛擬機,和使用了其他兩個同學的電腦。

然后我們的性能是用ganglia進行檢測的,ganglia的安裝以及使用我已在之前的一篇博文中已經說過。

這只是其中一張性能分析的圖片,估計本地上配置除了問題,所以才導致,master做了所有的工作。

如果有想要程序的朋友,可以在下面留言,我會寫出全部的過程,和代碼。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 嘉义市| 泗水县| 宁阳县| 卓资县| 太白县| 江津市| 渝北区| 江门市| 珠海市| 营口市| 田东县| 外汇| 西畴县| 丰城市| 沙田区| 青田县| 佛山市| 托克逊县| 新干县| 理塘县| 贡山| 汾西县| 宁德市| 电白县| 香格里拉县| 汶川县| 夹江县| 娄底市| 龙岩市| 建昌县| 杭锦旗| 镇康县| 宁德市| 静海县| 丰都县| 抚远县| 五常市| 肥西县| 洞口县| 枣阳市| 于都县|