精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數(shù)據(jù)數(shù)據(jù)分析 → 正文

大數(shù)據(jù)分析--在豆瓣誰最受關(guān)注?

責任編輯:editor006 作者:石蘇 |來源:企業(yè)網(wǎng)D1Net  2015-04-13 13:29:56 本文摘自:豆瓣

豆瓣

數(shù)據(jù)的意義在于從中發(fā)現(xiàn)有趣的事情,以了解這個世界,體驗一種創(chuàng)造性的快樂。我對豆瓣很有興趣,它很特別,在國內(nèi)外沒有可類比的公司。對它的探究,要從研究豆瓣的用戶開始。

如果要研究豆瓣的用戶,先要抓取豆瓣的用戶信息。豆瓣的用戶的主頁形如:http://www.douban.com/people/laoluo/,這個是老羅的豆瓣主頁,在右下角有“羅永浩的關(guān)注”,里面有他關(guān)注的8個用戶。

如果想抓豆瓣,最簡單的方式是,從任意一個用戶開始,比如老羅,先抓取http://www.douban.com/people/laoluo/,把頁面存起來,然后找到他關(guān)注的8個用戶,記下ta們的用戶ID,然后再抓取ta們的主頁,再找他們關(guān)注的用戶,循環(huán)不斷地抓下去,幾乎可以抓取豆瓣用戶的所有用戶。

我試了幾種開源的Java爬蟲,有的叫spider,有的叫crawler,其實意思都一樣,業(yè)內(nèi)常用的是Nutch,但體量有點大,粗略看了下代碼有幾萬行,讀它的代碼可能比較耗時。最后選了crawler4j,它的代碼量只有幾千行,然后用它的庫寫了一個定制版的豆瓣crawler,從任意一個用戶主頁開始抓豆瓣的用戶資料。定制crawler用了兩個線程,一個線程負責抓頁面,一個線程負責把數(shù)據(jù)存到硬盤。不好用多個線程抓--豆瓣的 robots.txt即http://www.douban.com/robots.txt的指定抓取延遲不小于5秒,抓太快了會被禁掉的,這種情況下抓一個用戶要用6秒時間,一天能抓60/6*60*24=14400個,一個月能抓43萬個用戶,豆瓣注冊用戶有6000萬,需要139個機月,也就是139臺機器抓一個月。如果在云上租139臺機器,一個月的總成本大概是139*60=8340 塊,租一臺入門級的機器一個月60塊搞得定的,做抓取綽綽有余,只是要把crawler改成分布式的才行。每個用戶頁面大概60k左右,1G存儲1.7萬個用戶,6000萬用戶的容量不到4T。抓取線程要考慮主動注銷的用戶,存儲線程要考慮單個目錄的最大文件容量,默認每個目錄存1000個文件即可。定制 crawler用糙快猛的方式搞定的,大概500多行代碼。話說8千塊抓豆瓣的所有用戶資料不知道值不值,我覺得挺值的---應(yīng)該有很多好東西可以算出來的,隨隨便便搞出來賣分析報告也能值這個價啊,還可以賣給好幾家呢。如果要抓所有的用戶關(guān)系花時間要更多了---關(guān)注者是分頁的,想做類似 Facebook的graph search需要抓更多的頁面。

大概抓到5萬個用戶的時候,我就開始做計算了,用 htmlcleaner+jython處理頁面文件,最關(guān)鍵是找到ta們被多少人關(guān)注,被關(guān)注數(shù)表明它們的重要性。盡管5萬個用戶對6000萬個全部用戶來說太少了,還有有一些規(guī)律的---此前有一個關(guān)注榜,記錄的是關(guān)注在5000以上的豆瓣達人,它是2012年出來的,在這里http://site.douban.com/144692/widget/forum/7144906/discussion/44924707/,我的結(jié)果跟它有相當一部分的重合,可見盡管樣本數(shù)量少也是有效果的。

關(guān)鍵字:crawler頁面文件

本文摘自:豆瓣

x 大數(shù)據(jù)分析--在豆瓣誰最受關(guān)注? 掃一掃
分享本文到朋友圈
當前位置:大數(shù)據(jù)數(shù)據(jù)分析 → 正文

大數(shù)據(jù)分析--在豆瓣誰最受關(guān)注?

責任編輯:editor006 作者:石蘇 |來源:企業(yè)網(wǎng)D1Net  2015-04-13 13:29:56 本文摘自:豆瓣

豆瓣

數(shù)據(jù)的意義在于從中發(fā)現(xiàn)有趣的事情,以了解這個世界,體驗一種創(chuàng)造性的快樂。我對豆瓣很有興趣,它很特別,在國內(nèi)外沒有可類比的公司。對它的探究,要從研究豆瓣的用戶開始。

如果要研究豆瓣的用戶,先要抓取豆瓣的用戶信息。豆瓣的用戶的主頁形如:http://www.douban.com/people/laoluo/,這個是老羅的豆瓣主頁,在右下角有“羅永浩的關(guān)注”,里面有他關(guān)注的8個用戶。

如果想抓豆瓣,最簡單的方式是,從任意一個用戶開始,比如老羅,先抓取http://www.douban.com/people/laoluo/,把頁面存起來,然后找到他關(guān)注的8個用戶,記下ta們的用戶ID,然后再抓取ta們的主頁,再找他們關(guān)注的用戶,循環(huán)不斷地抓下去,幾乎可以抓取豆瓣用戶的所有用戶。

我試了幾種開源的Java爬蟲,有的叫spider,有的叫crawler,其實意思都一樣,業(yè)內(nèi)常用的是Nutch,但體量有點大,粗略看了下代碼有幾萬行,讀它的代碼可能比較耗時。最后選了crawler4j,它的代碼量只有幾千行,然后用它的庫寫了一個定制版的豆瓣crawler,從任意一個用戶主頁開始抓豆瓣的用戶資料。定制crawler用了兩個線程,一個線程負責抓頁面,一個線程負責把數(shù)據(jù)存到硬盤。不好用多個線程抓--豆瓣的 robots.txt即http://www.douban.com/robots.txt的指定抓取延遲不小于5秒,抓太快了會被禁掉的,這種情況下抓一個用戶要用6秒時間,一天能抓60/6*60*24=14400個,一個月能抓43萬個用戶,豆瓣注冊用戶有6000萬,需要139個機月,也就是139臺機器抓一個月。如果在云上租139臺機器,一個月的總成本大概是139*60=8340 塊,租一臺入門級的機器一個月60塊搞得定的,做抓取綽綽有余,只是要把crawler改成分布式的才行。每個用戶頁面大概60k左右,1G存儲1.7萬個用戶,6000萬用戶的容量不到4T。抓取線程要考慮主動注銷的用戶,存儲線程要考慮單個目錄的最大文件容量,默認每個目錄存1000個文件即可。定制 crawler用糙快猛的方式搞定的,大概500多行代碼。話說8千塊抓豆瓣的所有用戶資料不知道值不值,我覺得挺值的---應(yīng)該有很多好東西可以算出來的,隨隨便便搞出來賣分析報告也能值這個價啊,還可以賣給好幾家呢。如果要抓所有的用戶關(guān)系花時間要更多了---關(guān)注者是分頁的,想做類似 Facebook的graph search需要抓更多的頁面。

大概抓到5萬個用戶的時候,我就開始做計算了,用 htmlcleaner+jython處理頁面文件,最關(guān)鍵是找到ta們被多少人關(guān)注,被關(guān)注數(shù)表明它們的重要性。盡管5萬個用戶對6000萬個全部用戶來說太少了,還有有一些規(guī)律的---此前有一個關(guān)注榜,記錄的是關(guān)注在5000以上的豆瓣達人,它是2012年出來的,在這里http://site.douban.com/144692/widget/forum/7144906/discussion/44924707/,我的結(jié)果跟它有相當一部分的重合,可見盡管樣本數(shù)量少也是有效果的。

關(guān)鍵字:crawler頁面文件

本文摘自:豆瓣

電子周刊
回到頂部

關(guān)于我們聯(lián)系我們版權(quán)聲明隱私條款廣告服務(wù)友情鏈接投稿中心招賢納士

企業(yè)網(wǎng)版權(quán)所有 ©2010-2024 京ICP備09108050號-6 京公網(wǎng)安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 平原县| 三河市| 合阳县| 突泉县| 东安县| 理塘县| 砚山县| 孟村| 瓮安县| 临湘市| 太仆寺旗| 泽库县| 天柱县| 海宁市| 鸡西市| 始兴县| 五原县| 鄄城县| 宜良县| 西藏| 呼图壁县| 东丽区| 张家口市| 北安市| 张北县| 阿克| 宝兴县| 白玉县| 通州市| 河曲县| 绿春县| 禹城市| 木兰县| 静宁县| 常州市| 沾化县| 炉霍县| 纳雍县| 贡觉县| 台北县| 东城区|