精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

<track id="4c3n9"><abbr id="4c3n9"></abbr></track>

<menu id="4c3n9"></menu>

干貨：如何計(jì)算用戶行為大數(shù)據(jù)

責(zé)任編輯：一三

2014-03-13 08:35:37

摘自：36大數(shù)據(jù)

用戶行為類數(shù)據(jù)的特點(diǎn)在于用戶數(shù)量龐大，但每個(gè)用戶的行為數(shù)量較小，針對用戶行為的計(jì)算較為復(fù)雜，用戶之間的關(guān)聯(lián)計(jì)算相對較少。

用戶行為類數(shù)據(jù)是最常見的大數(shù)據(jù)形式，比如電信的通話記錄、網(wǎng)站的訪問日志、應(yīng)用商店的app下載記錄、銀行的賬戶信息、機(jī)頂盒的觀看記錄、股票的交易記錄、保險(xiǎn)業(yè)的保單信息，連鎖超市會(huì)員的購物信息、交通違法信息、醫(yī)療就診記錄。

用戶行為類數(shù)據(jù)的特點(diǎn)在于用戶數(shù)量龐大，但每個(gè)用戶的行為數(shù)量較小，針對用戶行為的計(jì)算較為復(fù)雜，用戶之間的關(guān)聯(lián)計(jì)算相對較少。

用戶數(shù)量龐大。通話記錄中的電話號碼、訪問日志中的用戶編號、賬戶信息中的銀行賬戶、交易記錄中股票賬戶、保單信息中的被保險(xiǎn)人，這些都是用戶行為類數(shù)據(jù)中的用戶。用戶的數(shù)量通常都很龐大，多的可達(dá)億級或更多，少的也有百萬級。

每個(gè)用戶的行為數(shù)量較小。相對于龐大的用戶數(shù)量，每個(gè)用戶的行為通常較少。對單個(gè)電話號碼來說，平均每月的通話記錄只有數(shù)百條，每年也不超過一萬條。即使是網(wǎng)站的活躍用戶，他們每天最多也只能產(chǎn)生上百條行為記錄，每年不超過十萬條。

用戶行為的計(jì)算較為復(fù)雜。計(jì)算用戶的兩次登錄間隔天數(shù)、反復(fù)購買的商品、累積在線時(shí)間，這些都是針對用戶行為的計(jì)算，通常具有一定的復(fù)雜性。

用戶之間的關(guān)聯(lián)計(jì)算較少。用戶的行為相對獨(dú)立，一般不需要知道其他用戶即可實(shí)現(xiàn)計(jì)算。相應(yīng)的，用戶之間的關(guān)聯(lián)計(jì)算則較少，比如：某人通話記錄中接聽電話的一方的通話時(shí)長;社交網(wǎng)站上某個(gè)用戶的朋友購買了哪些商品，這些計(jì)算存在但不多。

根據(jù)用戶行為類大數(shù)據(jù)的特點(diǎn)不難看出，其最直觀最容易寫出的算法可以這樣設(shè)計(jì)：每次將某一用戶的所有數(shù)據(jù)一次性加載到內(nèi)存中來計(jì)算，而不要反復(fù)訪問硬盤讀取某個(gè)用戶的部分?jǐn)?shù)據(jù)，也不要將大量用戶的數(shù)據(jù)同時(shí)加載到內(nèi)存中。

將某一用戶的所有數(shù)據(jù)加載到內(nèi)存中來計(jì)算。這樣做是因?yàn)橛脩糁g的關(guān)聯(lián)計(jì)算少，而單個(gè)用戶行為的計(jì)算較為復(fù)雜，計(jì)算同一個(gè)用戶的數(shù)據(jù)可以讓程序員減少不相干數(shù)據(jù)的干擾。比如計(jì)算某用戶反復(fù)購買的商品。首先，將某用戶的數(shù)據(jù)按商品分組匯總出每件商品的購買次數(shù);再按次數(shù)逆序排序;過濾掉只購買了一次的商品，剩下的就是反復(fù)購買的商品及購買次數(shù)。再比如計(jì)算某用戶的累積在線時(shí)長。該用戶會(huì)訪問多次，每次都會(huì)形成一對登錄和退出，因此先要過濾出所有的登錄和退出記錄;再針對每一次訪問，用退出時(shí)刻減去登錄時(shí)刻，這就是單次時(shí)長;將多個(gè)單次時(shí)長相加，就是累積時(shí)長。

另外，因?yàn)槊總€(gè)用戶的行為數(shù)量相對較少，完全可以全部加載進(jìn)內(nèi)存進(jìn)行自由靈活的計(jì)算。

不要反復(fù)訪問硬盤讀取用戶的部分?jǐn)?shù)據(jù)。由于用戶的行為計(jì)算比較復(fù)雜，同一個(gè)用戶的各條數(shù)據(jù)之間是存在關(guān)聯(lián)關(guān)系的，讀取一個(gè)用戶的部分記錄去計(jì)算會(huì)導(dǎo)致算法難寫，而且性能很低。

不要將大量用戶的數(shù)據(jù)同時(shí)加載到內(nèi)存中。由于用戶數(shù)量龐大，顯然不可能將全部用戶的數(shù)據(jù)一次性加載到內(nèi)存中來，必須要分批讀取。分批的標(biāo)準(zhǔn)上面已經(jīng)分析出來了：按用戶分批。至于用戶之間計(jì)算結(jié)果的合并，可以留到最后一步再做，由于用戶之間關(guān)聯(lián)計(jì)算少，這個(gè)合并非常簡單。比如計(jì)算所有用戶反復(fù)購買的商品或累計(jì)在線時(shí)長，只要計(jì)算出每個(gè)用戶反復(fù)購買的商品或累計(jì)的在線時(shí)長，再將所有用戶的計(jì)算結(jié)果簡單合并就可以。另外還可以看出，由于是用戶之間的關(guān)聯(lián)少，因此此類算法很適合使用并行計(jì)算，即每個(gè)節(jié)點(diǎn)機(jī)分配一定數(shù)量的用戶，這樣既不會(huì)增加難度又能大幅提高性能。

將同一用戶的所有數(shù)據(jù)加載到內(nèi)存中來計(jì)算，這就需要事先將數(shù)據(jù)按用戶分成多個(gè)組。比如按零售店會(huì)員分組，每個(gè)組就是某個(gè)會(huì)員對應(yīng)的多條采購記錄;或按用戶編號分，每個(gè)組是某個(gè)用戶對應(yīng)的網(wǎng)頁訪問記錄。分組的實(shí)質(zhì)是排序，即將數(shù)據(jù)按用戶排序，使同一個(gè)用戶的數(shù)據(jù)挨在一起。可以想象到，對億級的用戶、每用戶萬級的數(shù)據(jù)排序?qū)⑹莻€(gè)非常緩慢的過程。事先排序可以加速分組的過程。

將數(shù)據(jù)事先按用戶排序，不同的計(jì)算目標(biāo)都使用同樣排序好的數(shù)據(jù)。將排序的時(shí)間花在前面而且只花一次，這就可以避免計(jì)算時(shí)的大排序，參數(shù)不同的同一個(gè)計(jì)算目標(biāo)也可以重復(fù)計(jì)算而不必重復(fù)排序，不同的計(jì)算目標(biāo)還可以省去相同的排序過程。

但是，不幸的是，一般的計(jì)算工具難以實(shí)現(xiàn)上述算法，無法有效利用事先排序的數(shù)據(jù)。比如SQL(含Hive)和MapRreduce。

SQL的困難。SQL的集合是無序的，事先按索引重新插入排好序的數(shù)據(jù)往往不能被優(yōu)化器正確優(yōu)化，具有很大的偶然性，無法保證查詢時(shí)可以按排好的次序查詢出需要的數(shù)據(jù)。

Hive具有SQL的語法風(fēng)格，同時(shí)也支持并行計(jì)算，但它卻并不適合用戶行為類大數(shù)據(jù)計(jì)算。這是因?yàn)橛脩粜袨榈挠?jì)算較為復(fù)雜，需要窗口函數(shù)甚至存儲過程來解決，而Hive只支持基本的SQL語法，不支持窗口函數(shù)和存儲過程。

用戶行為的計(jì)算之所以較為復(fù)雜，是因?yàn)樾枰獙ν粋€(gè)用戶的多條數(shù)據(jù)之間進(jìn)行計(jì)算，這種計(jì)算大多和順序相關(guān)。SQL對有序計(jì)算的支持有限，只有窗口函數(shù)可以實(shí)現(xiàn)部分簡單的有序計(jì)算，但對于復(fù)雜的業(yè)務(wù)邏輯仍然顯得非常繁瑣，而且經(jīng)常因?yàn)榇笈判蛟斐傻拖碌男阅堋Ｊ褂贸绦蛐缘拇鎯^程編寫復(fù)雜代碼可以實(shí)現(xiàn)復(fù)雜的有序計(jì)算，但很難復(fù)用SQL的集合運(yùn)算能力，所有處理都有從基礎(chǔ)運(yùn)算自己編寫，而且其性能通常比SQL更低。

MapReduce的困難。MapReduce支持大數(shù)據(jù)并行計(jì)算，同時(shí)它是用程序性的JAVA語言來編寫的，這一點(diǎn)和存儲過程有相似性。但是，MapReduce所使用的 JAVA語言缺乏針對結(jié)構(gòu)數(shù)據(jù)計(jì)算的類庫，所有的底層功能都要自己實(shí)現(xiàn)：分組、排序、查詢、關(guān)聯(lián)等等，對于有序計(jì)算這較復(fù)雜的算法所要書寫的代碼更多、編寫難度更大、維護(hù)更加困難。同樣的，MapReduce也無法利用已經(jīng)排序好的數(shù)據(jù)，在shuffle階段還需要得做大排序。

SQL和MapReduce無法利用事先排序好的數(shù)據(jù)，難以高性能地將同一用戶的所有數(shù)據(jù)加載到內(nèi)存中來計(jì)算，用戶類大數(shù)據(jù)計(jì)算因此會(huì)遇到性能、擴(kuò)展性和開發(fā)難度的挑戰(zhàn)。

如何利用事先排序好的數(shù)據(jù)，以此簡化代碼書寫難度并提高計(jì)算性能?

集算器是支持多節(jié)點(diǎn)并行計(jì)算的程序設(shè)計(jì)語言，并提供豐富的有序計(jì)算。如果數(shù)據(jù)事先排好序，集算器支持通過游標(biāo)來按組讀取數(shù)據(jù)，每次讀取一組數(shù)據(jù)進(jìn)內(nèi)存，避免反復(fù)的外存訪問，整個(gè)數(shù)據(jù)只要遍歷一次即可，從而使性能大大提高。針對組內(nèi)計(jì)算復(fù)雜，集算器具有完備的批量化數(shù)據(jù)計(jì)算類庫，可以輕松實(shí)現(xiàn)各類復(fù)雜的有序計(jì)算。。

集算器支持靈活自由的多節(jié)點(diǎn)并行計(jì)算，可以進(jìn)一步優(yōu)化性能。方法之一將用戶按某種方式分段，以此實(shí)現(xiàn)分布存儲后的高效并行處理。比如將會(huì)員零售數(shù)據(jù)按照會(huì)員編號的前兩位分成100段存儲于HDFS，每段存儲十萬會(huì)員的一億條數(shù)據(jù)。或者將網(wǎng)站日志按照用戶ID的首字母和年份分段，每段存儲幾百萬用戶的數(shù)據(jù)。或者將通話記錄按照區(qū)號和用戶數(shù)量合并為30段，每段存儲一個(gè)州或幾個(gè)州的用戶。經(jīng)過分段處理后，每段數(shù)據(jù)都是排好序的，可被節(jié)點(diǎn)機(jī)的一個(gè)線程獨(dú)立處理，這樣的并行計(jì)算性能更高。

針對上面的難點(diǎn)，下面用”每個(gè)用戶在每種產(chǎn)品上的累積在線時(shí)間”為例來說明集算器的一般解決辦法。

大分組的困難：事先排序數(shù)據(jù)，以供多種計(jì)算目標(biāo)使用。在節(jié)點(diǎn)機(jī)運(yùn)算時(shí)可以直接按用戶分組取數(shù)，有效利用已經(jīng)有序的數(shù)據(jù)以提高性能。

組內(nèi)計(jì)算復(fù)雜：esProc具有完備的批量化數(shù)據(jù)計(jì)算類庫，可以輕松實(shí)現(xiàn)各類復(fù)雜的有序計(jì)算。

完整的代碼如下：

大數(shù)據(jù)

2/28

2025全国医药大健康CIO大会

北京报名

3/1

2025全国消费零售CIO大会

北京报名

3/22

2025央国企CIO及数科公司峰会

北京报名

1/4

第九届中国制造业上市公司价值500强大会

北京结束

11/29

2024全国甲方IT选型大会

南京结束

9/14

2024全国制造业数智化大会

杭州结束

9/13

2024全国汽车业数智化大会

杭州结束

7/27

2024央国企CIO及数科公司大会

北京结束

6/5

2024CIOC全国CIO大会

银川结束

1/20

2024北京CIO大会

北京结束

Oracle NetSuite原生云ERP賦能IT創(chuàng)新

快全優(yōu)廣靈——支持從初創(chuàng)企業(yè)到全球化企業(yè)的高彈性解決方案

科技驅(qū)動(dòng)創(chuàng)新行業(yè)智行千里

《2022聯(lián)想智能化轉(zhuǎn)型行業(yè)白皮書》重磅發(fā)布

以分析之力造福億萬生靈——SAS白皮書下載

SAS是數(shù)據(jù)分析領(lǐng)域的領(lǐng)導(dǎo)者。通過提供創(chuàng)新的分析、商業(yè)智能和數(shù)據(jù)管理軟件與服務(wù)，SAS幫助全球超過83,000家用戶更好、更快地進(jìn)行決策。自1976年以來，SAS一直向全球客戶提供知的力量（THE POWER TO KNOW）。

Oracle NetSuite原生云ERP賦能IT創(chuàng)新

快全優(yōu)廣靈——支持從初創(chuàng)企業(yè)到全球化企業(yè)的高彈性解決方案

科技驅(qū)動(dòng)創(chuàng)新行業(yè)智行千里

《2022聯(lián)想智能化轉(zhuǎn)型行業(yè)白皮書》重磅發(fā)布

海爾智家技術(shù)總監(jiān)高麗：云原生加速企業(yè)數(shù)字化轉(zhuǎn)型

海爾智家全球數(shù)字化平臺用到了哪些云原生技術(shù)產(chǎn)品?如何實(shí)現(xiàn)降本增效?在云原生技術(shù)應(yīng)用方面有哪些實(shí)踐和探索?云原生技術(shù)發(fā)揮了哪些價(jià)值?在本期“云原生降本增效大咖說”中，企業(yè)網(wǎng)D1Net采訪了海爾智家全球數(shù)字化平臺技術(shù)總監(jiān)高麗。

國藥國際CIO馮偉：數(shù)字化轉(zhuǎn)型要打破信息化建系統(tǒng)的固有思維

中國國際醫(yī)藥衛(wèi)生有限公司數(shù)智化中心總經(jīng)理馮偉在接受企業(yè)網(wǎng)D1Net專訪時(shí)提到：“回過頭來看，數(shù)智化建設(shè)最難的是轉(zhuǎn)思維，必須打破信息化總想去建系統(tǒng)的固有思維，要以平臺化思維、站在運(yùn)營和業(yè)務(wù)的角度思考問題。思維轉(zhuǎn)變后，很多問題將迎刃而解。”

創(chuàng)維集團(tuán)信息總監(jiān)寧江：數(shù)據(jù)治理是數(shù)字化轉(zhuǎn)型的必由之路

創(chuàng)維集團(tuán)信息總監(jiān)寧江在接受企業(yè)網(wǎng)D1Net采訪時(shí)提到：“如今，站在數(shù)字化轉(zhuǎn)型的全局之下回顧過去幾十年的信息化建設(shè)，似乎建了很多煙囪，系統(tǒng)之間、流程之間不能共享數(shù)據(jù)，孤島林立。不同時(shí)期有不同時(shí)期的特征，都有其合理性和必要性，如今再來解決這些問題為時(shí)未晚。

海爾智家技術(shù)總監(jiān)高麗：云原生加速企業(yè)數(shù)字化轉(zhuǎn)型

海爾智家全球數(shù)字化平臺用到了哪些云原生技術(shù)產(chǎn)品?如何實(shí)現(xiàn)降本增效?在云原生技術(shù)應(yīng)用方面有哪些實(shí)踐和探索?云原生技術(shù)發(fā)揮了哪些價(jià)值?在本期“云原生降本增效大咖說”中，企業(yè)網(wǎng)D1Net采訪了海爾智家全球數(shù)字化平臺技術(shù)總監(jiān)高麗。

國藥國際CIO馮偉：數(shù)字化轉(zhuǎn)型要打破信息化建系統(tǒng)的固有思維

中國國際醫(yī)藥衛(wèi)生有限公司數(shù)智化中心總經(jīng)理馮偉在接受企業(yè)網(wǎng)D1Net專訪時(shí)提到：“回過頭來看，數(shù)智化建設(shè)最難的是轉(zhuǎn)思維，必須打破信息化總想去建系統(tǒng)的固有思維，要以平臺化思維、站在運(yùn)營和業(yè)務(wù)的角度思考問題。思維轉(zhuǎn)變后，很多問題將迎刃而解。”

熱文推薦

相關(guān)文章

鏈接已復(fù)制，快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號-6 京公網(wǎng)安備 11010502049343號

<menuitem id="jw4sk"></menuitem>

<form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>

主站蜘蛛池模板：神农架林区| 滕州市| 钟山县| 闸北区| 宜阳县| 济宁市| 莒南县| 苏尼特右旗| 闽侯县| 雷州市| 湖南省| 兴隆县| 梧州市| 克拉玛依市| 尖扎县| 通许县| 礼泉县| 花莲市| 兖州市| 桑日县| 民乐县| 丽江市| 洱源县| 徐闻县| 鲁山县| 高阳县| 伊宁市| 普兰县| 新密市| 屯门区| 云龙县| 新泰市| 昭通市| 常宁市| 乐安县| 双柏县| 巴马| 通州区| 鄂尔多斯市| 电白县| 固始县|