精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

漫談大數據之數據采集

責任編輯:zsheng |來源:企業網D1Net  2018-08-29 09:10:25 本文摘自:IT168

日志采集

根據產品的類型 又有可以分為:

·瀏覽器頁面 的日志采集

·客戶端 的日志采集

瀏覽器頁面采集: 主要是收集頁面的 瀏覽日志(PV/UV等) 和 交互操作日志(操作事件)。

這些日志的采集,一般是在頁面上植入標準的統計JS代碼來進執行。但這個植入代碼的過程,可以在頁面功能開發階段由開發同學手動寫入,也可以在項目運行的時候,由服務器在相應頁面請求的時候動態的植入。

事實上,統計JS在采集到數據之后,可以立即發送到數據中心,也可以進行適當的匯聚之后,延遲發送到數據中心,這個策略取決于不同場景的需求來定。

頁面日志在收集上來之后,需要在服務端進行一定的清晰和預處理。 比如 清洗假流量數據、識別攻擊、數據的正常補全、無效數據的剔除、數據格式化、數據隔離等。

客戶端日志采集: 一般會開發專用統計SDK用于APP客戶端的數據采集。

客戶端數據的采集,因為具有高度的業務特征,自定義要求比較高,因此除應用環境的一些基本數據以外,更多的是從 “按事件”的角度來采集數據,比如 點擊事件、登陸事件、業務操作事件 等等。

基礎數據可由SDK默認采集即可,其它事件由業務側來定義后,按照規范調用SDK接口。

因為現在越來越多APP采用Hybrid方案,即 H5 與 Native相結合的方式,因此對于日志采集來說,既涉及到H5頁面的日志,也涉及到Native客戶端上的日志。在這種情況下,可以分開采集分開發送,也可以將數據合并到一起之后再發送。

常規情況下是推薦將 H5上的數據往Native上合并,然后通過SDK統一的發送。這樣的好處是 既可以保證采集到的用戶行為數據在行為鏈上是完整的,也可以通過SDK采取一些壓縮處理方案來減少日志量,提高效率。

APP上的數據采集,還有一點比較重要的就是唯一ID了,所有的數據都必須跟唯一ID相關聯,才能起到更好的分析作用,至于移動設備唯一ID我在上一篇文章中有詳細講到。

日志收集,還有很重要的一條原則就是 “標準化”、“規范化”,只有采集的方式標準化、規范化,才能最大限度的減少收集成本,提高日志收集效率、更高效的實現接下來的統計計算。

數據源數據同步

根據同步的方式 可以分為:

·直接數據源同步

·生成數據文件同步

·數據庫日志同步

直接數據源同步: 是指直接的連接業務數據庫,通過規范的接口(如JDBC)去讀取目標數據庫的數據。這種方式比較容易實現,但是如果業務量比較大的數據源,可能會對性能有所影響。

生成數據文件同步: 是指從數據源系統現生成數據文件,然后通過文件系統同步到目標數據庫里。 這種方式適合數據源比較分散的場景,在數據文件傳輸前后必須做校驗,同時還需要適當進行文件的壓縮和加密,以提高效率、保障安全。

數據庫日志同步: 是指基于源數據庫的日志文件進行同步。現在大多數數據庫都支持生成數據日志文件,并且支持用數據日志文件來恢復數據。因此可以使用這個數據日志文件來進行增量同步。 這種方式對系統性能影響較小,同步效率也較高。

數據采集本身不是目的,只有采集到的數據是可用、能用,且能服務于最終應用分析的數據采集才是根本。

關鍵字:數據采集數據

本文摘自:IT168

x 漫談大數據之數據采集 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

漫談大數據之數據采集

責任編輯:zsheng |來源:企業網D1Net  2018-08-29 09:10:25 本文摘自:IT168

日志采集

根據產品的類型 又有可以分為:

·瀏覽器頁面 的日志采集

·客戶端 的日志采集

瀏覽器頁面采集: 主要是收集頁面的 瀏覽日志(PV/UV等) 和 交互操作日志(操作事件)。

這些日志的采集,一般是在頁面上植入標準的統計JS代碼來進執行。但這個植入代碼的過程,可以在頁面功能開發階段由開發同學手動寫入,也可以在項目運行的時候,由服務器在相應頁面請求的時候動態的植入。

事實上,統計JS在采集到數據之后,可以立即發送到數據中心,也可以進行適當的匯聚之后,延遲發送到數據中心,這個策略取決于不同場景的需求來定。

頁面日志在收集上來之后,需要在服務端進行一定的清晰和預處理。 比如 清洗假流量數據、識別攻擊、數據的正常補全、無效數據的剔除、數據格式化、數據隔離等。

客戶端日志采集: 一般會開發專用統計SDK用于APP客戶端的數據采集。

客戶端數據的采集,因為具有高度的業務特征,自定義要求比較高,因此除應用環境的一些基本數據以外,更多的是從 “按事件”的角度來采集數據,比如 點擊事件、登陸事件、業務操作事件 等等。

基礎數據可由SDK默認采集即可,其它事件由業務側來定義后,按照規范調用SDK接口。

因為現在越來越多APP采用Hybrid方案,即 H5 與 Native相結合的方式,因此對于日志采集來說,既涉及到H5頁面的日志,也涉及到Native客戶端上的日志。在這種情況下,可以分開采集分開發送,也可以將數據合并到一起之后再發送。

常規情況下是推薦將 H5上的數據往Native上合并,然后通過SDK統一的發送。這樣的好處是 既可以保證采集到的用戶行為數據在行為鏈上是完整的,也可以通過SDK采取一些壓縮處理方案來減少日志量,提高效率。

APP上的數據采集,還有一點比較重要的就是唯一ID了,所有的數據都必須跟唯一ID相關聯,才能起到更好的分析作用,至于移動設備唯一ID我在上一篇文章中有詳細講到。

日志收集,還有很重要的一條原則就是 “標準化”、“規范化”,只有采集的方式標準化、規范化,才能最大限度的減少收集成本,提高日志收集效率、更高效的實現接下來的統計計算。

數據源數據同步

根據同步的方式 可以分為:

·直接數據源同步

·生成數據文件同步

·數據庫日志同步

直接數據源同步: 是指直接的連接業務數據庫,通過規范的接口(如JDBC)去讀取目標數據庫的數據。這種方式比較容易實現,但是如果業務量比較大的數據源,可能會對性能有所影響。

生成數據文件同步: 是指從數據源系統現生成數據文件,然后通過文件系統同步到目標數據庫里。 這種方式適合數據源比較分散的場景,在數據文件傳輸前后必須做校驗,同時還需要適當進行文件的壓縮和加密,以提高效率、保障安全。

數據庫日志同步: 是指基于源數據庫的日志文件進行同步。現在大多數數據庫都支持生成數據日志文件,并且支持用數據日志文件來恢復數據。因此可以使用這個數據日志文件來進行增量同步。 這種方式對系統性能影響較小,同步效率也較高。

數據采集本身不是目的,只有采集到的數據是可用、能用,且能服務于最終應用分析的數據采集才是根本。

關鍵字:數據采集數據

本文摘自:IT168

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 浏阳市| 铁力市| 平乐县| 鲁甸县| 连山| 庐江县| 临沧市| 洞头县| 江油市| 邯郸市| 金昌市| 轮台县| 蓝山县| 资溪县| 海晏县| 莱西市| 云林县| 大悟县| 武乡县| 阳山县| 漾濞| 巴林右旗| 西华县| 吉隆县| 阿图什市| 葵青区| 江山市| 吉安县| 红安县| 丹江口市| 获嘉县| 屏南县| 稷山县| 库车县| 清新县| 辽源市| 隆安县| 尼勒克县| 郓城县| 桃江县| 棋牌|