明略數據為國美在線打造基于Apache Hadoop的大數據平臺,通過對數據的深度挖掘、分析和整合分析,有效實現業務提升與創新。
項目總結·明略數據為國美在線打造基于Apache Hadoop的大數據平臺,包括系統整合、數據挖掘、數據分析、數據整合幾大核心構架和功能。
·實施部署的SiteMonitor流量監控集群有效監控用戶行為,進行深度分析。
·Hadoop數據倉庫有效實現數據整合,存儲商品數據、用戶數據、交易數據、庫存數據、物流數據等的最實時數據。通過大數據平臺的實時SQL分析引擎關 聯分析,更加高效、快速、全面的生產業務報表,為業務人員提供更多數據以支持業務決策。
·國美DMP定義了DMP統一用戶行為數據模型,并提供了數據存儲接口,通過用戶ID打通、用戶行為存儲、用戶行為分析框架、用戶屬性分類、用戶查詢/篩選、計算結果輸出等多模塊,實現業務創新和服務提升。
·隨著國美在線流量的增長和業務的擴張,其傳統IT基于數據庫為中心的數據存儲、管理、計算的架構已經無法滿足日益增長的實時OLAP數據分析需求以及數據打通、個性化推薦、人群細分、精準投放等大數據領域有代表性的業務需求。
·國美在線內部具有大量的基于Oracle數據庫為代表的傳統業務系統。這些系統面臨著如下幾方面的問題
1. 自身業務擴張導致壓力增大,致使反映業務狀況的報表無法及時生成
2. 多個業務系統間的數據無法打通,無法出具更全面的報表、指標。 這些問題雖然可以通過基礎IT設施的升級來解決,但是面臨極其昂貴的成本。
明略數據為國美在線大數據平臺一期做了以下的建設規劃:
·采用基于Apache Hadoop的明略數據BigDataPlatform搭建國美大數據基礎平臺,做好IT基礎設施建設
·采用SiteMonitor流量監測軟件,為國美建設在線流量監測系統。通過自定義流量監測腳本,實現國美在線流量的站內站外監測和收集,通過數據分析得出多種維度的流量分析報表與指標。并且,這些在線用戶行為數據統一存儲于國美大數據平臺中。
·建設國美Hadoop數據倉庫。通過明略數據實時增量的數據庫同步軟件INCR,實時同步多個業務系統數據到Hadoop數據倉庫中。
·構建國美數據管理平臺(國美DMP), 建立統一用戶行為模型,統一存儲各個來源的用戶行為數據,包含在線用戶行為數據、線上交易數據、線下交易數據、庫存數據、物流數據、客服數據等。
·基于國美數據管理平臺,實現用戶行為數據分析與挖掘,為精準投放、個性化推薦、定向營銷等業務系統提供數據支持。
·明略數據攜手國美在線,搭建了基于Hadoop的大數據平臺。平臺包含HDFS、Yarn、Mapreduce、HBase、Hive、Spark、 Shark、pig、sqoop等多種大數據工具組件,并通過明略數據的大數據平臺管理軟件NoahArk統一管理,在基礎的節點增減、組件配置、服務啟 停等管理功能之外,提供了插件式的自定義服務安裝、多租戶的資源分配、權限管理,以及自定義監控報警等功能,為大數據平臺的快速、穩定運行提供了基礎保 障。
·明略數據為國美在線實施部署了SiteMonitor流量監控集群,并協助國美人員定義了全站頁面的用戶行為監測腳本,實現了站 內用戶行為的統一收集,實現了從站外流量到訂單交易的全過程用戶行為打通,為后續的用戶行為分析收集了詳細的數據。這些數據通過分布式日志收集工具統一存 儲于大數據平臺中。
·明略數據在大數據平臺上建設了Hadoop數據倉庫,并通過明略數據實時增量數據同步工具INCR,將多個在業務系統中的關系型 數據實時同步到Hadoop平臺中。在國美在線的Hadoop數據倉庫中,存儲了商品數據、用戶數據、交易數據、庫存數據、物流數據、客服數據、維保服務 等的最實時數據。通過大數據平臺的實時SQL分析引擎,這些數據被關聯分析,更加高效、快速、全面的生產業務報表,為業務人員提供更多數據以支持業務決 策。
·國美DMP定義了DMP統一用戶行為數據模型,并為提供了數據存儲接口。通過SiteMonitor收集到的在線用戶行為數據, 以及存儲于數據庫數據中的各類用戶行為數據,通過該數據接口將數據存入國美DMP中。DMP內部包含了用戶ID打通、用戶行為存儲、用戶行為分析框架、用 戶屬性分類、用戶查詢/篩選、計算結果輸出等多模塊。國美在線的開發人員通過自定義用戶行為模型,并提交給用戶行為分析框架統一執行,得出目標用戶人群, 并使用計算結果來支持業務系統。