關(guān)于我們聯(lián)系我們

大數(shù)據(jù)時代下的用戶洞察

責(zé)任編輯：editor005 作者：百分百 |來源：企業(yè)網(wǎng)D1Net 2015-04-03 14:33:45 本文摘自：軟件定義世界

2015年3月28日，“百分點大數(shù)據(jù)技術(shù)沙龍——管中窺豹：用大數(shù)據(jù)洞察用戶”嘉賓陳新河分享了《畫像——大數(shù)據(jù)征程的起點》主題報告。他認為，大數(shù)據(jù)是物理世界在網(wǎng)絡(luò)世界的映射，是一場人類空前的網(wǎng)絡(luò)畫像運動。網(wǎng)絡(luò)世界與物理世界不是孤立的，網(wǎng)絡(luò)世界是物理世界層次的反映。數(shù)據(jù)是無縫連接網(wǎng)絡(luò)世界與物理世界的DNA。發(fā)現(xiàn)數(shù)據(jù)DNA、重組數(shù)據(jù)DNA是人類不斷認識、探索、實踐大數(shù)據(jù)的持續(xù)過程。

大數(shù)據(jù)

圖1 大數(shù)據(jù)發(fā)展路徑

陳新河把網(wǎng)絡(luò)畫像分為行為畫像、健康畫像、企業(yè)信用畫像、個人信用畫像、靜態(tài)產(chǎn)品畫像、旋轉(zhuǎn)設(shè)備畫像、社會畫像和經(jīng)濟畫像等八類，并通過實踐案例進行了闡釋。

未來，人生的每個歷程無時無刻不由數(shù)據(jù)驅(qū)動。

圖2 數(shù)據(jù)驅(qū)動人生

未來，設(shè)備全生命周期也將由數(shù)據(jù)驅(qū)動。

圖3 數(shù)據(jù)驅(qū)動汽車全生命周期(海略咨詢)

劉譯璟博士首先從百分點推薦引擎開始，深入探討了四大引擎。

場景引擎：個性化的核心，判斷用戶處于哪個購物環(huán)節(jié)，有什么樣的購物目標;

規(guī)則引擎：業(yè)務(wù)的核心，結(jié)合用戶、場景、算法輸出數(shù)據(jù)和業(yè)務(wù)KPI，決定為用戶推薦哪些內(nèi)容;

算法引擎：計算用戶之間的相似度、商品之間的相似度、用戶對商品的評分、用戶分群、熱門排行……

展示引擎：將推薦內(nèi)容以最佳的展示方式呈現(xiàn)在用戶面前。

推薦引擎的核心是將購物流程數(shù)據(jù)化，而其前提是將用戶數(shù)據(jù)化。如何將用戶數(shù)據(jù)化呢?就是用戶畫像。

劉譯璟博士用幾個生活中畫像的例子生動地闡釋了什么是用戶畫像。

用戶畫像的目標、方式、組織、標準和驗證等幾個特點。

他認為用戶側(cè)寫可能更加準確的描述“用戶畫像”這個詞，因為我們是通過有限的信息來描述一個人，而非通過全息相機照相的模式來描述一個人。

從技術(shù)角度來看，人在網(wǎng)絡(luò)空間是一個比特流，人們認識人的方式發(fā)生重大改變，由物理空間的“相面”轉(zhuǎn)變?yōu)榫W(wǎng)絡(luò)空間比特流解析，更重要的是教會機器按照人類交給他的規(guī)則從這些比特流進行自動識別。能夠從千萬計的用戶中找出金融詐騙者、恐怖分子等。

如何實現(xiàn)這一過程?這就需要一種類似成像技術(shù)中的像素來對人的特征進行刻畫，這就是畫像中的標簽。

大數(shù)據(jù)用戶畫像其實就是對現(xiàn)實用戶做的一個數(shù)學(xué)模型，在整個數(shù)學(xué)模型中，其核心是，怎么描述業(yè)務(wù)知識體系，而這個業(yè)務(wù)知識體系就是本體論，本體論很復(fù)雜，我們找到了一個特別樸素的實現(xiàn)，就是標簽。建好模型以后，要在業(yè)務(wù)的實踐中去檢驗，并且不斷完善，不斷豐富這個模型，來達到利用比特流對人越來越精確的理解。用戶畫像不是一個數(shù)學(xué)游戲，不是一個技術(shù)問題，實際上是一個業(yè)務(wù)問題。因為最核心的是你去如何理解用戶，了解你的用戶。它是技術(shù)與業(yè)務(wù)最佳的結(jié)合點，也是一個現(xiàn)實跟數(shù)據(jù)的最佳實踐。

李海峰分享了百分點在用戶畫像方面的實踐和案例。

他首先以自己為例分享了畫像樣例?；谒@個人可以知道他所在的城市是在北京，男性，公司在百分點，喜歡的品類是男鞋、運動鞋，喜歡的品牌有耐克、阿迪達斯等等。每一個標簽都有一個權(quán)重值?？梢钥吹剑涂说臋?quán)重值比阿迪達斯更高一些。

這幅圖是通過云圖的方式對百分點創(chuàng)始人/董事長兼CEO蘇萌進行的特征畫像。

百分點的畫像標簽體系包括：人口屬性、上網(wǎng)特征、營銷特征、內(nèi)容偏好、興趣偏好等。

以手機商品屬性為例，包括品牌、品類、型號、上市時間、價格、顏色、網(wǎng)絡(luò)、操作系統(tǒng)、分辨率、屏幕尺寸等等。

　　標簽管理體系具有如下特性。

有多種標識方式對用戶進行識別，這就像社會生活中的身份證號碼一樣，只不過換成了網(wǎng)絡(luò)空間的手機號、Cookie、IMEI、Email、微博、微信賬號等，在處理過程中，這些信息都是加密的，機器知道但人不知道。

百分點用戶畫像邏輯架構(gòu)如下圖所示，通過對電商、社區(qū)、移動應(yīng)用、微博、微信等多種類別的數(shù)據(jù)源進行采集，然后對用戶進行畫像，最終在個性化推薦、用戶洞察、精準營銷等方面進行應(yīng)用。百分點的數(shù)據(jù)源多且龐大，服務(wù)的客戶超過了1500多家，覆蓋行業(yè)超過了40多個。舉例來說，一個網(wǎng)民，他在訪問一個電商A，同時又訪問了一個電商B，這兩個電商本身的知識體系是不一樣的。比如說這個用戶他訪問一雙鞋，他在電商A上的品類可能是鞋-男鞋-運動鞋，在網(wǎng)站 B上可能是運動-戶外-男鞋，品類描述可能是不一樣的。所以百分點打造了這么一個系統(tǒng)，叫商品畫像系統(tǒng)。通過這個系統(tǒng)，所有的標簽就有了一個標簽規(guī)劃，之后就可以去構(gòu)建這個用戶在全網(wǎng)的用戶畫像標簽。用戶畫像只是一個起點，而不是一個結(jié)束?；诖?，還可以打造一系列的服務(wù)，比如精準營銷、個性化推薦等。

下圖是用戶畫像的技術(shù)架構(gòu)圖。我們可以看到總共分為五層：第一是數(shù)據(jù)源;第二層是數(shù)據(jù)采集服務(wù)，百分點有一堆數(shù)據(jù)采集服務(wù)，包括我們的數(shù)據(jù)探頭，能夠?qū)τ脩舻男袨檫M行一個實時采集;第三層是數(shù)據(jù)預(yù)處理，主要是結(jié)構(gòu)化;第四層是商品畫像，這一塊都是我們的用戶畫像服務(wù)。我們可以看到用戶畫像是分兩大塊，實時處理更偏重于預(yù)測用戶畫像的需求，離線處理更偏重于用戶的長期偏好;第五是統(tǒng)一的數(shù)據(jù)接口，還有就是集群，上面可以接入各種各樣的應(yīng)用。

　　下圖是用戶標簽產(chǎn)出流程示例。

用戶在互聯(lián)網(wǎng)上的行為主要分為電商類、社交類和媒體類。每種行為差異很大，電商類行為包括瀏覽、搜索、添加購物車、收藏、支付等，而社交類則是點贊、轉(zhuǎn)發(fā)、評論等。

接著下一步需要對頁面標簽進行抽取，在做這件事情之前需要訓(xùn)練模型，首先準備訓(xùn)練數(shù)據(jù)，通過標注和規(guī)則生成，再就是對于序列集做一個序列化處理。首先會得到一個弱模型，最終得到一個強模型，然后把自己的參數(shù)都保留下來。這個時候我們會加一個決策，如果說效果不太好的話，我們會進行下一輪的優(yōu)化。當這個模型設(shè)置之后，我們就可以去做預(yù)測了。我們的預(yù)測總共分為四大塊，包括輸入、輸入預(yù)處理、預(yù)測和產(chǎn)出。也就是說用戶這個標簽已經(jīng)有了，這個標簽對用戶的信譽度是1還是0?這個時候就到了用戶行為建模。用戶行為建模的背后思想主要可以認為有兩大塊，成本越高行為權(quán)重越高，下單就比瀏覽更高一些，時間越近的行為權(quán)重越高，比如我今天看了一個手機，一定比我一周前看了一次電腦權(quán)重要高一些。我們可以按場景去分，首先是產(chǎn)生需求，再就是決策，然后是結(jié)束，百分點基于業(yè)務(wù)考慮，實行標簽權(quán)重積累的機制。

這是我們的客戶某航空公司的案例，項目目的是挖掘高價值旅客，希望通過分析旅客出行偏好優(yōu)化運力資源。最終百分點幫他構(gòu)建了5個標簽大類，75個標簽小類，數(shù)萬個小標簽，以下是當時的一些效果截圖。

剛才講的都是百分點已經(jīng)做的事情，但是百分點做得還遠遠不夠。接下來可能會在四大方面深入思考和實踐：一是不同的場景，也就是說用戶在家里和在辦公環(huán)境下代表的偏好是不一樣的;二是用戶心理學(xué)特征，比如當一個用戶看一件女裝的時候，她這個時候是無聊去逛還是有目的的逛，反映在標簽權(quán)重上是不一樣的;三是讓用戶主動反饋反感點，我們強調(diào)了許多，一般都是在強調(diào)用戶喜歡什么，但是用戶不喜歡什么，我們做得還不夠，我們應(yīng)該讓用戶主動告訴我們他不喜歡什么，比如他不喜歡吃蔥，他不喜歡吃羊肉串，這樣我們預(yù)測的時候會準得多;四是用戶的興趣轉(zhuǎn)移快速捕獲，一開始我們使用的是一個半衰期的，而且按頻率細分，我們是否可以按人去分?比如按訪次去分?比如針對品類手機這個標簽，對于手機發(fā)燒友，可能過了一年他依然會對手機比較感興趣，但是對于像我這種，只有想購買的時候才去看，可能我兩天不看，就表示這個興趣已經(jīng)衰減為零了。