2015年3月28日,“百分點大數(shù)據(jù)技術(shù)沙龍——管中窺豹:用大數(shù)據(jù)洞察用戶”嘉賓陳新河分享了《畫像——大數(shù)據(jù)征程的起點》主題報告。他認為,大數(shù)據(jù)是物理世界在網(wǎng)絡(luò)世界的映射,是一場人類空前的網(wǎng)絡(luò)畫像運動。網(wǎng)絡(luò)世界與物理世界不是孤立的,網(wǎng)絡(luò)世界是物理世界層次的反映。數(shù)據(jù)是無縫連接網(wǎng)絡(luò)世界與物理世界的DNA。發(fā)現(xiàn)數(shù)據(jù)DNA、重組數(shù)據(jù)DNA是人類不斷認識、探索、實踐大數(shù)據(jù)的持續(xù)過程。
圖1 大數(shù)據(jù)發(fā)展路徑
陳新河把網(wǎng)絡(luò)畫像分為行為畫像、健康畫像、企業(yè)信用畫像、個人信用畫像、靜態(tài)產(chǎn)品畫像、旋轉(zhuǎn)設(shè)備畫像、社會畫像和經(jīng)濟畫像等八類,并通過實踐案例進行了闡釋。
未來,人生的每個歷程無時無刻不由數(shù)據(jù)驅(qū)動。
圖2 數(shù)據(jù)驅(qū)動人生
未來,設(shè)備全生命周期也將由數(shù)據(jù)驅(qū)動。
圖3 數(shù)據(jù)驅(qū)動汽車全生命周期(海略咨詢)
劉譯璟博士首先從百分點推薦引擎開始,深入探討了四大引擎。
場景引擎:個性化的核心,判斷用戶處于哪個購物環(huán)節(jié),有什么樣的購物目標;
規(guī)則引擎:業(yè)務(wù)的核心,結(jié)合用戶、場景、算法輸出數(shù)據(jù)和業(yè)務(wù)KPI,決定為用戶推薦哪些內(nèi)容;
算法引擎:計算用戶之間的相似度、商品之間的相似度、用戶對商品的評分、用戶分群、熱門排行……
展示引擎:將推薦內(nèi)容以最佳的展示方式呈現(xiàn)在用戶面前。
推薦引擎的核心是將購物流程數(shù)據(jù)化,而其前提是將用戶數(shù)據(jù)化。如何將用戶數(shù)據(jù)化呢?就是用戶畫像。
劉譯璟博士用幾個生活中畫像的例子生動地闡釋了什么是用戶畫像。
用戶畫像的目標、方式、組織、標準和驗證等幾個特點。
他認為用戶側(cè)寫可能更加準確的描述“用戶畫像”這個詞,因為我們是通過有限的信息來描述一個人,而非通過全息相機照相的模式來描述一個人。
從技術(shù)角度來看,人在網(wǎng)絡(luò)空間是一個比特流,人們認識人的方式發(fā)生重大改變,由物理空間的“相面”轉(zhuǎn)變?yōu)榫W(wǎng)絡(luò)空間比特流解析,更重要的是教會機器按照人類交給他的規(guī)則從這些比特流進行自動識別。能夠從千萬計的用戶中找出金融詐騙者、恐怖分子等。
如何實現(xiàn)這一過程?這就需要一種類似成像技術(shù)中的像素來對人的特征進行刻畫,這就是畫像中的標簽。
大數(shù)據(jù)用戶畫像其實就是對現(xiàn)實用戶做的一個數(shù)學(xué)模型,在整個數(shù)學(xué)模型中,其核心是,怎么描述業(yè)務(wù)知識體系,而這個業(yè)務(wù)知識體系就是本體論,本體論很復(fù)雜,我們找到了一個特別樸素的實現(xiàn),就是標簽。建好模型以后,要在業(yè)務(wù)的實踐中去檢驗,并且不斷完善,不斷豐富這個模型,來達到利用比特流對人越來越精確的理解。用戶畫像不是一個數(shù)學(xué)游戲,不是一個技術(shù)問題,實際上是一個業(yè)務(wù)問題。因為最核心的是你去如何理解用戶,了解你的用戶。它是技術(shù)與業(yè)務(wù)最佳的結(jié)合點,也是一個現(xiàn)實跟數(shù)據(jù)的最佳實踐。
李海峰分享了百分點在用戶畫像方面的實踐和案例。
他首先以自己為例分享了畫像樣例?;谒@個人可以知道他所在的城市是在北京,男性,公司在百分點,喜歡的品類是男鞋、運動鞋,喜歡的品牌有耐克、阿迪達斯等等。每一個標簽都有一個權(quán)重值??梢钥吹剑涂说臋?quán)重值比阿迪達斯更高一些。
這幅圖是通過云圖的方式對百分點創(chuàng)始人/董事長兼CEO蘇萌進行的特征畫像。
百分點的畫像標簽體系包括:人口屬性、上網(wǎng)特征、營銷特征、內(nèi)容偏好、興趣偏好等。
以手機商品屬性為例,包括品牌、品類、型號、上市時間、價格、顏色、網(wǎng)絡(luò)、操作系統(tǒng)、分辨率、屏幕尺寸等等。
標簽管理體系具有如下特性。
有多種標識方式對用戶進行識別,這就像社會生活中的身份證號碼一樣,只不過換成了網(wǎng)絡(luò)空間的手機號、Cookie、IMEI、Email、微博、微信賬號等,在處理過程中,這些信息都是加密的,機器知道但人不知道。
百分點用戶畫像邏輯架構(gòu)如下圖所示,通過對電商、社區(qū)、移動應(yīng)用、微博、微信等多種類別的數(shù)據(jù)源進行采集,然后對用戶進行畫像,最終在個性化推薦、用戶洞察、精準營銷等方面進行應(yīng)用。百分點的數(shù)據(jù)源多且龐大,服務(wù)的客戶超過了1500多家,覆蓋行業(yè)超過了40多個。舉例來說,一個網(wǎng)民,他在訪問一個電商A,同時又訪問了一個電商B,這兩個電商本身的知識體系是不一樣的。比如說這個用戶他訪問一雙鞋,他在電商A上的品類可能是鞋-男鞋-運動鞋,在網(wǎng)站 B上可能是運動-戶外-男鞋,品類描述可能是不一樣的。所以百分點打造了這么一個系統(tǒng),叫商品畫像系統(tǒng)。通過這個系統(tǒng),所有的標簽就有了一個標簽規(guī)劃,之后就可以去構(gòu)建這個用戶在全網(wǎng)的用戶畫像標簽。用戶畫像只是一個起點,而不是一個結(jié)束?;诖?,還可以打造一系列的服務(wù),比如精準營銷、個性化推薦等。
下圖是用戶畫像的技術(shù)架構(gòu)圖。我們可以看到總共分為五層:第一是數(shù)據(jù)源;第二層是數(shù)據(jù)采集服務(wù),百分點有一堆數(shù)據(jù)采集服務(wù),包括我們的數(shù)據(jù)探頭,能夠?qū)τ脩舻男袨檫M行一個實時采集;第三層是數(shù)據(jù)預(yù)處理,主要是結(jié)構(gòu)化;第四層是商品畫像,這一塊都是我們的用戶畫像服務(wù)。我們可以看到用戶畫像是分兩大塊,實時處理更偏重于預(yù)測用戶畫像的需求,離線處理更偏重于用戶的長期偏好;第五是統(tǒng)一的數(shù)據(jù)接口,還有就是集群,上面可以接入各種各樣的應(yīng)用。
下圖是用戶標簽產(chǎn)出流程示例。
用戶在互聯(lián)網(wǎng)上的行為主要分為電商類、社交類和媒體類。每種行為差異很大,電商類行為包括瀏覽、搜索、添加購物車、收藏、支付等,而社交類則是點贊、轉(zhuǎn)發(fā)、評論等。
接著下一步需要對頁面標簽進行抽取,在做這件事情之前需要訓(xùn)練模型,首先準備訓(xùn)練數(shù)據(jù),通過標注和規(guī)則生成,再就是對于序列集做一個序列化處理。首先會得到一個弱模型,最終得到一個強模型,然后把自己的參數(shù)都保留下來。這個時候我們會加一個決策,如果說效果不太好的話,我們會進行下一輪的優(yōu)化。當這個模型設(shè)置之后,我們就可以去做預(yù)測了。我們的預(yù)測總共分為四大塊,包括輸入、輸入預(yù)處理、預(yù)測和產(chǎn)出。也就是說用戶這個標簽已經(jīng)有了,這個標簽對用戶的信譽度是1還是0?這個時候就到了用戶行為建模。用戶行為建模的背后思想主要可以認為有兩大塊,成本越高行為權(quán)重越高,下單就比瀏覽更高一些,時間越近的行為權(quán)重越高,比如我今天看了一個手機,一定比我一周前看了一次電腦權(quán)重要高一些。我們可以按場景去分,首先是產(chǎn)生需求,再就是決策,然后是結(jié)束,百分點基于業(yè)務(wù)考慮,實行標簽權(quán)重積累的機制。
這是我們的客戶某航空公司的案例,項目目的是挖掘高價值旅客,希望通過分析旅客出行偏好優(yōu)化運力資源。最終百分點幫他構(gòu)建了5個標簽大類,75個標簽小類,數(shù)萬個小標簽,以下是當時的一些效果截圖。
剛才講的都是百分點已經(jīng)做的事情,但是百分點做得還遠遠不夠。接下來可能會在四大方面深入思考和實踐:一是不同的場景,也就是說用戶在家里和在辦公環(huán)境下代表的偏好是不一樣的;二是用戶心理學(xué)特征,比如當一個用戶看一件女裝的時候,她這個時候是無聊去逛還是有目的的逛,反映在標簽權(quán)重上是不一樣的;三是讓用戶主動反饋反感點,我們強調(diào)了許多,一般都是在強調(diào)用戶喜歡什么,但是用戶不喜歡什么,我們做得還不夠,我們應(yīng)該讓用戶主動告訴我們他不喜歡什么,比如他不喜歡吃蔥,他不喜歡吃羊肉串,這樣我們預(yù)測的時候會準得多;四是用戶的興趣轉(zhuǎn)移快速捕獲,一開始我們使用的是一個半衰期的,而且按頻率細分,我們是否可以按人去分?比如按訪次去分?比如針對品類手機這個標簽,對于手機發(fā)燒友,可能過了一年他依然會對手機比較感興趣,但是對于像我這種,只有想購買的時候才去看,可能我兩天不看,就表示這個興趣已經(jīng)衰減為零了。