2015年3月28日,百分點大數據技術沙龍在Binggo咖啡圓滿落幕。本次百分點技術專家劉譯璟博士和李海峰為大家分享了百分點大數據用戶畫像的概念和方法,以及如何構建和應用,中關村大數據產業聯盟副秘書長陳新河作為特邀嘉賓從宏觀的視野分析了大數據發展路徑。
陳新河分享了《畫像--大數據征程的起點》主題報告。他認為,大數據是物理世界在網絡世界的映射,是一場人類空前的網絡畫像運動。網絡世界與物理世界不是孤立的,網絡世界是物理世界層次的反映。數據是無縫連接網絡世界與物理世界的DNA。發現數據DNA、重組數據DNA是人類不斷認識、探索、實踐大數據的持續過程。
陳新河把網絡畫像分為行為畫像、健康畫像、企業信用畫像、個人信用畫像、靜態產品畫像、旋轉設備畫像、社會畫像和經濟畫像等八類,并通過實踐案例進行了闡釋。
劉譯璟博士首先從百分點推薦引擎開始,深入探討了四大引擎。
場景引擎:個性化的核心:判斷用戶處于哪個購物環節,有什么樣的購物目標;
規則引擎:業務的核心:結合用戶、場景、算法輸出數據和業務KPI,決定為用戶推薦哪些內容;
算法引擎:計算用戶之間的相似度、商品之間的相似度、用戶對商品的評分、用戶分群、熱門排行……
展示引擎:將推薦內容以最佳的展示方式呈現在用戶面前。
推薦引擎的核心是將購物流程數據化,而其前提是將用戶數據化。如何將用戶數據化呢?就是用戶畫像。
劉譯璟博士用幾個生活中畫像的例子生動地闡釋了什么是用戶畫像。
他認為用戶側寫可能更加準確的描述“用戶畫像”這個詞,因為我們是通過有限的信息來描述一個人,而非通過全息相機照相的模式來描述一個人。
從技術角度來看,人在網絡空間是一個比特流,人們認識人的方式發生重大改變,由物理空間的“相面”轉變為網絡空間比特流解析,更重要的是教會機器按照人類交給他的規則從這些比特流進行自動識別。能夠從千萬計的用戶中找出金融詐騙者、恐怖分子等。
如何實現這一過程?這就需要一種類似成像技術中的像素來對人的特征進行刻畫,這就是畫像中的標簽。
大數據用戶畫像其實就是對現實用戶做的一個數學模型,在整個數學模型中,其核心是,怎么描述業務知識體系,而這個業務知識體系就是本體論,本體論很復雜,我們找到了一個特別樸素的實現,就是標簽。建好模型以后,要在業務的實踐中去檢驗,并且不斷完善,不斷豐富這個模型,來達到利用比特流對人越來越精確的理解。用戶畫像不是一個數學游戲,不是一個技術問題,實際上是一個業務問題。因為最核心的是你去如何理解用戶,了解你的用戶。它是技術與業務最佳的結合點,也是一個現實跟數據的最佳實踐。
李海峰分享了百分點在用戶畫像方面的實踐和案例。
他首先以自己為例分享了畫像樣例。基于他這個人可以知道他所在的城市是在北京,男性,公司在百分點,喜歡的品類是男鞋、運動鞋,喜歡的品牌有耐克、阿迪達斯等等。每一個標簽都有一個權重值。可以看到,耐克的權重值比阿迪達斯更高一些。
百分點的畫像標簽體系包括:人口屬性、上網特征、營銷特征、內容偏好、興趣偏好等。
以手機商品屬性為例,包括品牌、品類、型號、上市時間、價格、顏色、網絡、操作系統、分辨率、屏幕尺寸等等。
有多種標識方式對用戶進行識別,這就像社會生活中的身份證號碼一樣,只不過換成了網絡空間的手機號、Cookie、IMEI、Email、微博、微信賬號等,在處理過程中,這些信息都是加密的,機器知道但人不知道。
百分點用戶畫像邏輯架構如下圖所示,通過對電商、社區、移動應用、微博、微信等多種類別的數據源進行采集,然后對用戶進行畫像,最終在個性化推薦、用戶洞察、精準營銷等方面進行應用。百分點的數據源多且龐大,服務的客戶超過了1500多家,覆蓋行業超過了40多個。舉例來說,一個網民,他在訪問一個電商A,同時又訪問了一個電商B,這兩個電商本身的知識體系是不一樣的。比如說這個用戶他訪問一雙鞋,他在電商A上的品類可能是鞋-男鞋-運動鞋,在網站B上可能是運動-戶外-男鞋,品類描述可能是不一樣的。所以百分點打造了這么一個系統,叫商品畫像系統。通過這個系統,所有的標簽就有了一個標簽規劃,之后就可以去構建這個用戶在全網的用戶畫像標簽。用戶畫像只是一個起點,而不是一個結束。基于此,還可以打造一系列的服務,比如精準營銷、個性化推薦等。
下圖是用戶畫像的技術架構圖。我們可以看到總共分為五層:第一是數據源;第二層是數據采集服務,百分點有一堆數據采集服務,包括我們的數據探頭,能夠對用戶的行為進行一個實時采集;第三層是數據預處理,主要是結構化;第四層是商品畫像,這一塊都是我們的用戶畫像服務。我們可以看到用戶畫像是分兩大塊,實時處理更偏重于預測用戶畫像的需求,離線處理更偏重于用戶的長期偏好;第五是統一的數據接口,還有就是集群,上面可以接入各種各樣的應用。
用戶在互聯網上的行為主要分為電商類、社交類和媒體類。每種行為差異很大,電商類行為包括瀏覽、搜索、添加購物車、收藏、支付等,而社交類則是點贊、轉發、評論等。
接著下一步需要對頁面標簽進行抽取,在做這件事情之前需要訓練模型,首先準備訓練數據,通過標注和規則生成,再就是對于序列集做一個序列化處理。首先會得到一個弱模型,最終得到一個強模型,然后把自己的參數都保留下來。這個時候我們會加一個決策,如果說效果不太好的話,我們會進行下一輪的優化。當這個模型設置之后,我們就可以去做預測了。我們的預測總共分為四大塊,包括輸入、輸入預處理、預測和產出。也就是說用戶這個標簽已經有了,這個標簽對用戶的信譽度是1還是0?這個時候就到了用戶行為建模。用戶行為建模的背后思想主要可以認為有兩大塊,成本越高行為權重越高,下單就比瀏覽更高一些,時間越近的行為權重越高,比如我今天看了一個手機,一定比我一周前看了一次電腦權重要高一些。我們可以按場景去分,首先是產生需求,再就是決策,然后是結束,百分點基于業務考慮,實行標簽權重積累的機制。
剛才講的都是百分點已經做的事情,但是百分點做得還遠遠不夠。接下來可能會在四大方面深入思考和實踐:一是不同的場景,也就是說用戶在家里和在辦公環境下代表的偏好是不一樣的;二是用戶心理學特征,比如當一個用戶看一件女裝的時候,她這個時候是無聊去逛還是有目的的逛,反映在標簽權重上是不一樣的;三是讓用戶主動反饋反感點,我們強調了許多,一般都是在強調用戶喜歡什么,但是用戶不喜歡什么,我們做得還不夠,我們應該讓用戶主動告訴我們他不喜歡什么,比如他不喜歡吃蔥,他不喜歡吃羊肉串,我們預測的時候會準得多;四是用戶的興趣轉移快速捕獲,一開始我們使用的是一個半衰期的,而且按頻率細分,我們是否可以按人去分?比如按訪次去分?比如針對品類手機這個標簽,可能對于手機發燒友,他可能過了一年依然會對手機比較感興趣,但是對于像我這種,只有想購買的時候才去看,可能我兩天不看,就表示這個興趣已經衰減為零了。