大數據這個詞已經火了好幾年,我們所聽聞的“超市中啤酒和紙尿褲擺放在一起”這樣的例子其實就是大數據的基礎性應用。這些一般是根據簡單的數據采集和經驗判斷得出的結果,但真正的大數據挖掘靠的是復雜的數據建模,以及模型的疊加和階段性更新才能獲得用戶期待的效果。
京東(JD.com)一直是大數據應用的踐行者。2014年的京東技術嘉年華上,京東就曾經分享過如何應用大數據做到“智慧零售”,而最近,京東對其PC頁面和手機APP等進行了改版,“今日推薦”和“猜你喜歡”這兩個板塊不再千篇一律,而是實現了“千人千面”。
“千人千面”意味著每個人在PC或移動端打開京東網頁時,看到的是完全不同的一組推薦產品,推薦給你的可能是洗發水和按摩椅,推薦給我的可能是手機殼和一本兒童剪紙書。而且,京東表示,這種推薦的結果是,用戶購物決策的質量和效率提升了,忠誠度提高了,移動端個性化推薦訂單貢獻已經達到10%,可謂是雙方都滿意,皆大歡喜。
那么這樣的“大數據服務”是如何實現的呢?京東推薦搜索部總監劉尚堃近日與TechTarget中國記者分享了“千人千面”背后的大數據故事。
京東(JD.com)把這種以推薦方式吸引用戶再次回到京東采購商品叫“召回”。召回是基于之前的數據采集進行分析的。那么也就是需要多種不同的“召回模型”。
根據劉尚堃的介紹,目前京東正在采用的召回模型有三種。第一種是基于行為的召回模型,這個理解起來比較簡單。如,我剛剛在京東上購買了一部Kindle,那么京東會推薦我kindle周邊產品,比如一個kindle的保護套,這種是與用戶的購買行為相關。又如我再京東上瀏覽了一本金融書籍,京東會根據我的瀏覽記錄給我推薦相近的股票書籍。總之,這種推薦是比較直接的,而且劉尚堃也提到,他們最近還嘗試將用戶剛剛瀏覽過的商品直接推薦給用戶,這種“直白”的推薦是他們之前不屑于做的,但居然也起到了意想不到的好效果。
第二種召回模型是基于用戶的偏好進行推薦,也就是基于數據,對用戶、商品及店鋪進行畫像。下圖中,我們可以清楚的看到畫像的元素。京東后臺會對這些畫像進行配對,推薦合適的商品。比如一位男士,在京東上多次采購和瀏覽高檔品牌白色T恤,那么他的畫像就被定位為“男、高收入、T恤、白色、……”,當有相應高檔品牌上新白色T恤時,京東會自動推薦給這位男士。
京東用戶可以通過京東的PC端、移動App以及微信和手Q進行采購。一般而言,辦公環境下用戶更喜歡在PC上購物;移動、家居環境下用戶越來越喜歡蜷在沙發里在京東主APP和微信手Q上購物。當然,也可以在PC端看仔細,加入購物車,之后有空在移動端確認付款。根據不同屏幕展示限制,京東也會推薦相應地產品。
第三種召回模型是基于地域。不同城市的消費水平當然不同,同一個城市的不同區域也有著不同的消費習慣。北京酒吧街三里屯附近的采購集中在了撲克、飲料、礦泉水等娛樂類商品,而東北五環的龐各莊小區的采購則集中在了晾衣架、棉襪、鼠標、充電寶等生活類商品,對于來自這兩類不同局域的用戶,京東推薦的品類也會有所側重。
當然,這三種模型屬于宏觀模型,以下還有很多子模型,如在線相關、在線相似、離線相關、離線相似,以及近期比較熱銷的品牌和品類等。這些子模型都會進入到模型庫當中,基于一些算法進行模型效率分析,也就是看單位展示量中哪種模型效率最高。同時,京東會根據測試結果進行模型權重的調整,并不斷進行新的嘗試——比如把用戶直接放在購物車中的商品再次推薦給用戶,結果在原有算法基礎上又有了5%到10%的提升。后來劉尚堃的團隊又將這些召回模型借助新的算法進行排序,模型效率再度提升了20%。
劉尚堃也表示京東也在探尋如何向用戶展示一些可能會感興趣但不會馬上購買的品類,如手機、情侶睡衣、冰箱、筆記本、手表、平板電視等等,因為這些商品使用時間長,采購前的思考周期也比較長。他們正在嘗試定制某種展示機制,希望得到相應的效率提升。
目前,京東建構模型所采用的數據多數來源于京東采購記錄,未來也會考慮采用社交媒體的數據,進行輔助。劉尚堃說,他們也在積極嘗試新的算法和排序模型,并且就架構本身來說,能夠支持算法的高速迭代,京東平均每周會有7個新的算法實驗上線。在未來,搜索團隊基于大數據召回率預計還有50%的提升。
通過“千人千面”的商品推薦,大數據為京東帶來了實實在在的利潤。相信也會有更多的大數據故事,醞釀在各個行業和企業,為企業帶來生機。