喜歡海淘的朋友應該對eBay并不陌生,如果你還不了解,可以把eBay+PayPal理解為淘寶+支付寶的組合,當然eBay不僅有C2C還有B2C的模式。雖然介紹了背景,但今天要說的并不是電子商務的發展,而是大數據在電商內如何發揮價值。
因為不論國外還是國內的電子商務企業,他們的相同點都是以業務為導向。eBay的做法是用數據驅動商業,其上所有的數據產品都是針對業務而生,數據部門需要對不斷變化的用戶需求找到解決之法,也就是從客戶的行為數據中來尋找價值。
行為數據用混合的手段來處理
數據是eBay發展的基礎和價值所在,所以eBay數據服務和解決方案團隊從eBay成立的第一天就已經存在,從數據倉庫到數據分析再到數據服務,部門的名字一直隨著發展在不斷變化。但萬變不離其宗,數據服務和解決方案團隊就是一個針對數據展開想象的部門。
eBay數據服務和解決方案團隊分布在美國西雅圖、圣何塞以及中國上海,而中國團隊全職和外包人員總共將近有100人,其中有不同的職位和分工,包括數據科學家、數據工程師、商業需求分析師、產品經理四大類。兩個區域的團隊互相協作,共同開發核心數據的同時也支持不同的業務部門。
eBay中國數據服務和解決方案團隊主管李煒
eBay目前整體有四大系統,其中三個為生產系統,一個為測試開發系統。生產系統包括:第一,保存交易型數據和用戶數據的企業及數據倉庫(Enterprise Data Warehouse);第二,Teradata為eBay特別定制的分析系統,主要進行非結構化的用戶行為數據處理;第三,專門為數據分析師使用,方便快速找到想要的數據。eBay中國數據服務和解決方案團隊主管李煒指出,前兩個系統主要為生產環境做批處理,最后一個系統是幫助數據科學家進行測試和制作分析報告。
由于eBay電子商務的性質,其用戶行為數據占80%以上,而通過買家和賣家的行為數據eBay可以做很多個性化的應用。買家更喜歡買哪些種類下的產品,有哪些購物習慣、什么時間購買,這些數據可以幫助賣家了解哪些是自己最大的客戶群,以及基于機器學習對未來的熱點市場進行預測。
“eBay的行為數據都是非結構化數據,這對于關系型數據庫的壓力非常大。”李煒談到。因此eBay則使用了混合方案,使用Hadoop來應對海量非結構化數據,將原始數據首先加載到Hadoop上,完成行級結構化處理,在將這些預處理好的數據送到不同的系統,之后處理已經模式化的數據和半結構化數據。
eBay擁有龐大的Hadoop節點和Teradata節點,這也帶來了三大挑戰:
第一、不同系統間的數據搬移,eBay每天產生的數據量是巨大的,這些數據要在多個平臺上搬移,在搬移的過程中要保證不同系統中數據的同步和數據質量。
第二、不同系統的管理,隨著eBay系統平臺的越來越多樣化,對于Teradata和Hadoop等系統的管理,以及搬移數據的管理都需要不斷增強。
第三、技術能力提升,不同平臺有不同的技術,這就需要員工具備綜合技術能力。
只要有業務需求就有數據產品
對于eBay來講數據平臺要具備高可靠性、高可用性、易用性。eBay與Teradata的合作已有20年之久,eBay也是目前Teradata最大的客戶之一。李煒回顧了Teradata系統在eBay上這20年中經歷了多次演變,到目前為止eBay的核心數據、交易型企業級數據和用戶行為數據都在Teradata上進行存儲管理和應用。
以數據驅動商業是eBay的文化,大數據平臺最終是為了產生價值,現在除了傳統的數據整合,eBay在各個業務環境中都有著不同的數據產品。
eBay有一款針對賣家的線上免費工具Seller Hub,可以為每一位賣家進行深入的分析,哪些商品更暢銷,產品如何標價才能具備競爭優勢等。這中間會使用到數據模型,李煒強調模型不僅僅從eBay網站中的所有類目中調取價格,而且還會比對相似產品的關聯價格,最終為賣家提供指導價格。
結合了自身數據和第三方數據也讓eBay可以完善網站上不能捕獲的一些數據來繪制用戶畫像,像性別、職業、收入等。包括對用戶畫像進行分級,哪些是潛力賣家,哪些是高風險買家,從而更精準地進行市場推廣。
剛剛更多說的是eBay如何用數據提供一些產品,在內部eBay同樣用數據在優化自身網站,在對頁面的設計、新功能的設計上都會提供相應的建議。
2016年,eBay還將繼續發展B2C和C2C市場,但是eBay有B2C、C2C、二手貨多種賣家的存在,如何管理各個類目中的商品成為一個非常大的挑戰,eBay要做到把大部分的類目最終關聯到結構化的產品系列中,實現精細化的管理。
用戶的需求是多樣化的,eBay也會有越來越多的需求,未來與Teradata的合作上,不僅僅是硬件一體機層面,在美國eBay已經開始使用了Teradata提供的云服務,并且已經落地了一些具體的應用。