互聯(lián)網(wǎng)行業(yè)在大數(shù)據(jù)的積累和應(yīng)用以百度、騰訊和阿里巴巴最為值得關(guān)注。百度、騰訊和阿里巴巴在大數(shù)據(jù)的應(yīng)用上雖然有共同的地方,但由于各自的數(shù)據(jù)來源和商業(yè)模式的不同,其大數(shù)據(jù)應(yīng)用也有不同的特色。本文將分析他們擁有的數(shù)據(jù)資產(chǎn)和應(yīng)用,以方便大家了解大型互聯(lián)網(wǎng)企業(yè)的大數(shù)據(jù)現(xiàn)狀和未來策略。
百度、阿里巴巴和騰訊的數(shù)據(jù)資產(chǎn)
從數(shù)據(jù)類型看,騰訊數(shù)據(jù)最為全面,這與其互聯(lián)網(wǎng)業(yè)務(wù)全面相關(guān),其最為突出的是社交數(shù)據(jù)和游戲數(shù)據(jù),其中:社交數(shù)據(jù)最為核心的是關(guān)系鏈數(shù)據(jù)、用戶間的互動數(shù)據(jù)、用戶產(chǎn)生的文字、圖片和視頻內(nèi)容;游戲數(shù)據(jù)主要包括大型網(wǎng)游數(shù)據(jù)、網(wǎng)頁游戲數(shù)據(jù)和手機(jī)游戲數(shù)據(jù),游戲數(shù)據(jù)中最為核心的是游戲的活躍行為數(shù)據(jù)和付費(fèi)行為數(shù)據(jù),騰訊的數(shù)據(jù)最大的特點(diǎn)是基于社交的各種用戶行為和娛樂數(shù)據(jù)。阿里最為突出的是電商數(shù)據(jù),尤其是用戶在淘寶和天貓上的商品瀏覽、搜索、點(diǎn)擊、收藏和購買等數(shù)據(jù),其數(shù)據(jù)最大特點(diǎn)是從瀏覽到支付形成的用戶漏斗式轉(zhuǎn)化數(shù)據(jù)。百度的數(shù)據(jù)以用戶搜索的關(guān)鍵詞、爬蟲抓取的網(wǎng)頁、圖片和視頻數(shù)據(jù)為主,百度的數(shù)據(jù)特點(diǎn)是通過搜索關(guān)鍵詞更直接反映用戶興趣和需求,百度的數(shù)據(jù)以非結(jié)構(gòu)化數(shù)據(jù)更多。
百度、阿里巴巴和騰訊的數(shù)據(jù)應(yīng)用場景
百度、阿里巴巴和騰訊的數(shù)據(jù)應(yīng)用場景都有共同的體系,該體系一共分為七層,代表了企業(yè)不同層面的數(shù)據(jù)價值應(yīng)用場景,形成了企業(yè)運(yùn)營的數(shù)據(jù)價值金字塔:
(1)數(shù)據(jù)基礎(chǔ)平臺層。金字塔的最底層也是整個金字塔的基礎(chǔ)層,如果基礎(chǔ)層搭建不好,上面的應(yīng)用層也很難在企業(yè)運(yùn)營中發(fā)揮效果,這一層的技術(shù)目標(biāo)是實現(xiàn)數(shù)據(jù)的有效存儲、計算和質(zhì)量管理;業(yè)務(wù)目標(biāo)是把企業(yè)的所有用戶(客戶)數(shù)據(jù)用唯一的ID串起來,包括用戶(客戶)的畫像(如性別、年齡等)、行為以及興趣愛好等,以達(dá)到全面的了解用戶(客戶)的目的;
(2)業(yè)務(wù)運(yùn)營監(jiān)控層。這一層首要的是搭建業(yè)務(wù)運(yùn)營的關(guān)鍵數(shù)據(jù)體系,在此基礎(chǔ)上通過智能化模型開發(fā)出來的數(shù)據(jù)產(chǎn)品,監(jiān)控關(guān)鍵數(shù)據(jù)的異動,通過各種分析模型等可以快速定位數(shù)據(jù)異動的原因,輔助運(yùn)營決策;
(3)用戶/客戶體驗優(yōu)化層。這一層主要是通過數(shù)據(jù)來監(jiān)控和優(yōu)化用戶/客戶的體驗問題。這里面既運(yùn)用了結(jié)構(gòu)化的數(shù)據(jù)來監(jiān)控,也運(yùn)用非結(jié)構(gòu)化的數(shù)據(jù)(如文本)來監(jiān)控體驗的問題。前者更多的是應(yīng)用各種用戶(客戶)體驗監(jiān)測的模型或者工具來實現(xiàn),后者更多的是通過監(jiān)測微博、論壇和企業(yè)內(nèi)部的客戶反饋系統(tǒng)的文本來發(fā)現(xiàn)負(fù)面的口碑,以及時的優(yōu)化產(chǎn)品或服務(wù);
(4)精細(xì)化運(yùn)營和營銷層。這一層主要通過數(shù)據(jù)驅(qū)動業(yè)務(wù)精細(xì)化運(yùn)營和營銷。主要可以分為四方面:第一,構(gòu)建基于用戶的數(shù)據(jù)提取和運(yùn)營工具,以方便運(yùn)營和營銷人員通過人群定向把客戶提取出來,從而對客戶進(jìn)行營銷或運(yùn)營活動;第二方面,通過數(shù)據(jù)挖掘的手段提升客戶對活動的響應(yīng);第三,通過數(shù)據(jù)挖掘的手段進(jìn)行客戶生命周期管理;第四,主要是用個性化推薦算法基于用戶不同的興趣和需求推薦不同的商品或者產(chǎn)品,以實現(xiàn)推廣資源效率和效果最大化,如淘寶商品的個性化推薦;
(5)數(shù)據(jù)對外服務(wù)和市場傳播層面。數(shù)據(jù)對外服務(wù)一般為服務(wù)該互聯(lián)網(wǎng)企業(yè)的客戶或用戶,如百度通過提供百度輿情、百度代言人、百度指數(shù)等服務(wù)其廣告主客戶;淘寶通過數(shù)據(jù)魔方、淘寶情報和在云端等產(chǎn)品服務(wù)其客戶;騰訊通過騰訊分析和騰訊云分析等服務(wù)其開放商客戶。在市場傳播層面,主要通過有趣的數(shù)據(jù)信息圖譜和數(shù)據(jù)可視化產(chǎn)品來實現(xiàn)(如淘寶指數(shù)、百度指數(shù)、百度春節(jié)遷徙地圖)。
(6)經(jīng)營分析層面。主要通過分析師對大數(shù)據(jù)進(jìn)行統(tǒng)計,形成經(jīng)驗分析周報、月報和季度報告等,對用戶經(jīng)營情況和收入完成等情況進(jìn)行分析,發(fā)現(xiàn)問題,優(yōu)化經(jīng)營策略。
(7)戰(zhàn)略分析層面。這方面既要結(jié)合內(nèi)部的大數(shù)據(jù)形成決策層的數(shù)據(jù)視圖,也要結(jié)合外部數(shù)據(jù)尤其是各種競爭情報監(jiān)控數(shù)據(jù)、國外趨勢研究數(shù)據(jù)來輔助決策層進(jìn)行戰(zhàn)略分析。
雖然百度、阿里巴巴和騰訊在企業(yè)運(yùn)營的數(shù)據(jù)價值的應(yīng)用體系上有共同的特點(diǎn),但由于企業(yè)的商業(yè)模式以及數(shù)據(jù)資產(chǎn)不同,他們在整體的大數(shù)據(jù)發(fā)展策略也有顯著的不同。
百度大數(shù)據(jù)策略
百度大數(shù)據(jù)最重要的是來源是通過爬蟲搜集的100多個國家的近萬億網(wǎng)頁數(shù)據(jù),數(shù)據(jù)量是在EB級的規(guī)模。百度的數(shù)據(jù)非常多樣化,其收集的數(shù)據(jù)既有為非結(jié)構(gòu)化的或者半結(jié)構(gòu)化的數(shù)據(jù),包括網(wǎng)頁數(shù)據(jù)、視頻和圖片等數(shù)據(jù),也有結(jié)構(gòu)化的數(shù)據(jù),如用戶的點(diǎn)擊行為數(shù)據(jù),廣告客戶的付費(fèi)行為數(shù)據(jù)等。
百度大數(shù)據(jù)主要服務(wù)三類人群:一類是互聯(lián)網(wǎng)網(wǎng)民,通過大數(shù)據(jù)和自然語言處理技術(shù)讓網(wǎng)民的搜索更加準(zhǔn)確;第二類是廣告主,通過大數(shù)據(jù)讓廣告主的廣告和搜索關(guān)鍵詞的匹配度更高,或者和網(wǎng)民正在看的網(wǎng)頁內(nèi)容匹配度更高;第三類是,也是在重點(diǎn)推進(jìn)的百度大數(shù)據(jù)引擎,重點(diǎn)是服務(wù)傳統(tǒng)行業(yè)擁有一定規(guī)模數(shù)據(jù)的企業(yè)。
百度大數(shù)據(jù)引擎代表了互聯(lián)網(wǎng)企業(yè)數(shù)據(jù)服務(wù)能力開放和合作的趨勢,百度大數(shù)據(jù)引擎由以下三方面構(gòu)成:
開放云:百度的大規(guī)模分布式計算和超大規(guī)模存儲云,開放云大數(shù)據(jù)開放的是基礎(chǔ)設(shè)施和硬件能力。過去的百度云主要面向開發(fā)者,大數(shù)據(jù)引擎的開放云則是面向有大數(shù)據(jù)存儲和處理需求的“大開發(fā)者”。據(jù)百度相關(guān)人員稱,百度開放云還擁有CPU利用率高、彈性高、成本低等特點(diǎn)。百度是全球首家大規(guī)模商用ARM服務(wù)器的公司,而ARM架構(gòu)的特征是能耗小和存儲密度大,同時百度還是首家將GPU(圖形處理器)應(yīng)用在機(jī)器學(xué)習(xí)領(lǐng)域的公司,實現(xiàn)了能耗節(jié)省的目的。
數(shù)據(jù)工廠:數(shù)據(jù)工廠為百度將海量數(shù)據(jù)組織起來的軟件能力,與數(shù)據(jù)庫軟件的作用類似,不同的是數(shù)據(jù)工廠是被用作處理TB級甚至更大的數(shù)據(jù)。百度數(shù)據(jù)工廠支持超大規(guī)模異構(gòu)數(shù)據(jù)查詢,支持SQL-like以及更復(fù)雜的查詢語句,支持各種查詢業(yè)務(wù)場景。同時百度數(shù)據(jù)工廠還將承載對于TB級別大表的并發(fā)查詢和掃描,大查詢、低并發(fā)時每秒可達(dá)百GB。
百度大腦:百度大腦將百度此前在人工智能方面的能力開放出來,主要是大規(guī)模機(jī)器學(xué)習(xí)能力和深度學(xué)習(xí)能力。此前它們被應(yīng)用在語音、圖像、文本識別,以及自然語言和語義理解方面,并通過百度Inside等平臺開放給了智能硬件。現(xiàn)在這些能力將被用來對大數(shù)據(jù)進(jìn)行智能化的分析、學(xué)習(xí)、處理、利用,并對外開放。
百度將基礎(chǔ)設(shè)施能力、軟件系統(tǒng)能力以及智能算法技術(shù)打包在一起,通過大數(shù)據(jù)引擎開放出來之后,擁有大數(shù)據(jù)的行業(yè)可以將自己的數(shù)據(jù)接入到這個引擎進(jìn)行處理。從架構(gòu)來看,企業(yè)或組織也可以只選擇三件套中的一種來使用,例如數(shù)據(jù)存放在自己的云,但要運(yùn)用百度大腦的一些智能算法或者數(shù)據(jù)存放在百度云,自己寫算法。
百度大數(shù)據(jù)引擎的作用
我們可以從兩方面來具體看百度大數(shù)據(jù)引擎的作用:
(1)對于政府機(jī)構(gòu):如交通部門有車聯(lián)網(wǎng)、物聯(lián)網(wǎng)、路網(wǎng)監(jiān)控、船聯(lián)網(wǎng)、碼頭車站監(jiān)控等地方的大數(shù)據(jù),如果這些數(shù)據(jù)與百度的搜索記錄、全網(wǎng)數(shù)據(jù)、LBS數(shù)據(jù)結(jié)合,在利用百度大數(shù)據(jù)引擎的大數(shù)據(jù)能力,則可以實現(xiàn)智能路徑規(guī)劃和運(yùn)力管理;衛(wèi)生部門擁有流感法定報告數(shù)據(jù)、全國流感樣病例哨點(diǎn)監(jiān)測和病原學(xué)監(jiān)測數(shù)據(jù),如果和百度的搜索記錄及全網(wǎng)數(shù)據(jù)結(jié)合,便可進(jìn)行流感預(yù)測、疫苗接種指導(dǎo)。
(2)對于企業(yè):很多企業(yè)也擁有海量大數(shù)據(jù),不過很多企業(yè)的大數(shù)據(jù)處理和挖掘能力比較弱,如果應(yīng)用百度大數(shù)據(jù)引擎,則可以對海量數(shù)據(jù)進(jìn)行可靠低成本的存儲,進(jìn)行智能化的由淺入深的價值挖掘。如在2014年4月的百度技術(shù)開放日上,中國平安便介紹了如何利用百度的大數(shù)據(jù)能力加強(qiáng)消費(fèi)者理解和預(yù)測,細(xì)分客戶群制定個性化產(chǎn)品和營銷方案。
阿里巴巴大數(shù)據(jù)策略
阿里巴巴大數(shù)據(jù)整體發(fā)展方向是以激活生產(chǎn)力為目的的DT(data technology,數(shù)據(jù)技術(shù)驅(qū)動)數(shù)據(jù)時代發(fā)展。阿里巴巴大數(shù)據(jù)未來將由“基于云計算的數(shù)據(jù)開放+大數(shù)據(jù)工具化應(yīng)用”組成:
(1)基于云計算的數(shù)據(jù)開放。云計算使中小企業(yè)可以在阿里云上獲得數(shù)據(jù)存儲、數(shù)據(jù)處理服務(wù),也可以構(gòu)建自己的數(shù)據(jù)應(yīng)用。云計算是數(shù)據(jù)開放的基礎(chǔ),云計算可以為全球的數(shù)據(jù)開發(fā)者提供數(shù)據(jù)工作平臺,阿里分布式的存儲平臺和在這個平臺上的算法工具,可以更好的為數(shù)據(jù)開發(fā)者所用;同時,阿里巴巴還需要做好數(shù)據(jù)的脫敏,把數(shù)據(jù)的商業(yè)定義,每個標(biāo)簽打得足夠清晰,能夠讓全球的數(shù)據(jù)開發(fā)者在阿里巴巴平臺展開數(shù)據(jù)思維,讓數(shù)據(jù)為政府所用、消費(fèi)者所用以及行業(yè)所用。阿里的大數(shù)據(jù)開放之后,線上線下的數(shù)據(jù)能夠串聯(lián)起來,所有人都是數(shù)據(jù)提供方,也是數(shù)據(jù)的使用者。
(2)在大數(shù)據(jù)應(yīng)用上,馬云已經(jīng)在整個數(shù)據(jù)應(yīng)用上確定了兩個方針:
第一個方針:從IT到DT(數(shù)據(jù)技術(shù)),DT就是點(diǎn)燃整個數(shù)據(jù)和激發(fā)整個數(shù)據(jù)的力量,被管理所用,被社會所用,被銷售所用,為制造業(yè)所用,為消費(fèi)者信用所用。前文已經(jīng)分析道,阿里巴巴的數(shù)據(jù)資產(chǎn)是以電商為主,其中,淘寶和天貓每天會產(chǎn)生豐富多樣的數(shù)據(jù),阿里巴巴已經(jīng)沉淀了包括交易、金融、生活服務(wù)等多種類型的數(shù)據(jù)。這些數(shù)據(jù)能夠幫助阿里巴巴進(jìn)行數(shù)據(jù)化運(yùn)營(如下圖)。
另外一個其最為重要的應(yīng)用是金融領(lǐng)域——小微金融。在小微金融企業(yè)融資領(lǐng)域。由于銀行無法掌握小微企業(yè)真實的經(jīng)營數(shù)據(jù),不僅導(dǎo)致很多企業(yè)無法拿到貸款,還因為數(shù)據(jù)類型的不足導(dǎo)致整個判斷流程過長,阿里已經(jīng)通過其電商數(shù)據(jù)中的交易、信用、SNS等多種數(shù)據(jù)來決定是否可以發(fā)放貸款以及放貸的額度。
第二個方針:讓阿里巴巴的數(shù)據(jù)、讓阿里巴巴的工具能夠成為中國商業(yè)的基礎(chǔ)設(shè)施。阿里巴巴已經(jīng)開始在轉(zhuǎn)型,阿里將由自己直接面對消費(fèi)者變成支持網(wǎng)商面對消費(fèi)者,阿里會根據(jù)其已有的運(yùn)營和數(shù)據(jù)經(jīng)驗,開發(fā)更多的工具,幫助網(wǎng)商成長,讓網(wǎng)商們更懂得用最好的工具、服務(wù)去服務(wù)好消費(fèi)者。正如馬云所言“我相信沒有一個網(wǎng)商不希望擁有自己的客戶,沒有一個網(wǎng)商不希望知道客戶對自己的體驗到底好還是壞,如何持久的擁有這些客戶,我們覺得一個國家的經(jīng)濟(jì),應(yīng)該讓給企業(yè)家群體去做,我們覺得淘寶網(wǎng)商未來的經(jīng)濟(jì),是應(yīng)該留給網(wǎng)商們?nèi)Q定,而不是我們?nèi)プ鰶Q定”。
騰訊大數(shù)據(jù)策略
騰訊的大數(shù)據(jù)目前更多的是為騰訊企業(yè)內(nèi)部運(yùn)營服務(wù),相對于阿里和百度,數(shù)據(jù)開放程度并不高。因此,對于騰訊我們主要重點(diǎn)介紹騰訊大數(shù)據(jù)在服務(wù)企業(yè)內(nèi)部的應(yīng)用場景和服務(wù)。
騰訊90%以上的數(shù)據(jù)已經(jīng)實現(xiàn)集中化管理,數(shù)據(jù)集中在數(shù)據(jù)平臺部,有超過100多個產(chǎn)品的數(shù)據(jù)已經(jīng)集中管理起來,而且是集中存儲在騰訊自研數(shù)據(jù)倉庫(TDW)。騰訊大數(shù)據(jù)從數(shù)據(jù)應(yīng)用的不同環(huán)節(jié)可以分為四個層面,包括數(shù)據(jù)分析、數(shù)據(jù)挖掘、數(shù)據(jù)管理和數(shù)據(jù)可視化:
(1)數(shù)據(jù)分析層有四個產(chǎn)品:自助分析、用戶畫像、實時多維度分析和異動智能定位工具。自助分析可以幫助非技術(shù)人員通過簡單的條件配置實現(xiàn)數(shù)據(jù)的統(tǒng)計和展示功能;用戶畫像則是對某一群用戶或者某一業(yè)務(wù)的用戶實現(xiàn)自動化的人群畫像;實時多維度分析工具則是可以對某一指標(biāo)可以實現(xiàn)實時的多個維度的切分,方便分析人員從不同角度對某一指標(biāo)進(jìn)行多維度分析;異動智能定位工具則實現(xiàn)數(shù)據(jù)異動問題的智能化定位。
(2)數(shù)據(jù)挖掘?qū)用娴漠a(chǎn)品應(yīng)用有:精準(zhǔn)廣告系統(tǒng)、用戶個性化推薦引擎和客戶生命周期管理。精準(zhǔn)廣告系統(tǒng)如廣點(diǎn)通,是基于騰訊大社交平臺的海量數(shù)據(jù)為基礎(chǔ),通過精準(zhǔn)推薦算法,以智能定向推廣位導(dǎo)向?qū)崿F(xiàn)廣告精準(zhǔn)投放;用戶個性化推薦引擎根據(jù)每位用戶的興趣和喜好,通過個性化推薦算法(協(xié)同過濾、基于內(nèi)容推薦、圖算法、貝葉斯等),實現(xiàn)產(chǎn)品的個性化推薦需求;客戶生命周期管理系統(tǒng),則是基于大數(shù)據(jù),根據(jù)用戶/客戶的所處的不同生命周期進(jìn)行數(shù)據(jù)挖掘,建立預(yù)測、預(yù)警和用戶特征模型,以根據(jù)用戶/客戶所處的不同生命周期特點(diǎn)進(jìn)行精細(xì)化運(yùn)營和營銷。
(3)在數(shù)據(jù)管理層面則有:TDW(騰訊數(shù)據(jù)倉庫)、TDBank(數(shù)據(jù)銀行)、元數(shù)據(jù)管理平臺和任務(wù)調(diào)度系統(tǒng)和數(shù)據(jù)監(jiān)控。這一層面主要是實現(xiàn)數(shù)據(jù)的高效集中存儲、數(shù)據(jù)的業(yè)務(wù)指標(biāo)定義管理、數(shù)據(jù)質(zhì)量管理、計算任務(wù)的及時調(diào)度和計算以及數(shù)據(jù)問題的監(jiān)控和告警。
(4)在數(shù)據(jù)可視化層面有:自助報表工具、騰訊羅盤、騰訊分析和騰訊云分析等工具。自助報表工具可以自助化的實現(xiàn)結(jié)構(gòu)相對簡單和邏輯相對簡單的報表。騰訊羅盤分為內(nèi)部版和外部版,內(nèi)部版則是服務(wù)于騰訊內(nèi)部用戶(產(chǎn)品經(jīng)理、運(yùn)營人員和技術(shù)人員等)的高效報表工具,外部版則是服務(wù)于騰訊合作伙伴如開發(fā)商的報表工具。騰訊分析是網(wǎng)站分析工具,幫助網(wǎng)站主進(jìn)行網(wǎng)站的全方位分析。騰訊云分析則是幫助應(yīng)用開發(fā)商決策和運(yùn)營優(yōu)化的分析工具。
總的來看,百度、阿里巴巴和騰訊三大互聯(lián)網(wǎng)企業(yè)都擁有大數(shù)據(jù),三大互聯(lián)網(wǎng)巨頭的數(shù)據(jù)都用來優(yōu)化自己業(yè)務(wù)的運(yùn)營效果,從這個層面看,其數(shù)據(jù)價值應(yīng)用場景比較類似。但由于其業(yè)務(wù)和商業(yè)模式的不同決定了三者數(shù)據(jù)資產(chǎn)的不同,也決定了三者未來大數(shù)據(jù)策略的不同,尤其是基于大數(shù)據(jù)的開放和合作角度看,百度和阿里巴巴相對更加開放。對于重視大數(shù)據(jù)開放和合作的互聯(lián)網(wǎng)企業(yè),他們最為期待的是借著大數(shù)據(jù)開放的策略,與更多的傳統(tǒng)行業(yè)交換更多的數(shù)據(jù),從而更好的豐富其在線下數(shù)據(jù),形成線上和線下數(shù)據(jù)的協(xié)同,從中拓展新的商業(yè)模式,如智能硬件和大數(shù)據(jù)健康。