1、
很多關(guān)于數(shù)據(jù)挖掘的帖子和文章都在強(qiáng)調(diào)工具、算法和架構(gòu)等,但其實(shí)這些都不是數(shù)據(jù)挖掘的核心,數(shù)據(jù)挖掘的最重要的環(huán)節(jié)如下:
數(shù)據(jù)來源:通過無論是公開的數(shù)據(jù)還是合作方式、第三方的方式獲得數(shù)據(jù);
獲取標(biāo)簽:對標(biāo)的物無論是用戶、商品、文章分析,以獲取足夠定義這些標(biāo)的物的標(biāo)簽,并對標(biāo)簽進(jìn)行指標(biāo)化和定義權(quán)重,通過這些標(biāo)簽對;
定義特征:通過標(biāo)的物的個(gè)體畫像以及標(biāo)的物間的關(guān)系定義個(gè)體和整體的特征;
評估模型:通過定義的特征定義并評估一系列數(shù)據(jù)模型;
應(yīng)用模型:模型數(shù)據(jù)可視化、基于有效模型數(shù)據(jù)價(jià)值應(yīng)用。
2、
為什么把數(shù)據(jù)挖掘和數(shù)據(jù)分析放在一起說,是因?yàn)閿?shù)據(jù)挖掘本身是一個(gè)數(shù)據(jù)應(yīng)用化的過程,而應(yīng)用化的過程某種意義上就是一個(gè)數(shù)據(jù)分析的過程,而這個(gè)數(shù)據(jù)分析可以是人為定義的、AI人工智能輔助的等等。
所以,我們可以暫且這樣定數(shù)據(jù)挖掘和數(shù)據(jù)分析的關(guān)系:通過不斷優(yōu)化的數(shù)據(jù)分析方法,并利用數(shù)據(jù)挖掘才能夠得出數(shù)據(jù)應(yīng)用價(jià)值的最大化的結(jié)果。
數(shù)據(jù)挖掘是數(shù)據(jù)價(jià)值結(jié)果導(dǎo)向的過程集合,而數(shù)據(jù)應(yīng)用價(jià)值到底有多大?者就是通過數(shù)據(jù)分析來評估的,其來自于數(shù)據(jù)分析的過程以及得出的結(jié)論。
3、
數(shù)據(jù)挖掘并不局限。就狹義而言,它就是一個(gè)在海量數(shù)據(jù)中挖掘數(shù)據(jù)價(jià)值的過程;而就廣義而言,只要是有數(shù)據(jù)來源的,并能夠通過數(shù)據(jù)分析方法論得到一數(shù)據(jù)價(jià)值結(jié)果為導(dǎo)向的過程,都可以稱作數(shù)據(jù)挖掘。
4、
產(chǎn)品運(yùn)營經(jīng)常會涉及到數(shù)據(jù)分析,從某種意義上而言,也是一個(gè)以數(shù)據(jù)價(jià)值為結(jié)果導(dǎo)向的過程:
數(shù)據(jù)來源:產(chǎn)品運(yùn)營過程中的產(chǎn)生和收集的一系列數(shù)據(jù),如圖:
獲取標(biāo)簽:通過基本信息和一系列行為數(shù)據(jù)獲取分析得到關(guān)鍵標(biāo)簽,并定義標(biāo)簽的權(quán)重和指標(biāo),以對基本用戶、商品、文章等等標(biāo)的物進(jìn)行畫像;
定義特征:通過標(biāo)的物個(gè)體的統(tǒng)計(jì)數(shù)據(jù)和畫像分析個(gè)體間關(guān)系的特征和整體性特征,比如電商類用戶就可以根據(jù)性別和消費(fèi)能力、消費(fèi)周期等標(biāo)簽指標(biāo),定義其相應(yīng)的特征;再比如對UV、PV等一系列數(shù)據(jù)進(jìn)行整體性的特征判斷,以判斷產(chǎn)品本身目前的運(yùn)營特征和情況;等等...
評估模型:通過提取的特征,定義一系列的可用模型,使得從數(shù)據(jù)來源到標(biāo)簽再到特征以及畫像的數(shù)據(jù)通過模型更直觀的展現(xiàn)出來;
應(yīng)用模型:比如招聘網(wǎng)站按照不同職能區(qū)分的用戶對于網(wǎng)站的使用情況,產(chǎn)品對于90后用戶的運(yùn)營情況等,以在某種程度上幫助改進(jìn)產(chǎn)品和提升以及驗(yàn)證運(yùn)營工作對于目前產(chǎn)品運(yùn)營的有效性。
5、
舉個(gè)商業(yè)化應(yīng)用的例子,比如EverString這個(gè)產(chǎn)品,去年年底剛剛?cè)诹薆輪65m美刀。這是一家通過大數(shù)據(jù)技術(shù)提供B2BMarketing領(lǐng)域企業(yè)智能解決方案的公司,通過挖掘企業(yè)數(shù)據(jù)與結(jié)合企業(yè)CRM,并建立模型,再利用這些模型幫助企業(yè)來預(yù)測誰是他們下一個(gè)客戶。以下是對于這家公司業(yè)務(wù)的分析:
數(shù)據(jù)來源:通過爬蟲來抓取全網(wǎng)數(shù)據(jù)并結(jié)合企業(yè)CRM獲取與企業(yè)相關(guān)的數(shù)據(jù),EverString自稱有1100萬家企業(yè)的海量數(shù)據(jù)庫;
獲取標(biāo)簽:它們擁有豐富的公司標(biāo)簽,以及合理的指標(biāo)與權(quán)重;
定義特征:與公司業(yè)務(wù)和規(guī)模相關(guān)的特征,更加個(gè)性化并增加精準(zhǔn)性;
評估模型:定義無論是公司層面的營銷運(yùn)營模型,還是基于公司業(yè)務(wù)本身的數(shù)據(jù)模型,以關(guān)注數(shù)據(jù)應(yīng)用價(jià)值和更加符合業(yè)務(wù)應(yīng)用價(jià)值效果的數(shù)據(jù)模型;
應(yīng)用模型:將模型應(yīng)用在整體的業(yè)務(wù)流程當(dāng)中,比如通過對歷史大量積累的數(shù)據(jù)進(jìn)行分析和建模,從而對未來事件的決策的預(yù)測。
6、
關(guān)于數(shù)據(jù)分析,并不可以簡單理解為對于對于數(shù)據(jù)進(jìn)行定量、定性的分析和得出一個(gè)可用的數(shù)據(jù)結(jié)果的過程集合,這也是我為什么把數(shù)據(jù)挖掘和數(shù)據(jù)分析放在一起說的原因。數(shù)據(jù)分析一定是伴隨著數(shù)據(jù)從采集到定義,再到應(yīng)用,最后通過分析數(shù)據(jù)應(yīng)用的價(jià)值,并不斷自我過程優(yōu)化。
從某種意義上而言,數(shù)據(jù)分析會用到的很多工具。我們會發(fā)現(xiàn)無論是用GA、百度統(tǒng)計(jì)、友盟等等,它們同樣在做著:從采集數(shù)據(jù)、獲取標(biāo)簽(機(jī)型、地理位置、用戶畫像等)、定義特征(轉(zhuǎn)換率、客單價(jià)等)和模型(漏斗模型等)到應(yīng)用模型(可視化圖表等)。這個(gè)過程同樣可以理解為一個(gè)數(shù)據(jù)分析方法結(jié)合數(shù)據(jù)挖掘的過程,即對可獲取的數(shù)據(jù)進(jìn)行價(jià)值挖掘和應(yīng)用的過程。