數(shù)據(jù)挖掘這個(gè)詞已經(jīng)火的不行了。但是有太多文章都是空中部隊(duì)。沒(méi)有任何實(shí)質(zhì)內(nèi)容。進(jìn)步君有一位從事數(shù)據(jù)挖掘領(lǐng)域的專(zhuān)業(yè)朋友,寫(xiě)了這么一篇文章,很接地氣。值得一看!她的微博是@王秋鈺 大家可以關(guān)注哦!
隨著在公司里面一個(gè)個(gè)項(xiàng)目的推進(jìn)和完成,并且項(xiàng)目結(jié)果也都受到客戶的好評(píng),這里將最近關(guān)于數(shù)據(jù)挖掘的一點(diǎn)思考分享出來(lái),也希望能夠和大家討論。這里說(shuō)的思考主要是圍繞著從數(shù)據(jù)中得到的消費(fèi)者洞察幫助客戶來(lái)改進(jìn)其市場(chǎng)、銷(xiāo)售和客戶支持操作過(guò)程的相關(guān)內(nèi)容。
1. 為什么是現(xiàn)在?
《大數(shù)據(jù)時(shí)代》早已成為去年最火爆的暢銷(xiāo)書(shū),網(wǎng)上關(guān)于3V(Volume,Velocity , Variety)也會(huì)在各式各樣的“大數(shù)據(jù)”的話題中提及。很多人也都知道大多數(shù)的數(shù)據(jù)挖掘技術(shù),至少是學(xué)術(shù)算法也存在了數(shù)十年,為什么現(xiàn)在的商業(yè)如此的關(guān)注?這里不想說(shuō)什么大數(shù)據(jù)的戰(zhàn)略,管理等很大的內(nèi)容。僅僅簡(jiǎn)單講講我看到的一些內(nèi)容和切身感受。
①?gòu)臄?shù)據(jù)中更“全面”的了解消費(fèi)者
曾經(jīng)讀麥肯錫報(bào)告中有提到快消品企業(yè)在以下幾個(gè)方面如果能夠更好的運(yùn)用數(shù)據(jù)將能夠?yàn)槠髽I(yè)創(chuàng)造更多的價(jià)值,并且也估算了相關(guān)的數(shù)值。一些報(bào)告的相關(guān)內(nèi)容如下:
We estimate that these applications of opendata in consumer product can enable $520billion to $1.47 trillion in valueannually Marcket share shifts could also occur across the industry,as companiesgain advantage by incorporating open data into their analytics.--《MGI OpenData FullReport》
其實(shí)這五個(gè)方面也都是建立在對(duì)消費(fèi)者全面了解的基礎(chǔ)上,以前關(guān)于消費(fèi)者洞察也寫(xiě)過(guò)一篇《被低估的寶藏:社會(huì)化網(wǎng)絡(luò)中的消費(fèi)者洞察》,文章主要講了三個(gè)方面:1 更豐富和貼切的消費(fèi)者細(xì)分和描述 2 更真實(shí)和有效的信息獲取 3 更低的獲取成本和更大的樣本容量。一些具體這里就不細(xì)講了。但在這里面還想再補(bǔ)充一點(diǎn),一些weak signal的捕捉也成為了可能,麥肯錫在《The strength of‘weak signals’》的報(bào)告中也指出了這一點(diǎn):Snippets of information, often hidden in social-media streams, offercompanies a valuable new tool for staying ahead.
公司項(xiàng)目里在處理消費(fèi)者表達(dá)數(shù)據(jù)過(guò)程中,會(huì)對(duì)數(shù)據(jù)內(nèi)容的高峰值,數(shù)據(jù)的長(zhǎng)尾部分多次的進(jìn)行多次data mining直到得到盡可能多的洞察為止。在幾個(gè)項(xiàng)目中我們也發(fā)現(xiàn),一些特別多的表達(dá)內(nèi)容的聚類(lèi)內(nèi)容可能都是大家在生活中會(huì)特別會(huì)出現(xiàn)和表達(dá)的,但是在處于長(zhǎng)尾部分的數(shù)據(jù)往往有著很多連品牌商本身從來(lái)都沒(méi)有想到的創(chuàng)新點(diǎn)。例如在一個(gè)薯片項(xiàng)目,我們發(fā)現(xiàn)了原來(lái)薯片的吃法可以有十來(lái)種,原來(lái)薯片包裝有種種的利用,原來(lái)還有薯片哥的存在等。
做Data mining進(jìn)行消費(fèi)者洞察的過(guò)程就像是安安靜靜的浸入到消費(fèi)者的生活中,沒(méi)有任何假設(shè),從不發(fā)問(wèn),僅僅是聆聽(tīng)和觀察,為品牌商還原出一個(gè)最真實(shí)的消費(fèi)者狀態(tài),一點(diǎn)一滴的刻畫(huà)出一個(gè)生動(dòng)而全面的消費(fèi)者畫(huà)像,而不再是一張曝光不足的照片。
②數(shù)據(jù)大量產(chǎn)生,技術(shù)的成熟提供基礎(chǔ)
數(shù)據(jù)大量產(chǎn)生這一點(diǎn)就不用說(shuō)了,看看我們每個(gè)人一天的生活里會(huì)有多大的比例泡在網(wǎng)上,再加上未來(lái)各種可穿戴設(shè)備,物聯(lián)網(wǎng)的普及,數(shù)據(jù)量之大難以想象。我主要想談?wù)劶夹g(shù),也許技術(shù)這個(gè)詞不夠?qū)I(yè),自己在編程,數(shù)據(jù)存儲(chǔ)方面也不是特別了解,這里就說(shuō)說(shuō)算法這一部分。記得原先在《數(shù)據(jù)結(jié)構(gòu)和算法》一開(kāi)篇就提到關(guān)于等差數(shù)列求和的計(jì)算機(jī)求和計(jì)算,我們從小就知道等差數(shù)列的求和可利用算法公式,該算法利用了首尾兩個(gè)數(shù)據(jù)和是一樣的數(shù)據(jù)結(jié)構(gòu)特征從而更簡(jiǎn)潔。告訴計(jì)算機(jī)進(jìn)行求和命令可以是兩種方法 1.一項(xiàng)項(xiàng)的加,2.直接利用算法,利用第一個(gè)方式可能在數(shù)據(jù)量少的時(shí)候計(jì)算速度與第二種相比不會(huì)有太大的差異,但如果數(shù)據(jù)量很大,后者的優(yōu)越性將很明顯。后來(lái)在接觸到Apriori算法時(shí)候里用看到算法會(huì)用到一些剪枝手段減少計(jì)算機(jī)運(yùn)算量的時(shí)候忍不住拍案叫絕。
另外,各式各樣的統(tǒng)計(jì)軟件的背后都有著大量的contributors將自己的算法程序包分享到網(wǎng)上,供后來(lái)人更便捷的調(diào)用使用。互聯(lián)網(wǎng)的這種集體智慧的共享創(chuàng)造方式讓后來(lái)人站在前人的肩膀上,走的更遠(yuǎn)。但是在調(diào)用這些算法的過(guò)程中還是要對(duì)算法本身有一些原理上的理解,算法和數(shù)據(jù)結(jié)構(gòu)是鑰匙和鎖,我們?cè)趯?shí)際操作的過(guò)程中還需要根據(jù)具體的情況靈活和適當(dāng)?shù)氖褂茫瑫?huì)在后面的分享里細(xì)說(shuō)。
③信息也是產(chǎn)品
許多公司所擁有的客戶信息不僅僅對(duì)自己有價(jià)值,同時(shí)對(duì)他人也同樣具有價(jià)值。如今很多的淘寶店鋪之間也有了很多的消費(fèi)者數(shù)據(jù)的共享。互聯(lián)網(wǎng)也改變了品牌和品牌之間的關(guān)系,一個(gè)擁有很多青少年兒童數(shù)據(jù)的公司完全可以將自己的數(shù)據(jù)分享給做兒童食品的公司,或者更進(jìn)一步,分享彼此所擁有的平臺(tái)。
2.數(shù)據(jù)挖掘 for “actionable”insightsdiscovery
數(shù)據(jù)挖掘有很多不同的名稱(chēng),例如KDD(knowledge discovery in database),或者BI(businessintelligence),預(yù)測(cè)建模(predictive model)等,但針對(duì)我們業(yè)務(wù)感受,我更愿意把數(shù)據(jù)挖掘定義為發(fā)現(xiàn)能夠讓品牌商產(chǎn)生真正落地行為的洞察或發(fā)現(xiàn)。以下舉兩個(gè)在項(xiàng)目中的小例子:
在電商的數(shù)據(jù)挖掘中,我們通過(guò)對(duì)消費(fèi)者的表達(dá)研究了解消費(fèi)者購(gòu)買(mǎi)產(chǎn)品的關(guān)注重點(diǎn)是什么,影響產(chǎn)品滿意度的重要因素是什么,其次我們會(huì)對(duì)消費(fèi)者的線上購(gòu)買(mǎi)行為數(shù)據(jù)進(jìn)行研究,去看消費(fèi)者購(gòu)買(mǎi)除了買(mǎi)自己品牌的商品同時(shí)還會(huì)購(gòu)買(mǎi)哪些競(jìng)品品牌。結(jié)合這表達(dá)和行為的洞察,再深入探究競(jìng)品的商品展示,宣傳,品牌形象,等等各方面和本品之間的差異點(diǎn)。這樣品牌商在電商運(yùn)營(yíng)中更能有方向性的去改進(jìn)產(chǎn)品和消費(fèi)者之間的溝通方式。
所以,數(shù)據(jù)挖掘是在一項(xiàng)探測(cè)大量數(shù)據(jù)以發(fā)現(xiàn)有意義的模式和規(guī)則的業(yè)務(wù)流程,我們關(guān)注的重點(diǎn)在于發(fā)現(xiàn)的知識(shí)是否有意義,是否actionable。正如沈浩老師說(shuō)的:“這是一個(gè)令人興奮的時(shí)代,也是一個(gè)大數(shù)據(jù)的時(shí)代,社交媒體讓我們?cè)絹?lái)越多地從數(shù)據(jù)中觀察到人類(lèi)社會(huì)的復(fù)雜行為模式。以數(shù)據(jù)為基礎(chǔ)的技術(shù)決定著人類(lèi)的未來(lái),但并非是數(shù)據(jù)本身改變了我們的世界,起決定作用的是我們對(duì)可用知識(shí)的增加。