導(dǎo)讀
近兩年來(lái),“大數(shù)據(jù)”被廣泛應(yīng)用到各行各業(yè),而近階段又有著明顯的過(guò)熱跡象。從央視的春運(yùn)遷徙圖到姚晨看到微博數(shù)據(jù)的驚呼;從兩會(huì)期間的兩會(huì)大數(shù)據(jù),到《星星》都叫獸的高低領(lǐng)毛衣,“大數(shù)據(jù)”被人們推到了一個(gè)前所未有的高度,同時(shí)也從一個(gè)高精尖的科研方向變成了一個(gè)世人皆知的營(yíng)銷(xiāo)詞匯。
我既沒(méi)有資格代表學(xué)術(shù)界,更沒(méi)有資格來(lái)判定誰(shuí)是誰(shuí)非。我只能就自己的工作經(jīng)歷,來(lái)談一下我眼中的大數(shù)據(jù)。
什么是大數(shù)據(jù)?
百度百科對(duì)大數(shù)據(jù)的定義是這樣的:大數(shù)據(jù)(big data)或稱(chēng)巨量資料,指的是所涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具,在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。
Gartner給出了這樣的定義:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。
個(gè)人認(rèn)為Gartner的定義更為貼切。“新處理模式”是一個(gè)很關(guān)鍵的詞匯,這也是我所理解的“大數(shù)據(jù)”區(qū)別于傳統(tǒng)統(tǒng)計(jì)分析等最關(guān)鍵的特征之一。這個(gè)所謂的“新處理模式”有兩層含義:
由于海量的數(shù)據(jù),需要更高效的存儲(chǔ)和處理技術(shù),Hadoop成為了大數(shù)據(jù)時(shí)代的標(biāo)志;
如果你認(rèn)為大數(shù)據(jù)就等于Hadoop,那就大錯(cuò)特錯(cuò)了。Hadoop只是大數(shù)據(jù)時(shí)代的一個(gè)必要條件,大數(shù)據(jù)還有一個(gè)明顯的標(biāo)志是數(shù)據(jù)挖掘和人工智能的緊密結(jié)合。這也是我理解的“大數(shù)據(jù)”與現(xiàn)在很多所謂“大數(shù)據(jù)”項(xiàng)目最明顯的區(qū)別之一。我會(huì)在后面的案例中給大家展開(kāi)。
除了上面的“新處理模式”上的區(qū)別,個(gè)人認(rèn)為還有一個(gè)最主要的區(qū)別是:數(shù)據(jù)統(tǒng)計(jì)分析是基于已有數(shù)據(jù)的縱向歸類(lèi),而 大數(shù)據(jù)是基于對(duì)已有海量數(shù)據(jù)的處理,對(duì)還未產(chǎn)生的數(shù)據(jù)作出預(yù)測(cè)和推薦。數(shù)據(jù)統(tǒng)計(jì)是已經(jīng)發(fā)生的事情,而大數(shù)據(jù)往往被用于還沒(méi)有發(fā)生的事情預(yù)測(cè)或者推薦中 。
預(yù)測(cè)和推薦是如何實(shí)現(xiàn)的
目前主要的 推薦算法大致可以分為兩類(lèi)。一個(gè)是基于行為,一個(gè)是基于內(nèi)容 。當(dāng)然,針對(duì)不同的領(lǐng)域,不同的預(yù)測(cè)和推薦的對(duì)象,又會(huì)有十余種算法。這就不是本文展開(kāi)的內(nèi)容了。
基于行為的分析,顧名思義,即對(duì)用戶(hù)在互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)留下的“痕跡”,即瀏覽、點(diǎn)擊、收藏、購(gòu)買(mǎi)、二次購(gòu)買(mǎi)的分析,得出未來(lái)會(huì)選擇購(gòu)買(mǎi)的預(yù)測(cè)和推薦結(jié)果。基于行為的分析,屬于群體智慧,綜合利用群體用戶(hù)的行為偏好。用戶(hù)之間會(huì)相互影響,更加符合現(xiàn)實(shí)世界中的用戶(hù)行為。
圖1、電商基于行為的推薦漏斗算法
基于內(nèi)容的分析, 包括對(duì)文字、圖片、音頻、視頻等信息的分析,得出預(yù)測(cè)和推薦的結(jié)論。內(nèi)容的“基因”和用戶(hù)的偏好相匹配,最有代表的是潘多拉的音樂(lè)推薦項(xiàng)目,其將曲庫(kù)中所有歌曲都由400多位專(zhuān)家打上標(biāo)簽,然后建立個(gè)人與音樂(lè)的聯(lián)系,從而完成音樂(lè)的推薦。內(nèi)容的分析只針對(duì)個(gè)人,與用戶(hù)之間關(guān)系無(wú)關(guān)。
大數(shù)據(jù)到底能做什么
現(xiàn)在談這個(gè)問(wèn)題可能會(huì)讓大家笑話(huà),似乎所有人都知道大數(shù)據(jù)能干這個(gè),能干那個(gè),最后連我們自己都覺(jué)得可笑。大數(shù)據(jù)已經(jīng)都不是被“妖魔化”了,是“娛樂(lè)化”。大數(shù)據(jù)似乎是個(gè)離我們忽遠(yuǎn)又忽近的事物了,變得不真實(shí)起來(lái)。
好吧,我還是結(jié)合從業(yè)經(jīng)歷來(lái)說(shuō)說(shuō)大數(shù)據(jù)“解決過(guò)什么問(wèn)題”吧:簡(jiǎn)單地來(lái)說(shuō), 大數(shù)據(jù)可以幫我們解決決策和選擇的問(wèn)題 。
天氣預(yù)報(bào)就是一個(gè)最古老而且眾所周知的預(yù)測(cè)。你可以根據(jù)預(yù)報(bào)來(lái)決定明天穿什么衣服,是否要帶雨傘,等等;
近兩年來(lái),大數(shù)據(jù)被應(yīng)用到影視制片行業(yè),基于對(duì)觀(guān)眾偏好的分析,去預(yù)測(cè)、設(shè)計(jì)觀(guān)眾喜歡的劇情,找觀(guān)眾喜愛(ài)的演員出演相關(guān)的角色,甚至可以去預(yù)測(cè)票房。這些所有的預(yù)測(cè)都是基于數(shù)據(jù)的基礎(chǔ)上,經(jīng)過(guò)一定的模型處理,得到接近真實(shí)的結(jié)論。從某種程度上給決策者決策的依據(jù),比如《紙牌屋》和《星星》。
大數(shù)據(jù)還有一個(gè)重要的作用,就是解決人們的“選擇”問(wèn)題。別笑,無(wú)論你的年齡、性別、教育背景,人們目前都面臨著前所未有的選擇問(wèn)題。講的學(xué)術(shù)一些,這是由于“長(zhǎng)尾效應(yīng)”導(dǎo)致的問(wèn)題;講得通俗一些,就是由于日益增多的可選擇的對(duì)象和我們自身的處理能力之間的矛盾。
科技的進(jìn)步讓人變得更懶,也就是我們自身的處理能力降低,無(wú)論是主觀(guān)的還是客觀(guān)的。而可被選擇的對(duì)象卻在日益增多。從紛繁復(fù)雜的商品(電商),到海量曲庫(kù)中的樂(lè)曲;從婚戀網(wǎng)站的男女朋友,到交通管理的信號(hào)燈。
基于人工智能下的大數(shù)據(jù),就是可以使人們“變懶”的一個(gè)手段。 基于你的歷史行為,判斷出你可能的喜好,乃至需求,將最佳結(jié)果,推薦給你 。這就是大數(shù)據(jù),她是你的貼心管家,或者說(shuō)是最懂你的朋友。
一個(gè)最經(jīng)典的案例是沃爾瑪曾經(jīng)做過(guò)的“啤酒”和“尿布”調(diào)研:沃爾瑪在研究中發(fā)現(xiàn),一類(lèi)顧客經(jīng)常在購(gòu)買(mǎi)尿布的同時(shí)也購(gòu)買(mǎi)啤酒。尿布跟啤酒自然是毫無(wú)關(guān)聯(lián)的兩個(gè)品類(lèi)的商品,從個(gè)人經(jīng)驗(yàn)上來(lái)看,根本想不到二者的聯(lián)系。后來(lái)發(fā)現(xiàn),這是一類(lèi)社會(huì)現(xiàn)象所導(dǎo)致的。美國(guó)有很多年輕夫婦,尿布用完后,女主人在家?guī)Ш⒆樱兄魅司腿コ匈I(mǎi)尿布。買(mǎi)完尿布之后,男主人通常會(huì)順帶著買(mǎi)些啤酒。
上述例子說(shuō)明,數(shù)據(jù)經(jīng)常可以讓你發(fā)現(xiàn)看似不合理不合邏輯但卻存在,并且經(jīng)常發(fā)生的現(xiàn)象。
再舉個(gè)例子,北京的交通擁堵是地球人都知道的事情。尤其是早晚高峰,這已經(jīng)不需要預(yù)測(cè)了。但如果根據(jù)歷史交通數(shù)據(jù),再經(jīng)過(guò)數(shù)學(xué)模型,計(jì)算出一個(gè)全北京最佳的交通信號(hào)燈管理系統(tǒng),這就屬于大數(shù)據(jù)的范疇了。
圖2、出租車(chē)每天的分布圖
這也是我眼中大數(shù)據(jù)主要與普通的數(shù)據(jù)統(tǒng)計(jì)分析最大的不同:數(shù)據(jù)統(tǒng)計(jì)可以幫助你發(fā)現(xiàn)疾病,但大數(shù)據(jù)可以不但幫助你發(fā)現(xiàn),且?guī)椭阒委熂膊 ?/p>
大數(shù)據(jù)絕不是“噱頭“,我們?cè)趲椭尺\(yùn)營(yíng)商閱讀基地的閱讀推薦項(xiàng)目中,各項(xiàng)指標(biāo)均得到大幅提升。而這個(gè)提升不是百分之幾十,而是數(shù)倍的提升!(用戶(hù)人均流量提升了4倍,沉默用戶(hù)激活能力提升了6.5倍)這才是大數(shù)據(jù)的魅力。
大數(shù)據(jù)不是萬(wàn)能的
大數(shù)據(jù)顯然不是萬(wàn)能的。正因?yàn)槿绱耍耪鎸?shí)。大數(shù)據(jù)在有些領(lǐng)域由于種種原因,所帶來(lái)的價(jià)值并不如預(yù)期的那么高。導(dǎo)致這種現(xiàn)象最主要的問(wèn)題有兩個(gè),一個(gè)是由于數(shù)據(jù)本身的質(zhì)量或者數(shù)量不夠;另一個(gè)是算法不合適。
不要以為是海量數(shù)據(jù)就一定會(huì)有價(jià)值,在過(guò)往的工作中,我們經(jīng)常發(fā)現(xiàn)來(lái)自甲方的數(shù)據(jù)源有80-90%的數(shù)據(jù)都是無(wú)用的。只有10%-20%的數(shù)據(jù)才會(huì)產(chǎn)生一定的價(jià)值。這就又讓我想到Marry Meeker打的那個(gè)比喻,“大數(shù)據(jù)的工作就像在一堆稻草中尋找一根針”。
何況,大多數(shù)領(lǐng)域本身業(yè)務(wù)屬于早期,所擁有的數(shù)據(jù)非常貧乏。冷啟動(dòng)、稀疏性是大數(shù)據(jù)在諸多領(lǐng)域面臨的挑戰(zhàn)。
另一方面,對(duì)于不同領(lǐng)域,不同項(xiàng)目,沒(méi)有放之四海而皆準(zhǔn)的算法,必須要根據(jù)具體問(wèn)題具體分析解決。在實(shí)際的工作中發(fā)現(xiàn),不只是不同的領(lǐng)域(如文章推薦與商品推薦),甚至同一領(lǐng)域的不同單元(同屬電商但不同類(lèi)電商,如母嬰類(lèi)和服裝類(lèi)或者奢侈品類(lèi))也有所不同。
數(shù)據(jù)的交叉利用
上面提到的兩個(gè)大數(shù)據(jù)在實(shí)際應(yīng)用中面臨的最大問(wèn)題,即冷啟動(dòng)時(shí)數(shù)據(jù)的匱乏和業(yè)務(wù)早期數(shù)據(jù)的稀疏性問(wèn)題,并不是無(wú)藥可救。業(yè)界一直討論的數(shù)據(jù)打通,就是解決這兩問(wèn)題的出路。
對(duì)于一些新興領(lǐng)域,缺乏數(shù)據(jù)是必然的,而另一方面,正由于缺乏數(shù)據(jù)的支持,所以才更需要有強(qiáng)大決策支持的系統(tǒng)對(duì)其業(yè)務(wù)做指導(dǎo)和支撐,以實(shí)現(xiàn)少走彎路,利益最大化的目的。
移動(dòng)互聯(lián)網(wǎng)領(lǐng)域的項(xiàng)目,尤為代表。雖然在過(guò)去的兩三年里,移動(dòng)互聯(lián)網(wǎng)得到了高速的發(fā)展,但畢竟在各個(gè)方面的積累,都無(wú)法與互聯(lián)網(wǎng)相比。尤其在人們形成穩(wěn)定的使用習(xí)慣之前,數(shù)據(jù)還不具備更多的價(jià)值和意義。
但如果能把互聯(lián)網(wǎng)的數(shù)據(jù)與移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)打通,那么我們就掌握了這個(gè)人的喜好等多方面信息,從而為移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)做出更有效的指導(dǎo)和幫助。
圖3、互聯(lián)網(wǎng)與移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)的打通
當(dāng)然,數(shù)據(jù)的打通絕不僅限于互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)。每個(gè)數(shù)據(jù)源的數(shù)據(jù)往往刻畫(huà)了一個(gè)人的不同方面。正如巴拉巴西教授在《爆發(fā)》一書(shū)中描繪的那樣, 如果數(shù)據(jù)充分,人類(lèi)93%的行為是可以預(yù)知的,是有規(guī)律的 。
也只有將這些不同來(lái)源的數(shù)據(jù)重新組織,才能挖掘出更有意義的信息。
如今,行業(yè)內(nèi)不少人打著“數(shù)據(jù)統(tǒng)計(jì)和分析”的旗號(hào)來(lái)做大數(shù)據(jù),讓很多外行人陷入了誤區(qū): 數(shù)據(jù)統(tǒng)計(jì)并非等于大數(shù)據(jù) 。無(wú)論數(shù)據(jù)統(tǒng)計(jì)也好,大數(shù)據(jù)也罷,其實(shí)都是為了使我們的工作變得更為有效,讓決策更為理性而準(zhǔn)確。重視數(shù)據(jù),本身就是一個(gè)企業(yè)成熟的標(biāo)志。
移動(dòng)互聯(lián)網(wǎng)的迅速崛起,讓數(shù)據(jù)變得更為多樣、豐富。它的移動(dòng)性,它的碎片化,它的私密性和隨時(shí)性都剛好彌補(bǔ)了用戶(hù)離開(kāi)桌面電腦之后的數(shù)據(jù),從而與原有的互聯(lián)網(wǎng)數(shù)據(jù)一起很好滴勾勒出一個(gè)網(wǎng)民一天的生活,日常生活的數(shù)據(jù)化。
隨著數(shù)據(jù)的進(jìn)一步豐富和完善,隨著不同渠道數(shù)據(jù)的打通和交叉利用,有關(guān)大數(shù)據(jù)的想象一定會(huì)更加廣闊。