摘要:大數(shù)據(jù)有價(jià)值,這個(gè)觀念似乎已得到很大程度的認(rèn)可。當(dāng)然,也有質(zhì)疑的,比如《21世紀(jì)商業(yè)評論》的發(fā)行人吳伯凡先生,他就曾說“大數(shù)據(jù)本質(zhì)上是一種垃圾”。但話鋒一轉(zhuǎn),他又說“如果你有好的方式,把這些垃圾,好象沒有用的東西,你能夠提煉出來,加工出來,那就是很有用的。”
大數(shù)據(jù)有價(jià)值,這個(gè)觀念似乎已得到很大程度的認(rèn)可。
當(dāng)然,也有質(zhì)疑的,比如《21世紀(jì)商業(yè)評論》的發(fā)行人吳伯凡先生,他就曾說“大數(shù)據(jù)本質(zhì)上是一種垃圾”。但話鋒一轉(zhuǎn),他又說“如果你有好的方式,把這些垃圾,好象沒有用的東西,你能夠提煉出來,加工出來,那就是很有用的。”
這其實(shí)就是大數(shù)據(jù)的特征之一——“價(jià)值大,但密度低”的另一種翻版說法,也就是說吳先生并沒有真的認(rèn)為“大數(shù)據(jù)就是垃圾”。
那么我們怎樣才能讓大數(shù)據(jù)變廢為寶,使其價(jià)值是得以彰顯的呢?
在回答這個(gè)問題之一,我們先找?guī)讉€(gè)沒有什么爭議的大數(shù)據(jù)公司,看看他們是怎么玩的。
大數(shù)據(jù)公司的第一道門檻,就是你得有大量的數(shù)據(jù)(此外的門檻還包括具備大數(shù)據(jù)思維和干活的工程師)。在互聯(lián)網(wǎng)領(lǐng)域的公司,在這個(gè)方面有著得天獨(dú)厚的優(yōu)勢。國外的Alphabet(谷歌母公司)和Facebook,國內(nèi)的BAT(百度、阿里和騰訊)都可以算是比較徹底的大數(shù)據(jù)公司。我們來看看他們2015年的營收情況(如表1所示)。
表1 幾個(gè)大數(shù)據(jù)公司的2015年的營收情況
公司 |
Alphabet |
|
百度 |
阿里 |
騰訊 |
總收入(億美元) |
817.62 |
179.28 |
102.23 |
122.93 |
158.41 |
廣告營收(億美元) |
732.23 |
170.83 |
100.78 |
77.04 |
26.90+87.14 |
廣告所占比例 |
89.55% |
95.28% |
98.58% |
62.67% |
16.98%+55.01% |
從表1可以看出,廣告營收分別在Alphabet和Facebook整個(gè)公司營收的絕大部分,其比例分別為89.55%和95.28%。我們再來看國內(nèi)的廣告巨頭,2015年百度102.23億美元的收入里,其中廣告收入達(dá)到100.78億,其比例達(dá)到驚人的98.58%。阿里巴巴(62.7%)和騰訊(55.01%)的比例亦不容小覷。騰訊之所以用加號(+)單獨(dú)一列,是因?yàn)轵v訊的部分廣告收入和游戲收入攪和到一起了,“剪不斷,理還亂 ”,如它的游戲聯(lián)運(yùn)(16.98%),既可以算得上游戲收入,但在本質(zhì)上這部分也可歸屬于廣告收入。
從上面所列的數(shù)字,可以給我們帶來一個(gè)直觀的感受,那就是互聯(lián)網(wǎng)行業(yè)的大數(shù)據(jù)公司,其核心商業(yè)價(jià)值的彰顯,竟然就是赤裸裸的廣告。但是,這里的廣告,并不是我們傳統(tǒng)意義上的線下廣告,而是通過一種付費(fèi)內(nèi)容的載體,是對流量和數(shù)據(jù)進(jìn)行變現(xiàn),與傳統(tǒng)廣告有非常大的差別。
計(jì)算廣告的最大挑戰(zhàn)是什么?
大數(shù)據(jù)專家劉鵬先生認(rèn)為 [1] ,不了解計(jì)算廣告,就不可能深入地了解互聯(lián)網(wǎng),也不太容易真正理解大數(shù)據(jù)。那么,什么是 計(jì)算廣告呢?
計(jì)算廣告(Computational Advertising)是一門正在興起的交叉學(xué)科,致力于采用數(shù)據(jù)挖掘(如大規(guī)模搜索、文本分析和信息獲取)、機(jī)器學(xué)習(xí)等人工智能手段,結(jié)合用戶反饋,行為分析,甚至心理學(xué)等,來提高廣告相關(guān)性,交互性,實(shí)現(xiàn)廣告主、廣告網(wǎng)絡(luò)(如AdSense)和用戶的自動化匹配。
我們知道,大數(shù)據(jù)的核心價(jià)值就是預(yù)測。
作為大數(shù)據(jù)和核心應(yīng)用之一,計(jì)算廣告,更是如此。它要完成的核心任務(wù),就是預(yù)測哪些用戶對哪些廣告感興趣,然后據(jù)此推送相應(yīng)的廣告。
說得更加學(xué)術(shù)點(diǎn),就是在特定語境下特定用戶和相應(yīng)的廣告之間找到“最佳匹配”。
這里的語境,可以是用戶正在訪問的網(wǎng)頁,也可以是用戶在搜索引擎中輸入的關(guān)鍵詞,還可以是用戶正在看的書、聽的音樂等。潛在廣告池的廣告數(shù)量,可能達(dá)到幾十億,而用戶的數(shù)量也同處于這個(gè)級別。故此,這個(gè)“最佳匹配”,面臨的最大挑戰(zhàn)就是在復(fù)雜約束條件下的大規(guī)模優(yōu)化和搜索問題。
簡單來說,在數(shù)以千萬(甚至上億)級別的網(wǎng)絡(luò)用戶反饋形成的、快速變化的數(shù)據(jù)空間,計(jì)算廣告并沒有確定的“ground truth”(地面實(shí)況,即用于有監(jiān)督訓(xùn)練的訓(xùn)練集的分類精度),同時(shí)它也無法通過均勻地對總體空間進(jìn)行采樣,構(gòu)建魯棒性很強(qiáng)的訓(xùn)練集。更為要命的是,其建模的對象,是人的行為,而人的行為又極大程度地受到系統(tǒng)輸出的影響。
人類學(xué)家兼數(shù)學(xué)家托馬斯·克倫普在其著作《數(shù)字人類學(xué)》強(qiáng)調(diào) [2] ,數(shù)據(jù)的背后,其實(shí)就是人類。確切來說,數(shù)據(jù),在本質(zhì)上,是人類觀察世界的表征形式。研究數(shù)據(jù),在某種程度上,就是在研究人。計(jì)算廣告領(lǐng)域的研究,尤其如此。
前文我們提到,大數(shù)據(jù)的核心價(jià)值就是預(yù)測。而預(yù)測通常分為三個(gè)層次(如圖 1 所示),最內(nèi)層是對人性的預(yù)測,這個(gè)在很大程度上其實(shí)不用預(yù)測,人性使然而已。比如,人餓了會怎樣?他(她)會找事物吃,不找東西吃會餓死。手碰到火后,人又會怎樣?他(她)會很快拿開,不然手就會燒疼。
圖 1 預(yù)測的三個(gè)層次
預(yù)測的中間層就是趨勢,這是大數(shù)據(jù)的拿手好戲。 法國 著名哲學(xué)家奧古斯特·孔德( 1798 年 ~1857 年)認(rèn)為,人做個(gè)體是無序的,具有“自由意志”,但樣本增加至全社會,大數(shù)定律就會發(fā)揮作用,人們就可以從中發(fā)現(xiàn)穩(wěn)定的規(guī)律。 200 多年后的今天,全球復(fù)雜網(wǎng)絡(luò)研究權(quán)威艾伯特·拉斯洛·巴拉巴西 ( Albert-Lászl Barabási ) ,用大數(shù)據(jù)分析支撐了孔德的觀點(diǎn),他在其著作《爆發(fā)》表示 [3] :“ 人類行為 93% 是可以預(yù)測。”
預(yù)測的最外層就是對習(xí)慣的預(yù)測,某種程度上,也就是對個(gè)人“自由意志”的預(yù)測。這個(gè)是最難的。比如說,前天我吃了漢堡,昨天我也吃了漢堡,今天我還吃了漢堡,你能預(yù)測我明天吃什么嗎?的確有可能,我明天還吃漢堡,但連續(xù)三天都吃漢堡之后,我完全更有可能由于吃膩了,換個(gè)口味啊。但是基于數(shù)據(jù)的歸納法(這是人類絕大多數(shù)知識存在的根基),很容易得出預(yù)測的結(jié)論:我明天還吃漢堡。這種預(yù)測,哪里是預(yù)測,明明就是對個(gè)人自由意志的“猜測”,準(zhǔn)不準(zhǔn),天知道!
而計(jì)算廣告的受眾對象,就是對個(gè)人行為習(xí)慣(自由意志)的預(yù)測,所以我們可以給出一個(gè)推論,計(jì)算廣告的預(yù)測效果,肯定不會太好!人心叵測嘛!
那為什么如前文所列的大數(shù)據(jù)公司(如 Alphabet 、 Facebook 及國內(nèi)的 BAT )的廣告效益,還這么好呢?其實(shí)他們?nèi)俚拿孛埽埠芎唵危蔷褪菃挝粡V告成本極低,但規(guī)模超級大。
雖然我們說了,計(jì)算廣告的預(yù)測效果注定不會太高,但還是比毫無根據(jù)的“瞎猜”好很多。還拿前面的例子說事。如果我們有了“前天我吃了漢堡,昨天我也吃了漢堡,今天我還吃了漢堡”的數(shù)據(jù),計(jì)算廣告的確不能很準(zhǔn)確地預(yù)測我明天吃什么,但總比一個(gè)人完全不知道我過往的飲食習(xí)慣,在成百上千種食物中,瞎猜一種,其預(yù)測準(zhǔn)確率還是要靠譜一些。
胡適老先生曾經(jīng)說過一句名言,“怕什么真理無窮,進(jìn)一寸有一寸的歡喜。”套用到計(jì)算廣告上,我們也可以說一句,“怕什么預(yù)測不準(zhǔn),提高一個(gè)百分點(diǎn),有一個(gè)百分點(diǎn)的收益。”
的確,哪怕把廣告的轉(zhuǎn)化率提高一個(gè)百分點(diǎn),架不住計(jì)算廣告推送的規(guī)模之大,其收益也是相當(dāng)可觀的。這就好比,一塊錢不算多,但如果每個(gè)中國人都給我一塊錢,那我就是億萬富翁了,原因很顯然,中國人口基數(shù)太大。
因此,計(jì)算廣告還是很有搞頭的。
計(jì)算廣告是如何變現(xiàn)的?
我們知道,當(dāng)前互聯(lián)網(wǎng)產(chǎn)品的大趨勢,就是免費(fèi)!
可是互聯(lián)網(wǎng)企業(yè)也要活下去,他們也需要有變現(xiàn)的的資產(chǎn)。那些可變現(xiàn)的資產(chǎn)又是什么呢?
總結(jié)一下,互聯(lián)網(wǎng)行業(yè)可變現(xiàn)的核心資產(chǎn),主要來自兩個(gè)方面。第一個(gè)方面,也就是最簡單粗暴的方式——利用流量(traffic)變現(xiàn)。
什么是流量呢?就是有人訪問你的網(wǎng)站,或者有人在用你的APP,在這些產(chǎn)品中,除了放用戶感興趣的內(nèi)容以外,還可以放一些付費(fèi)內(nèi)容(Sponsored content),也就是廣告。在正常內(nèi)容里夾裹付費(fèi)內(nèi)容,就是流量變現(xiàn)的基礎(chǔ)。這個(gè)容易理解,有點(diǎn)類似于很多人都愛看電視劇,那么電視臺就可以把廣告,插播在電視劇里。你想看電視,就得看廣告!
但電視臺播放廣告的弊端也很明顯,那就是“千人一面”——所有人看到的廣告都是一樣的,這樣的廣告轉(zhuǎn)化率勢必不會太高。如何提高廣告轉(zhuǎn)化率呢?
除了流量能夠變現(xiàn)之外,互聯(lián)網(wǎng)公司還有一項(xiàng)非常更重要的法寶,那就是數(shù)據(jù)!
簡單地說,通過大數(shù)據(jù)(特別是用戶的行為大數(shù)據(jù)),互聯(lián)網(wǎng)公司可以做到較為精準(zhǔn)的用戶畫像(personas)[4],據(jù)此判斷用戶偏好,然后再根據(jù)這些偏好,提高付費(fèi)內(nèi)容的轉(zhuǎn)化率,這是數(shù)據(jù)變現(xiàn)的基本原理。
那么這些用戶大數(shù)據(jù)又是如何得來的呢?自然都是來自各種免費(fèi)的互聯(lián)網(wǎng)產(chǎn)品,當(dāng)用戶在用這些產(chǎn)品過程中,就會留下蛛絲馬跡,互聯(lián)網(wǎng)公司就會收集這些信息,據(jù)此猜測這個(gè)用戶的屬性,比如購物偏好,然后再根據(jù)這些購物偏好,來投送相關(guān)的付費(fèi)內(nèi)容,這比沒有任何的指導(dǎo)來投放付費(fèi)內(nèi)容,它的效果肯定要好一些。
劉鵬先生提供了一個(gè)精彩的例子,如圖2所示,可以輔助讀者理解一下數(shù)據(jù)變現(xiàn)的原理。這個(gè)圖的左半部分說的是流量變現(xiàn)。比如說,假設(shè)我們有個(gè)網(wǎng)站,每天有10萬的訪問量,那么就可以在上面放一個(gè)廣告位,這個(gè)廣告位可以有個(gè)報(bào)價(jià),比如說5000塊錢,這就是流量變現(xiàn)的價(jià)值。
圖2 數(shù)據(jù)價(jià)值的體現(xiàn)
但是這種流量變現(xiàn)的方式,并沒有最大化發(fā)揮數(shù)字廣告的優(yōu)勢。因?yàn)樘觏毜稄V告的有效受眾,基本上都是男性,因此,這個(gè)流量里邊,有一半的女性受眾是被浪費(fèi)了,那么,該如何合理利用另一半流量呢?
再看圖2所示的右半部分,實(shí)際上,在計(jì)算廣告體系里,我們完全可以做到,僅僅把男性的一半流量留給這個(gè)剃須刀廣告客戶,對于這個(gè)客戶而言,它的有效受眾的觸達(dá),其實(shí)并沒有損失,但由于他只用了一半流量,因此可以給他打個(gè)折, 3000塊錢就可以了。
如此一來,對流量變現(xiàn)的互聯(lián)網(wǎng)公司而言,它還剩下一半女性的流量,他可以用3000的價(jià)格賣給另外一家做化妝品的廣告主。對互聯(lián)網(wǎng)公司來說,它掙到了更多的錢(6000塊)。對于廣告主而言,他也是滿意的,因?yàn)樗挥没?000塊錢的成本,就獲得了原來他要花5000塊錢成本,才能觸達(dá)的有效受眾。所以,這是個(gè)雙贏的生意。
實(shí)際上,我們知道,天下沒有免費(fèi)的午餐!在我們的工作生活中,基本上,存在一個(gè)利益守恒原則。也就是說,如果你在某個(gè)方面獲得了利益,通常是會在其它方面,以某種形式(或顯式的或隱性的)犧牲利益為代價(jià),換回來的。
雙贏(或多贏)是不符合利益守恒原則的。既然是雙贏,一定需要新的資源加入到這個(gè)利益分配過程當(dāng)中,那么這個(gè)資源是什么呢?這就是數(shù)據(jù)的價(jià)值!也就是我們一直說的數(shù)據(jù)變現(xiàn)的秘密。
計(jì)算廣告的收益 ——我們付出了什么代價(jià)?
互聯(lián)網(wǎng)公司之所以能得到這1000塊錢的溢價(jià),是因?yàn)樗麄冇辛嗣恳粋€(gè)用戶的性別數(shù)據(jù)。如果再接著問,他們?yōu)楹文苡羞@些數(shù)據(jù),還不是我們用戶“免費(fèi)”使用了人家的產(chǎn)品嘛?
我們在享受互聯(lián)網(wǎng)公司提供的免費(fèi)“午餐”時(shí),付出的第一個(gè)代價(jià),就是不經(jīng)意間泄露了我們的個(gè)人隱私數(shù)據(jù)。你看看,天下哪有免費(fèi)的午餐?免費(fèi)的背后,其實(shí)是都是要付出代價(jià)的!
天下沒有免費(fèi)的午餐,不光是個(gè)普世化的認(rèn)知,在計(jì)算機(jī)科學(xué)領(lǐng)域,甚至還給出“沒有免費(fèi)的午餐定理(No Free Lunch,簡稱NFL)”的理論證明。該定理是由美國圣菲研究所(Santa Fe Institute) 教授Wolpert和Macready等在1997年提出[5],其結(jié)論是由于對所有可能函數(shù)的相互補(bǔ)償,最優(yōu)化算法的性能是等價(jià)的。該定理通俗來說,如果某個(gè)算法在某個(gè)場景下,獲得了最優(yōu)性能,但它在其它場景下,一定付出了性能代價(jià),不可能在什么場景下,你都最牛。就看當(dāng)前場景下,算法優(yōu)化后的性能改善,和付出的代價(jià)相比,值還是不值!
蘇萌、柏林森和周濤等人曾合著了一本書,叫《個(gè)性化:商業(yè)的未來》[6]。我們不能說這本書的觀點(diǎn)是錯(cuò)的,但如果這本書的觀點(diǎn)是正確的,根據(jù)NFL原理,我們同樣也可以寫另外一本對應(yīng)的書籍《隱私獲取:大數(shù)據(jù)公司盈利不得不說的秘密》。
因?yàn)樗械膫€(gè)性化服務(wù),都必須以獲取用戶個(gè)性化的信息(即隱私數(shù)據(jù))作為前提,沒有個(gè)性化的數(shù)據(jù),自然就不會有“貼心”的個(gè)性化服務(wù)。
計(jì)算廣告盈利水平的提升,肯定離不開用戶隱私數(shù)據(jù)的獲取,而用戶的大數(shù)據(jù)隱私保護(hù),也是計(jì)算廣告繞不開的研究話題。