欧美精品国产精品,桃色国产精品站一桃色阁,日韩精品中文字幕一区三区

大數(shù)據(jù)的價(jià)值是如何得以彰顯的？

責(zé)任編輯：editor004

2016-09-23 11:17:58

摘自：云棲博客

摘要：大數(shù)據(jù)有價(jià)值，這個(gè)觀念似乎已得到很大程度的認(rèn)可。計(jì)算廣告盈利水平的提升，肯定離不開用戶隱私數(shù)據(jù)的獲取，而用戶的大數(shù)據(jù)隱私保護(hù)，也是計(jì)算廣告繞不開的研究話題。

摘要：大數(shù)據(jù)有價(jià)值，這個(gè)觀念似乎已得到很大程度的認(rèn)可。當(dāng)然，也有質(zhì)疑的，比如《21世紀(jì)商業(yè)評論》的發(fā)行人吳伯凡先生，他就曾說“大數(shù)據(jù)本質(zhì)上是一種垃圾”。但話鋒一轉(zhuǎn)，他又說“如果你有好的方式，把這些垃圾，好象沒有用的東西，你能夠提煉出來，加工出來，那就是很有用的。”

大數(shù)據(jù)有價(jià)值，這個(gè)觀念似乎已得到很大程度的認(rèn)可。

當(dāng)然，也有質(zhì)疑的，比如《21世紀(jì)商業(yè)評論》的發(fā)行人吳伯凡先生，他就曾說“大數(shù)據(jù)本質(zhì)上是一種垃圾”。但話鋒一轉(zhuǎn)，他又說“如果你有好的方式，把這些垃圾，好象沒有用的東西，你能夠提煉出來，加工出來，那就是很有用的。”

這其實(shí)就是大數(shù)據(jù)的特征之一——“價(jià)值大，但密度低”的另一種翻版說法，也就是說吳先生并沒有真的認(rèn)為“大數(shù)據(jù)就是垃圾”。

那么我們怎樣才能讓大數(shù)據(jù)變廢為寶，使其價(jià)值是得以彰顯的呢?

在回答這個(gè)問題之一，我們先找?guī)讉€(gè)沒有什么爭議的大數(shù)據(jù)公司，看看他們是怎么玩的。

大數(shù)據(jù)公司的第一道門檻，就是你得有大量的數(shù)據(jù)(此外的門檻還包括具備大數(shù)據(jù)思維和干活的工程師)。在互聯(lián)網(wǎng)領(lǐng)域的公司，在這個(gè)方面有著得天獨(dú)厚的優(yōu)勢。國外的Alphabet(谷歌母公司)和Facebook，國內(nèi)的BAT(百度、阿里和騰訊)都可以算是比較徹底的大數(shù)據(jù)公司。我們來看看他們2015年的營收情況(如表1所示)。

表1 幾個(gè)大數(shù)據(jù)公司的2015年的營收情況

公司	Alphabet	Facebook	百度	阿里	騰訊
總收入（億美元）	817.62	179.28	102.23	122.93	158.41
廣告營收（億美元）	732.23	170.83	100.78	77.04	26.90+87.14
廣告所占比例	89.55%	95.28%	98.58%	62.67%	16.98%+55.01%

從表1可以看出，廣告營收分別在Alphabet和Facebook整個(gè)公司營收的絕大部分，其比例分別為89.55%和95.28%。我們再來看國內(nèi)的廣告巨頭，2015年百度102.23億美元的收入里，其中廣告收入達(dá)到100.78億，其比例達(dá)到驚人的98.58%。阿里巴巴(62.7%)和騰訊(55.01%)的比例亦不容小覷。騰訊之所以用加號(+)單獨(dú)一列，是因?yàn)轵v訊的部分廣告收入和游戲收入攪和到一起了，“剪不斷，理還亂 ”，如它的游戲聯(lián)運(yùn)(16.98%)，既可以算得上游戲收入，但在本質(zhì)上這部分也可歸屬于廣告收入。

從上面所列的數(shù)字，可以給我們帶來一個(gè)直觀的感受，那就是互聯(lián)網(wǎng)行業(yè)的大數(shù)據(jù)公司，其核心商業(yè)價(jià)值的彰顯，竟然就是赤裸裸的廣告。但是，這里的廣告，并不是我們傳統(tǒng)意義上的線下廣告，而是通過一種付費(fèi)內(nèi)容的載體，是對流量和數(shù)據(jù)進(jìn)行變現(xiàn)，與傳統(tǒng)廣告有非常大的差別。

計(jì)算廣告的最大挑戰(zhàn)是什么?

大數(shù)據(jù)專家劉鵬先生認(rèn)為 [1] ，不了解計(jì)算廣告，就不可能深入地了解互聯(lián)網(wǎng)，也不太容易真正理解大數(shù)據(jù)。那么，什么是計(jì)算廣告呢?

計(jì)算廣告(Computational Advertising)是一門正在興起的交叉學(xué)科，致力于采用數(shù)據(jù)挖掘(如大規(guī)模搜索、文本分析和信息獲取)、機(jī)器學(xué)習(xí)等人工智能手段，結(jié)合用戶反饋，行為分析，甚至心理學(xué)等，來提高廣告相關(guān)性，交互性，實(shí)現(xiàn)廣告主、廣告網(wǎng)絡(luò)(如AdSense)和用戶的自動化匹配。

我們知道，大數(shù)據(jù)的核心價(jià)值就是預(yù)測。

作為大數(shù)據(jù)和核心應(yīng)用之一，計(jì)算廣告，更是如此。它要完成的核心任務(wù)，就是預(yù)測哪些用戶對哪些廣告感興趣，然后據(jù)此推送相應(yīng)的廣告。

說得更加學(xué)術(shù)點(diǎn)，就是在特定語境下特定用戶和相應(yīng)的廣告之間找到“最佳匹配”。

這里的語境，可以是用戶正在訪問的網(wǎng)頁，也可以是用戶在搜索引擎中輸入的關(guān)鍵詞，還可以是用戶正在看的書、聽的音樂等。潛在廣告池的廣告數(shù)量，可能達(dá)到幾十億，而用戶的數(shù)量也同處于這個(gè)級別。故此，這個(gè)“最佳匹配”，面臨的最大挑戰(zhàn)就是在復(fù)雜約束條件下的大規(guī)模優(yōu)化和搜索問題。

簡單來說，在數(shù)以千萬(甚至上億)級別的網(wǎng)絡(luò)用戶反饋形成的、快速變化的數(shù)據(jù)空間，計(jì)算廣告并沒有確定的“ground truth”(地面實(shí)況，即用于有監(jiān)督訓(xùn)練的訓(xùn)練集的分類精度)，同時(shí)它也無法通過均勻地對總體空間進(jìn)行采樣，構(gòu)建魯棒性很強(qiáng)的訓(xùn)練集。更為要命的是，其建模的對象，是人的行為，而人的行為又極大程度地受到系統(tǒng)輸出的影響。

人類學(xué)家兼數(shù)學(xué)家托馬斯·克倫普在其著作《數(shù)字人類學(xué)》強(qiáng)調(diào) [2] ，數(shù)據(jù)的背后，其實(shí)就是人類。確切來說，數(shù)據(jù)，在本質(zhì)上，是人類觀察世界的表征形式。研究數(shù)據(jù)，在某種程度上，就是在研究人。計(jì)算廣告領(lǐng)域的研究，尤其如此。

前文我們提到，大數(shù)據(jù)的核心價(jià)值就是預(yù)測。而預(yù)測通常分為三個(gè)層次(如圖 1 所示)，最內(nèi)層是對人性的預(yù)測，這個(gè)在很大程度上其實(shí)不用預(yù)測，人性使然而已。比如，人餓了會怎樣?他(她)會找事物吃，不找東西吃會餓死。手碰到火后，人又會怎樣?他(她)會很快拿開，不然手就會燒疼。

大數(shù)據(jù)

　　圖 1 預(yù)測的三個(gè)層次

預(yù)測的中間層就是趨勢，這是大數(shù)據(jù)的拿手好戲。法國著名哲學(xué)家奧古斯特·孔德( 1798 年 ~1857 年)認(rèn)為，人做個(gè)體是無序的，具有“自由意志”，但樣本增加至全社會，大數(shù)定律就會發(fā)揮作用，人們就可以從中發(fā)現(xiàn)穩(wěn)定的規(guī)律。 200 多年后的今天，全球復(fù)雜網(wǎng)絡(luò)研究權(quán)威艾伯特·拉斯洛·巴拉巴西 ( Albert-Lászl Barabási ) ，用大數(shù)據(jù)分析支撐了孔德的觀點(diǎn)，他在其著作《爆發(fā)》表示 [3] ：“ 人類行為 93% 是可以預(yù)測。”

預(yù)測的最外層就是對習(xí)慣的預(yù)測，某種程度上，也就是對個(gè)人“自由意志”的預(yù)測。這個(gè)是最難的。比如說，前天我吃了漢堡，昨天我也吃了漢堡，今天我還吃了漢堡，你能預(yù)測我明天吃什么嗎?的確有可能，我明天還吃漢堡，但連續(xù)三天都吃漢堡之后，我完全更有可能由于吃膩了，換個(gè)口味啊。但是基于數(shù)據(jù)的歸納法(這是人類絕大多數(shù)知識存在的根基)，很容易得出預(yù)測的結(jié)論：我明天還吃漢堡。這種預(yù)測，哪里是預(yù)測，明明就是對個(gè)人自由意志的“猜測”，準(zhǔn)不準(zhǔn)，天知道!

而計(jì)算廣告的受眾對象，就是對個(gè)人行為習(xí)慣(自由意志)的預(yù)測，所以我們可以給出一個(gè)推論，計(jì)算廣告的預(yù)測效果，肯定不會太好!人心叵測嘛!

那為什么如前文所列的大數(shù)據(jù)公司(如 Alphabet 、 Facebook 及國內(nèi)的 BAT )的廣告效益，還這么好呢?其實(shí)他們?nèi)俚拿孛埽埠芎唵危蔷褪菃挝粡V告成本極低，但規(guī)模超級大。

雖然我們說了，計(jì)算廣告的預(yù)測效果注定不會太高，但還是比毫無根據(jù)的“瞎猜”好很多。還拿前面的例子說事。如果我們有了“前天我吃了漢堡，昨天我也吃了漢堡，今天我還吃了漢堡”的數(shù)據(jù)，計(jì)算廣告的確不能很準(zhǔn)確地預(yù)測我明天吃什么，但總比一個(gè)人完全不知道我過往的飲食習(xí)慣，在成百上千種食物中，瞎猜一種，其預(yù)測準(zhǔn)確率還是要靠譜一些。

胡適老先生曾經(jīng)說過一句名言，“怕什么真理無窮，進(jìn)一寸有一寸的歡喜。”套用到計(jì)算廣告上，我們也可以說一句，“怕什么預(yù)測不準(zhǔn)，提高一個(gè)百分點(diǎn)，有一個(gè)百分點(diǎn)的收益。”

的確，哪怕把廣告的轉(zhuǎn)化率提高一個(gè)百分點(diǎn)，架不住計(jì)算廣告推送的規(guī)模之大，其收益也是相當(dāng)可觀的。這就好比，一塊錢不算多，但如果每個(gè)中國人都給我一塊錢，那我就是億萬富翁了，原因很顯然，中國人口基數(shù)太大。

因此，計(jì)算廣告還是很有搞頭的。

計(jì)算廣告是如何變現(xiàn)的?

我們知道，當(dāng)前互聯(lián)網(wǎng)產(chǎn)品的大趨勢，就是免費(fèi)!

可是互聯(lián)網(wǎng)企業(yè)也要活下去，他們也需要有變現(xiàn)的的資產(chǎn)。那些可變現(xiàn)的資產(chǎn)又是什么呢?

總結(jié)一下，互聯(lián)網(wǎng)行業(yè)可變現(xiàn)的核心資產(chǎn)，主要來自兩個(gè)方面。第一個(gè)方面，也就是最簡單粗暴的方式——利用流量(traffic)變現(xiàn)。

什么是流量呢?就是有人訪問你的網(wǎng)站，或者有人在用你的APP，在這些產(chǎn)品中，除了放用戶感興趣的內(nèi)容以外，還可以放一些付費(fèi)內(nèi)容(Sponsored content)，也就是廣告。在正常內(nèi)容里夾裹付費(fèi)內(nèi)容，就是流量變現(xiàn)的基礎(chǔ)。這個(gè)容易理解，有點(diǎn)類似于很多人都愛看電視劇，那么電視臺就可以把廣告，插播在電視劇里。你想看電視，就得看廣告!

但電視臺播放廣告的弊端也很明顯，那就是“千人一面”——所有人看到的廣告都是一樣的，這樣的廣告轉(zhuǎn)化率勢必不會太高。如何提高廣告轉(zhuǎn)化率呢?

除了流量能夠變現(xiàn)之外，互聯(lián)網(wǎng)公司還有一項(xiàng)非常更重要的法寶，那就是數(shù)據(jù)!

簡單地說，通過大數(shù)據(jù)(特別是用戶的行為大數(shù)據(jù))，互聯(lián)網(wǎng)公司可以做到較為精準(zhǔn)的用戶畫像(personas)[4]，據(jù)此判斷用戶偏好，然后再根據(jù)這些偏好，提高付費(fèi)內(nèi)容的轉(zhuǎn)化率，這是數(shù)據(jù)變現(xiàn)的基本原理。

那么這些用戶大數(shù)據(jù)又是如何得來的呢?自然都是來自各種免費(fèi)的互聯(lián)網(wǎng)產(chǎn)品，當(dāng)用戶在用這些產(chǎn)品過程中，就會留下蛛絲馬跡，互聯(lián)網(wǎng)公司就會收集這些信息，據(jù)此猜測這個(gè)用戶的屬性，比如購物偏好，然后再根據(jù)這些購物偏好，來投送相關(guān)的付費(fèi)內(nèi)容，這比沒有任何的指導(dǎo)來投放付費(fèi)內(nèi)容，它的效果肯定要好一些。

劉鵬先生提供了一個(gè)精彩的例子，如圖2所示，可以輔助讀者理解一下數(shù)據(jù)變現(xiàn)的原理。這個(gè)圖的左半部分說的是流量變現(xiàn)。比如說，假設(shè)我們有個(gè)網(wǎng)站，每天有10萬的訪問量，那么就可以在上面放一個(gè)廣告位，這個(gè)廣告位可以有個(gè)報(bào)價(jià)，比如說5000塊錢，這就是流量變現(xiàn)的價(jià)值。

　　圖2 數(shù)據(jù)價(jià)值的體現(xiàn)

但是這種流量變現(xiàn)的方式，并沒有最大化發(fā)揮數(shù)字廣告的優(yōu)勢。因?yàn)樘觏毜稄V告的有效受眾，基本上都是男性，因此，這個(gè)流量里邊，有一半的女性受眾是被浪費(fèi)了，那么，該如何合理利用另一半流量呢?

再看圖2所示的右半部分，實(shí)際上，在計(jì)算廣告體系里，我們完全可以做到，僅僅把男性的一半流量留給這個(gè)剃須刀廣告客戶，對于這個(gè)客戶而言，它的有效受眾的觸達(dá)，其實(shí)并沒有損失，但由于他只用了一半流量，因此可以給他打個(gè)折， 3000塊錢就可以了。

如此一來，對流量變現(xiàn)的互聯(lián)網(wǎng)公司而言，它還剩下一半女性的流量，他可以用3000的價(jià)格賣給另外一家做化妝品的廣告主。對互聯(lián)網(wǎng)公司來說，它掙到了更多的錢(6000塊)。對于廣告主而言，他也是滿意的，因?yàn)樗挥没?000塊錢的成本，就獲得了原來他要花5000塊錢成本，才能觸達(dá)的有效受眾。所以，這是個(gè)雙贏的生意。

實(shí)際上，我們知道，天下沒有免費(fèi)的午餐!在我們的工作生活中，基本上，存在一個(gè)利益守恒原則。也就是說，如果你在某個(gè)方面獲得了利益，通常是會在其它方面，以某種形式(或顯式的或隱性的)犧牲利益為代價(jià)，換回來的。

雙贏(或多贏)是不符合利益守恒原則的。既然是雙贏，一定需要新的資源加入到這個(gè)利益分配過程當(dāng)中，那么這個(gè)資源是什么呢?這就是數(shù)據(jù)的價(jià)值!也就是我們一直說的數(shù)據(jù)變現(xiàn)的秘密。

計(jì)算廣告的收益 ——我們付出了什么代價(jià)?

互聯(lián)網(wǎng)公司之所以能得到這1000塊錢的溢價(jià)，是因?yàn)樗麄冇辛嗣恳粋€(gè)用戶的性別數(shù)據(jù)。如果再接著問，他們?yōu)楹文苡羞@些數(shù)據(jù)，還不是我們用戶“免費(fèi)”使用了人家的產(chǎn)品嘛?

我們在享受互聯(lián)網(wǎng)公司提供的免費(fèi)“午餐”時(shí)，付出的第一個(gè)代價(jià)，就是不經(jīng)意間泄露了我們的個(gè)人隱私數(shù)據(jù)。你看看，天下哪有免費(fèi)的午餐?免費(fèi)的背后，其實(shí)是都是要付出代價(jià)的!

天下沒有免費(fèi)的午餐，不光是個(gè)普世化的認(rèn)知，在計(jì)算機(jī)科學(xué)領(lǐng)域，甚至還給出“沒有免費(fèi)的午餐定理(No Free Lunch，簡稱NFL)”的理論證明。該定理是由美國圣菲研究所(Santa Fe Institute) 教授Wolpert和Macready等在1997年提出[5]，其結(jié)論是由于對所有可能函數(shù)的相互補(bǔ)償，最優(yōu)化算法的性能是等價(jià)的。該定理通俗來說，如果某個(gè)算法在某個(gè)場景下，獲得了最優(yōu)性能，但它在其它場景下，一定付出了性能代價(jià)，不可能在什么場景下，你都最牛。就看當(dāng)前場景下，算法優(yōu)化后的性能改善，和付出的代價(jià)相比，值還是不值!

蘇萌、柏林森和周濤等人曾合著了一本書，叫《個(gè)性化：商業(yè)的未來》[6]。我們不能說這本書的觀點(diǎn)是錯(cuò)的，但如果這本書的觀點(diǎn)是正確的，根據(jù)NFL原理，我們同樣也可以寫另外一本對應(yīng)的書籍《隱私獲取：大數(shù)據(jù)公司盈利不得不說的秘密》。

因?yàn)樗械膫€(gè)性化服務(wù)，都必須以獲取用戶個(gè)性化的信息(即隱私數(shù)據(jù))作為前提，沒有個(gè)性化的數(shù)據(jù)，自然就不會有“貼心”的個(gè)性化服務(wù)。

計(jì)算廣告盈利水平的提升，肯定離不開用戶隱私數(shù)據(jù)的獲取，而用戶的大數(shù)據(jù)隱私保護(hù)，也是計(jì)算廣告繞不開的研究話題。

谷歌最優(yōu)化算法