聲明:本人絕不是攻擊任何人,我也在優酷呆過,真切的喜歡那些小伙伴,也知道他們做過預測票房的事情。我批評的行業詬病,因此讀我文章的程序猿可以免疫,你們也是按照命令行事,苦逼何必為難苦逼呢?何況我也是程序猿。
”這年頭真的是豬站在風口上都能飛上天“ 雷老板的名言。 隨后好多人,就開始了各種概念炒作,例如“互聯網思維”(看到這個詞你們一定想吐,在各種新聞中,被小編毫無節操的使用)。
沒有多久,大數據不知道從哪個縫里面冒出來了。最開始就是big data ,這代表了海量數據處理的一些問題和解決方法。后來,“大數據”這個詞也是在各種新聞中被小編糟蹋的夠嗆。到現在大數據最準確的含義,我也不知道。確切的說這個詞的準確含義,沒有一個人知道。
去年(2013)的時候,Netflix利用大數據的方法拍攝了電視系列劇紙牌屋(House of Card)。接著,小時代在續集中也咨詢了一個大數據公司。郭敬明緊隨國際步伐,既然利用了最先進的技術,怎么你的電影還是那么爛。雖然小時代票房還是過億,但是和大數據預測沒有什么關系吧?
崔老師(本人)作為數據挖掘工程師(aka:大數據工程師。。。。)認為用大數據預測電影票房就是雞叫和天亮的關系。更準確的表達是目前的大數據技術預測電影票房是完全扯淡的。未來我就不做預測了,免得你們罵我。
電影是一種追求細節的藝術。從人物的著裝到每一個場景設計和對白,都是經過無數人嘔心瀝血弄出來的。看上去非常合情合理的鏡頭,背后蘊藏著的是無數次Cut Off。這僅僅是電影前期攝制 ,接下來就是后期制作(包括特效和音樂,還有最重要的剪輯)。制作完成以后,接下來就是電影發行。什么樣的檔期應該發什么樣的電影,發行公司都很清楚,我也是外行就不多說了。
當電影發行以后,咱們就可以去電影院觀影了。如果一部好電影,觀眾看過之后,就會有水花效果,一個人可以鼓動周圍的所有人去看。如果是一部爛電影,就沒有這種水花效果。對于這種效果模型,你可以想象為一個東西扔到水里的效果。好電影就是一個巨大的石頭,扔下去水花四濺久久不能平靜。爛電影就是一坨屎,扔下去馬上就沉了。(暫時不考慮物理定律)
大數據是怎么預測電影票房的呢?他們要做特征提取,把一部電影里面的所有特征全部提取出來。例如,演員,導演,監制。。。。。。。,然后根據這些特征去找數據。這里面用的算法模型大部分都是計算廣告學的點擊率預測模型,如果把觀眾是否觀看電影抽象為0和1的話,計算廣告學的理論很容套進去。理想情況是每一個特性下面的數據量足夠,不稀疏。然后他們編寫各種代碼,各種調試。最后,他們給出了一個報告,中間有各種圖表。好的團隊,會在結尾的時候標注在多大概率下,票房是多少。
其實細心的人都會問,大數據預測的這些人他們看過這個電影么??
bingo,bingo。。。。。。
我告訴你們,這些人都沒有看過他們要預測電影。那么問題來了,“沒有看過能預測個啥啊?有沒有基本的常識啊?”
真讓您說對了,中國就是缺乏這種最基本的常識,一群工程師連電影都沒有看過,就跑過去預測電影票房。
您又要說“真是悲哀”。崔老師認為一點也不悲哀,投資人拿錢、工程師干活、促進GDP、哪里悲哀都是贏家。這是一個win-win的生意了。如果長期看的話,這種是對未來創新有毀滅性的,雖然中國的天使都是PE。
順便噴一下豆瓣。豆瓣做為一個盈利性機構,其實他的影評都有一部分就是掛著羊頭賣狗肉。韓寒的后會無期在沒有上映的時候,就評分8.0了,你們還有節操么?還能要點臉么?
之所以大數據不能衡量電影票房,最重要的是電影是一個最感性的東西,是不能用理性的指標來衡量的。
通常一個電影沒有任何巨星,但是它有感人的劇情、真實的場景、能與你共鳴的對白。上面這些都不能通過指標來量化。例如感人的劇情,0.5是感人還是不感人??
還有在電影宣傳期那些出色的營銷手段,你怎么量化?眼花撩換的海報你能量化么?
讀到這里你會說,“就是嘛,這么感性的東西怎么能用冷冰冰的數字來衡量”。
以上就是我從一個大數據專業人員的角度,為你解讀為什么電影票房不能用大數據預測。
所有的打賞收入,都作為捐款cover一位美女的醫療費用(這美女是我大學時的小伙伴,現在因為得了骨癌,需要大家的幫助)。