伴隨剛剛過去86屆奧斯卡獎,走紅了一位新的傳奇人物,大衛·羅斯柴爾德(David Rothschild),他不是演員、更不是導演,而是一位經濟學家。那么,奧斯卡怎么會和“IT”、“經濟學家”這些字眼兒扯上關系?
2013年,羅斯柴爾德猜中了奧斯卡全部24個獎項中19個的歸屬,今年的奧斯卡他再接再厲,一舉猜中了24個獎項中的21個,預測成功率已經高達88%,堪稱奧斯卡的預言大師。
奧斯卡的評獎規范相當繁瑣,有幾十頁之多;評審機構也分為二級金字塔形式,最高層是學院主席評審團,下設學院分支評審團,除了職業評委外,奧斯卡還包括一直龐大的自愿參與會員隊伍,每個分支自愿參與會員達到了五六千人次。
故而,想要成功預測奧斯卡獎花落誰家并不是件容易的事,那么,這位經濟學家是怎么辦到的?
不是占卜,而是大數據
羅斯柴爾德不止預測奧斯卡。在2012年的總統大選中,他成功猜對了51個選區中的50個區的結果,準確率高達98%,現在他在網站上主要發布體育方面的預測。羅斯柴爾德很少失手,因為他有個殺手锏叫“大數據”。
羅斯柴爾德的預測和影評人、影迷們的方法不同,他是純粹以數據說話。
羅斯柴爾德的通用預測方法是關注四個領域的數據:投票數據、預測市場數據、基本數據和用戶產生的數據,對于奧斯卡,則主要關注投票數據和用戶數據。這些數據來自哪?博彩網站、好萊塢證券交易所、各個前哨獎項、公開的用戶數據等等,然后建立極其復雜的數據模型,并且不斷更新數據、校正誤差、升級模型。
原來,這樣精準的預測并非是一種占卜式的預言,而是現代科技所產生的結果。
在網絡時代,每個人都會在互聯網上留下痕跡,幾何級的數據正在構建出一個新的大數據世界。自“大數據”概念被提出,越來越多的決策開始依賴于數據,而不是憑借主觀的分析和經驗,就如大數據傳道中經典的“啤酒和尿布”的故事,大數據正在悄悄改變人們的生活。
金像獎也能算出來?
無獨有偶,除了奧斯卡,華語電影中頗具分量的金像獎結果在“大數據”的力量下也要呼之欲出了。最近,一組CC Index平臺提供的數據深度解讀了三十三年來金像獎的一些數據:
最受關注影帝:最受網民關注的影帝包括周星馳、張國榮、劉德華、張家輝及謝霆鋒,本屆金像獎影帝張家輝也產生于其中。金像獎歷史上最強影帝當然非梁朝偉莫屬,他在此前已分別憑《重慶森林》、《春光乍泄》、《花樣年華》、《無間道》和《2046》五奪影帝。
最受關注影后:得獎最多的影后是張曼玉,她同樣也是網民關注度最高的影后。而緊隨其后的包括鞏俐、林青霞、章子怡及周迅。本屆金像獎影后由章子怡摘取。
最受關注導演:金像獎的最強導演當屬許鞍華,她先后憑《投奔怒海》、《女人四十》、《天水圍的日與夜》和《桃姐》奪取最佳導演的獎項。
最受關注影片:《一代宗師》橫掃12個獎項,遠超去年《寒戰》和之前《甜蜜蜜》9個獎的記錄。但是《一代宗師》在網絡關注度上卻不如上述兩個影片,在有些年份里,獲獎與否最倚仗的并不是自身實力,而是對手的強弱。
所公布的分析數據并不止這些,但從這部分結果中也能一窺金像獎中的一些規律,能夠說明的問題是,看似主觀的結果后面還是存在著一些客觀的原因和規律,如果能將所有這些“線索”以足夠合理的方法進行分析,得出看似不可能的精準預測結果并非是天方夜譚——這正是大數據分析的奇妙之處。
如今,高明的政客、風頭者、互聯網大佬,無不用大數據和分析為自己指明方向,因為在這個瞬息萬變的時代,經驗并不能決定一切,但是數據卻可以。實際上我們正在享受著大數據和分析所帶來的結果,在體育賽事中、在購物中、在出行中、在尋醫問藥中…大數據無處不在。
大數據分析依靠“工具”的力量
歸根結底,大數據不是占卜,不是經驗,而是一種科學的方法,或者稱之為一種工具。正如奧斯卡的預測結果出自Oscars Ballot Predictor應用,金像獎的分析結果出自于藍汛的CC Index+英特爾平臺,有效的工具是從大數據中挖掘到價值信息的前提。
如果將大數據比喻成礦石、原油等自然資源,它雖然龐大、但是粗糲,就如不經過提煉的原油無法直接使用,如果僅僅將大數據擺在那里,不去提煉,也不過是毫無價值的一些字節而已。
就像原油的處理要經過預處理、常壓蒸餾、減壓蒸餾等步驟一樣,大數據的處理也要經過獲取、移動、轉換、加載、分析、預測等過程,才能去蕪存菁,獲得大數據中的有用價值。其中,各個步驟中所應用的軟硬件工具實際上在起著決定性的作用,就如奧斯卡預測大師羅斯柴爾德在今年的預測中修正了很多技術和方法,才使得預測結果比去年更加精準。
合適的工具不僅能讓大數據分析的結果更加準確,同時也能加速這一過程。其中IT硬件基礎架構在起著重要作用,而大數據分析的需求也在加速著硬件平臺的進步,比如處理器技術和閃存技術等。
大數據依靠工具的力量,同時也在促進著工具的進步,這是一個相互作用的結果。如今,從芯片制造商,再到軟件工具提供商都在向大數據傾斜。比如英特爾最新發布的至強E7 v2處理器就定位于大數據分析,提供了更快的數據處理速度、支持實時高級分析功能、相比上一代提升3倍內存容量,提升4倍I/O以實現更出色的響應能力,大大加速了從大數據中提煉價值的過程。
小結
我們通常在說,科技改變生活,自信息技術誕生,人類生活已經發生了翻天覆地的變化:人們不必借助紙筆去記錄,無需出門即可獲得最新的信息,訂購商品只需打開網頁,人們的溝通也無需面對面,因為我們有著豐富的社交和溝通工具。
未來,每一個重要決策的制定、每一個重要趨勢的走向、每一個重要結果的預測,或許都能夠通過大數據分析等技術手段來實現,并且隨著處理芯片等技術的發展,這一過程會變得更加迅速,這樣人類的生活將變得更加便利和簡單。
但是,如若未來每一個結果都能夠實現精準的預測,是不是也將會讓人們失去很多的“未知”和“秘密”,或者說是對未來的一種期待?在現在這個大數據分析還剛見雛形的時候還無法預料,未來如何,讓我們拭目以待。