2014巴西世界杯落下帷幕,德國戰車最終捧走了大力神杯。賽場之外,最受矚目的莫過于互聯網巨頭利用大數據預測賽事結果。本屆世界杯共有4家科技公司參與了賽事預測。其中,百度大數據以全場67%、淘汰賽94%的準確率完勝對手。
大數據是如何預測世界杯賽事結果的?幾家公司之間數據預測模型有何異同?除了預測世界杯,大數據還能做什么?目前的大數據應用又離精準預測還有多遠?
Q1
大數據
如何玩轉世界杯
足球運動是世界上最早應用數據輔助決策的領域之一,也是運用大數據最成功的領域之一。
本屆世界杯,體育數據分析師兼作家本杰明·莫里斯從OPTA提供的2010年世界杯以來22904場正式比賽的數據中,研究了梅西和其他16574名足球運動員與足球相關的所有數據,得出了為什么梅西是最佳球員的結論。
他對比了梅西和其他16574名運動員在進球數、助攻數、傳球數、射門成功率、過人成功率、點球成功率等幾個方面的數據,得出了上述結論。以射門成功率為例,通過計算GAA(goals above acerage)即表示實際進球數和可能要進球的場景之間的差距。GAA數值越大表明被浪費的射門機會越少,梅西的GAA獨占鰲頭,可看出他浪費的射門機會非常之少。
此次世界杯上,共4家科技公司參與了比賽結果預測,分別是百度、微軟、谷歌、高盛。
華南理工大學大數據研究中心副主任田翔接受南方日報采訪時表示,大數據預測的邏輯基礎是每一種非常規的變化事前一定有征兆,如果找到了征兆與變化之間的規律,就可以進行預測。“大數據預測有4個核心步驟,數據收集、建立模型、統計分析、數據挖掘。”
記者從百度大數據團隊獲悉,為了預測更精準,大數據研究院特別派遣了資深數據科學家團隊,利用百度大數據全面搜索過去5年內全世界987支球隊的3.7萬場比賽數據,并與國內著名彩票網站樂彩網、歐洲必發指數獨家數據供應商Spdex等公司建立數據戰略合作伙伴關系,將博彩市場數據融入到預測模型中,構建了本次“世界杯預測”產品的足球賽事預測模型。
預測模型共涉及到19972名球員和1.12億條相關數據,所參考的數據來自百度搜索數據、球隊基礎數據、球員基礎數據、賠率市場數據等。分析的球隊不僅包括207支國家隊,還囊括了歐洲、南美、亞洲等聯賽俱樂部及低級別球隊信息。
百度大數據方面表示,預測模型依據5個指標進行構建:球隊實力、近期狀態、主場效應、博彩數據、大賽能力。
世界杯期間,還有其他眾多公司都進行了世界杯預測。微軟預測通過分析Betfair博彩交易市場數據來構建預測模型;擅長投資分析的高盛,通過對自1960年以來的正式國際足球比賽數據的回歸分析,通過泊松模型分析了每場小組賽的比分情況;谷歌預測數據則主要來自Opta Sports的海量賽事數據,通過球隊實力的排序模型,以及基于各個國家球迷到巴西的數量和熱情度的主場優勢模型,來構建其最終的預測模型。
Q2
大數據預測還能做什么
撇開預測是否準確,互聯網公司的大數據打破了由傳統博彩業壟斷的信息規則。大數據預測的普及,讓原本的信息不對稱性減弱了。對此,田翔認為,大數據預測的出現,讓博彩業的賠率算法變得不那么神秘。互聯網企業和博彩公司未來合作應該是趨勢,“博彩公司提供數據分析,互聯網公司提供技術支持”。
不僅僅是博彩業,大數據在其他領域的應用也已經開始,最近的一個合作對象是文化影視企業。
記者了解到,大數據向影視方面的跨界早有先例。娛樂美國視頻網站Netflix基于大數據投資拍攝的電視劇《紙牌屋》一夜爆紅,讓業界意識到數據分析對影視創作的價值。而谷歌曾公布的電影票房預測模型號稱可以提前一個月預測電影上映首周的票房收入,且準確度高達94%。
業內人士分析,未來影院的電影排片、引進電影的選擇,甚至是電影開拍前的選角、題材等都可以根據大數據所提供的預測來進行,令產業的運行更高效、經濟效益最大化。
此外,大數據還在城市預測、景點預測、高考預測、人口流動、醫療保健、疾病預防等諸多領域開始應用。對于大數據分析在其他各方面的應用,田翔認為總體而言是一個大的趨勢。比如,通過百度人口遷徙圖可以了解某個城市的人員流入流出情況,從而判斷城市發展潛力,對于房地產和相關產業決策影響較大。同時,還可以通過搜集用戶的偏好和消費習慣做針對性的營銷活動。
Q3
大數據離精準預測有多遠
《大數據時代》一書中指出,“大數據本身探尋的是一種趨勢,而非精準性,若要無限接近統計結果,必須讓大數據與精細的傳統統計方法互補,而非兩者相互替代。”
田翔認為,數據共享度和覆蓋率的不一致,導致不同產業之間大數據的預測精確度也不一樣。他進一步解釋,大數據分析在金融和醫療方面開展比較困難,因為各金融機構、醫院之間很難做到數據共享,單一機構所做的數據搜集都只能得到一個較為片面的數據。“這也是中國大數據水平和國際水平存在差距的根本原因。”田翔表示,當前國內并不缺資金和技術,主要是數據門檻較高,而數據的跨行業和行業自身的打通對于大數據的發展來說非常重要。
此外,中國大數據研究起步較晚也是造成差距的一個原因。田翔告訴記者,國內大數據分析仍處于數據采集嘗試階段。
對于目前大數據預測所存在的問題,中投顧問研究總監郭凡禮則認為,主要是缺乏數據共享平臺和完善的預測標準。一方面,大數據基礎尚不夠牢固,企業之間、政府部門之間、行業協會之間尚未形成良好的溝通交流平臺,預測之時難免出現以偏概全的問題。另一方面,當下大數據尚未形成完善的預測標準,對于產業發展趨勢、企業未來走向、民眾消費方式選擇等預測還缺乏足夠的前瞻性。
此外,隱私保護與數據精準之間的平衡也是大數據預測無法避開的話題。數據共融共通就要開放市場,這個市場不僅僅是企業之間開放,個人也要開放。而個人數據的開放則可能存在安全保密和倫理隱私雙重問題。郭凡禮認為,如何保護用戶的隱私,又保證大數據預測的精準度,是當前階段大數據應用的一大難題。