范劍青
什么是大數據?大數據究竟能做什么?大數據時代的機會與挑戰分別是什么?
如今面對無處不在的大數據,卻很少有人可以清楚地回答出以上這三個問題。
日前,以“大數據時代,統計無處不在”為主題的問學講堂在復旦大學管理學院舉行。在此期間,《國際金融報》記者遇見了美國普林斯頓大學運籌與金融工程系系主任范劍青。由于對統計學重要而廣泛的貢獻,范劍青教授榮獲2000年度的COPSS總統獎,該獎為國際統計學領域的最高獎,于2008年當選國際數理統計學會(IMS)主席,是該會創會以來70多位主席中惟一的中國人。
在這位統計學大師級的教授眼中,大數據不僅大,而且很復雜,既有結構性的數據,也有非結構性的數據,與生物、工程、自然科學、社會科學等息息相關。
在接受《國際金融報》記者的采訪中,范劍青指出,大數據有兩方面富有挑戰的問題,異質性和共性。異質性能提供個性化的產品、服務等,共性則存在于不斷的變化之中。“研究大數據,不僅能夠預測未來,更重要的是探索其中的因果聯系。”
大數據沒那么美好
大數據到底有多大?一組名為“互聯網上一天”的數據告訴我們,一天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多;發出的社區帖子達200萬個;賣出的手機為37.8萬臺,高于全球每天出生的嬰兒數量37.1萬……
更重要的是,數據已經不僅僅是數據本身了,這儼然是一場革命。
“大數據的影響包括數據獲得、 數據管理、計算基礎建設、計算優化等方面。大數據對統計分析的影響則包括噪聲疊加、假相關、內生性、誤差、異質性等。”范劍青告訴記者,在大數據時代,機會與挑戰并存。
大規模的數據集很有誘惑力,能促使人們展開積極的分析,而且分析者希望能夠從中獲取有獲獎可能性的科學發現。但有時,利用大數據意味著最終得到的是糟糕數據。要從大數據中得出高見,給計算機科學、統計推斷方法甚至科學方法本身帶來了巨大的挑戰。
“當然,計算機領域的科學家通過開發出卓越的計算能力和信息存儲技術,讓大數據的積累成為可能。但是收集數據及存儲信息與理解這些內容并不是一回事。”范劍青指出,了解大數據的真正意義并不等同于對小數據進行解讀,就像明白鳥群的行為特征并不能解釋一只孤獨的海鷗所發出的叫聲一樣。
范劍青指出,標準的統計檢驗和計算程序原本是要分析從大的群體中提取的小樣本,從而得出科學推斷。但是大數據提供的樣本極大,有時甚至包括整個群體或者群體的大部分。任務之艱巨會給實施計算過程從而完成統計檢驗帶來問題。
“統計學的夢想,在于找到有效的統計方法,運用合適的計算手段,預測未來。”范劍青向記者表達出了他的統計學夢想。
無法取代傳統收集法
目前,阿里、騰訊、京東由于坐擁電商的交易數據、社交信息數據等,都在“試水”利用大數據來搭建信用評價體系。但事實上,基于社交網絡上的數據來進行信用評分、描繪一個人的畫像,在國際上也沒有成功的先例。那么,互聯網社交數據究竟靠譜嗎?
在范劍青在采訪時候表示,“大數據肯定對于信用評估非常有幫助,比如在網上購買了什么東西、社交網絡上有哪些朋友、你的朋友的違約程度,把這些相關數據整合在一起,顯然可以勾勒出一個人基本的信用情況。但我認為,這也不太可能完全取代傳統的數據收集方法,因為人們在網上的行為跟平時在網下的行為不完全是一樣的。”
范劍青指出,針對個人信用的評價,美國至少有3家公司在收集相關數據,還有一個獨立的公司把這些數據綜合在一起。其實,非常關鍵的就是數據收集,因為人的行為是很多樣化的。“在這方面,中國可能剛剛開始起步,最重要的還是央行的征信系統。但我相信,線上與線下的結合可以對于個人信用作出更為合理的評價。”
“過去10年至15年來,基于互聯網的信息技術革命已給全人類帶來了顛覆性影響,信息科學從某種程度上說,已成為推動經濟發展的一個重要引擎。現在還可以預見的是:在未來的幾十年時間里,更多與經濟社會發展相關的決策,都會被大數據推著走。”范劍青表示,對大數據的研究固然涉及眾多學科、領域,但按照目前美國學術界的共同看法,數學、統計學和計算機科學的三者結合是構成分析、研究大數據的基礎。
防范金融系統風險
金融危機之后,各國都提高了對金融系統性風險的防范意識,其中大數據便是一個非常有效的工具。
作為大數據領域的專家, 范劍青多次受美國證監會邀請講授大數據金融相關知識。“金融危機之后,美國相繼成立了各種金融研究辦公室,目的就是統籌收集各種公司的信貸數據,以及持有的相關金融產品的數據,就像防范恐怖襲擊一樣,給予金融風險不同等級的社會警示。”
事實上,大數據為金融行業帶來的變革將首先體現在兩個方面:精準營銷。大數據改變信息結構,金融機構通過對客戶數據的收集和分析,推出更有個體針對性的服務;風險管控。大數據改變風險管理模式,云計算推進最精確和最低成本的風險測算。這也進一步意味著運營效率和績效的提升。
2012年,華爾街“德溫特資本市場”公司利用電腦程序分析全球3.4億社交賬戶的留言,進而判斷民眾情緒并決定如何處理手中的股票。判斷便是:如果所有人似乎都高興,那就買入;如果大家的焦慮情緒上升,那就拋售。2012年第一季度,公司因此獲得了7%的收益率。
然而,對于利用大數據預知市場,范劍青仍然持保留意見。
“預知市場是很困難的,這其中包括兩方面內容,一是投資,二是投機。在投資方面,一些歷史數據或許可以有所幫助,比如市盈率、利率、市場信貸情況等,這些數據對于市場是否存在泡沫可以有一個大概的指導,但金融市場間的定價體系很多程度上還依賴于投資者行為,而投資者行為中究竟有多少投機成分,至少目前沒有一個模型可以精確地預測。”范劍青如此指出。
值得注意的是,大數據的發展推動了互聯網金融、移動金融等各種新業態的不斷涌現。不少以技術為主導的互聯網新興企業也將參與到金融行業中來,一起分享大數據帶來的饕餮盛宴。
“互聯網的盛行,使得很多操作和信息披露變得特別快,買賣交易也變得更迅速,許多過去需要用幾年才能完成的事情,在當今市場中過程便會縮得特別短。”范劍青指出,這也意味著市場的波動性可能會在互聯網時代的影響下變得比前幾年更大。