亚洲欧洲日产国码二区在线,午夜视频免费国产在线,精品一区二区在线欧美日韩

大數(shù)據(jù)改變經(jīng)濟(jì)預(yù)測范式

責(zé)任編輯：editor006

作者：蔡躍洲

2015-12-09 17:24:51

摘自：中國社會科學(xué)網(wǎng)

談及搜索數(shù)據(jù)在經(jīng)濟(jì)預(yù)測中的應(yīng)用，必然離不開對谷歌趨勢（Google Trends）數(shù)據(jù)的介紹。除了宏觀經(jīng)濟(jì)關(guān)聯(lián)指數(shù)的構(gòu)造和分析外，媒體文本數(shù)據(jù)還被廣泛應(yīng)用于對金融市場的相關(guān)變化進(jìn)行預(yù)測。

　　搜索數(shù)據(jù)的應(yīng)用提高預(yù)測精度

談及搜索數(shù)據(jù)在經(jīng)濟(jì)預(yù)測中的應(yīng)用，必然離不開對谷歌趨勢（Google Trends）數(shù)據(jù)的介紹。谷歌趨勢數(shù)據(jù)是針對某個地區(qū)不同時間特定關(guān)鍵詞查詢數(shù)量生成的查詢指數(shù)，其構(gòu)造過程大致如下：（1）計算查詢份額（Query Share），即某個地區(qū)某個時間段包含某個關(guān)鍵詞的查詢數(shù)量占所有查詢的比重；（2）生成查詢指數(shù)（Query Index），將一段時間內(nèi)查詢份額的最高值標(biāo)準(zhǔn)化為100，并將初始時點的查詢份額標(biāo)準(zhǔn)化為0。谷歌將搜索查詢分成30個一級大類，并進(jìn)一步細(xì)分為250個二級類別，這樣便可很容易獲得數(shù)百個谷歌趨勢查詢指數(shù)，查詢指數(shù)數(shù)據(jù)最早可追溯到2004年1月1日。

谷歌趨勢數(shù)據(jù)最早是由著名經(jīng)濟(jì)學(xué)家哈爾·瓦里安（Hal Varian）引入到經(jīng)濟(jì)預(yù)測中的。自2008年以來，瓦里安教授與其合作者發(fā)布了一系列利用谷歌趨勢數(shù)據(jù)進(jìn)行經(jīng)濟(jì)預(yù)測的研究成果，預(yù)測內(nèi)容涉及汽車及零部件銷售額、失業(yè)救濟(jì)申領(lǐng)人數(shù)、旅行目的地、消費者信心等。其基本思路是，在傳統(tǒng)的時間序列預(yù)測模型基礎(chǔ)上，加入谷歌趨勢生成的查詢指數(shù)，以提高預(yù)測精度。瓦里安教授的預(yù)測實踐表明，借助谷歌趨勢，能夠有助于即時預(yù)測精度的提高。相關(guān)事例還表明，在出現(xiàn)拐點時期，加入谷歌趨勢指數(shù)作為變量，也能取得較好的預(yù)測效果。這恰恰是以計量經(jīng)濟(jì)模型為基礎(chǔ)的常規(guī)經(jīng)濟(jì)預(yù)測一直未解決的難題。

近兩年來，越來越多的歐美機(jī)構(gòu)及學(xué)者將谷歌趨勢數(shù)據(jù)運用于不同類型經(jīng)濟(jì)活動的預(yù)測中。例如，德國勞工研究所的學(xué)者利用谷歌趨勢數(shù)據(jù)對住房貸款違約比例進(jìn)行即時預(yù)測，發(fā)現(xiàn)效果明顯優(yōu)于基礎(chǔ)的自回歸模型。愛爾蘭中央銀行的學(xué)者利用谷歌趨勢的相關(guān)概率指標(biāo)，對其宏觀經(jīng)濟(jì)預(yù)測模型進(jìn)行隨時調(diào)整，成功提高了即時預(yù)測精度。

除了谷歌趨勢數(shù)據(jù)外，其他搜索引擎如必應(yīng)、百度等，其搜索數(shù)據(jù)也被用于經(jīng)濟(jì)預(yù)測。百度公司推出了與谷歌趨勢類似的“百度指數(shù)”，相關(guān)數(shù)據(jù)指標(biāo)也被用于經(jīng)濟(jì)預(yù)測。2014年，中國科學(xué)院大學(xué)的幾位學(xué)者將“百度關(guān)鍵字指數(shù)”納入到他們開發(fā)的“中國股票市場預(yù)測模型”中，將預(yù)測平均誤差值從之前的3.8%降低到1.4%。

媒體數(shù)據(jù)的應(yīng)用增強(qiáng)預(yù)測時效性

大數(shù)據(jù)處理和分析技術(shù)的快速發(fā)展，使得來自社交網(wǎng)站、在線新聞等渠道的文本數(shù)據(jù)也能夠被有效整理和量化，并用于經(jīng)濟(jì)預(yù)測。

荷蘭統(tǒng)計局（Statistics Netherlands）的學(xué)者嘗試?yán)蒙缃幻襟w數(shù)據(jù)對消費者信心指數(shù)進(jìn)行預(yù)測。其大致思路是：（1）收集所有推特（Twitter）、臉書（Facebook）、領(lǐng)英（LinkedIn）等社交媒體數(shù)據(jù)，分別構(gòu)造“基于社交媒體數(shù)據(jù)的消費者信心指數(shù)”；（2）分析官方統(tǒng)計調(diào)查得到的“消費者信心指數(shù)”與社交媒體消費者信心指數(shù)之間的相關(guān)性；（3）基于兩者之間的相關(guān)關(guān)系，以社交媒體“消費者信心指數(shù)”對官方統(tǒng)計“消費者信心指數(shù)”進(jìn)行預(yù)測。根據(jù)分析，以臉書數(shù)據(jù)構(gòu)造的指數(shù)與官方指數(shù)之間不僅高度相關(guān)且存在協(xié)整關(guān)系。以推特數(shù)據(jù)構(gòu)造的指數(shù)與官方指數(shù)同樣存在相關(guān)關(guān)系。與官方指數(shù)相比，社交媒體指數(shù)最大的優(yōu)勢在于及時性，能夠以兩周一次甚至一周一次的頻率構(gòu)造并發(fā)布。

比利時安特衛(wèi)普大學(xué)的學(xué)者通過文本挖掘（Text mining）技術(shù)對與宏觀經(jīng)濟(jì)復(fù)蘇相關(guān)的“經(jīng)濟(jì)政策不確定性指數(shù)”（Economic Policy Uncertainty Index，EPU）進(jìn)行改造。文本挖掘的對象是六種來源的佛蘭芒語新聞報道。改造后的EPU可用于分析和預(yù)測宏觀經(jīng)濟(jì)復(fù)蘇情況。

除了宏觀經(jīng)濟(jì)關(guān)聯(lián)指數(shù)的構(gòu)造和分析外，媒體文本數(shù)據(jù)還被廣泛應(yīng)用于對金融市場的相關(guān)變化進(jìn)行預(yù)測。倫敦大學(xué)學(xué)院的學(xué)者對路透新聞檔案、經(jīng)紀(jì)人報告、英格蘭銀行內(nèi)部市場評論等文本進(jìn)行挖掘，聚焦于那些有可能推動金融市場行為變化的敘述和情緒。該學(xué)者發(fā)現(xiàn)，當(dāng)興奮情緒很高而焦慮情緒很少時，往往是金融危機(jī)發(fā)生的警示信號。法蘭克福大學(xué)的學(xué)者以臉書國民幸福指數(shù)（Facebook’s Gross National Happiness，GNH）為基礎(chǔ)構(gòu)造“投資信心指數(shù)”（Index of Investment Sentiment）。而GNH本身又是通過對臉書中的情感語匯進(jìn)行文本分析而構(gòu)造出來的。研究發(fā)現(xiàn)，利用GNH能預(yù)測美國股票市場每天回報和交易量的變化情況；一個標(biāo)準(zhǔn)差的GNH指數(shù)增加大致能夠帶來次日股票指數(shù)11.23個點的上漲。

其他可挖掘在線數(shù)據(jù)十分豐富

除了搜索數(shù)據(jù)、網(wǎng)絡(luò)媒體數(shù)據(jù)外，在線銷售及支付數(shù)據(jù)、衛(wèi)星遙感數(shù)據(jù)、郵政快遞數(shù)據(jù)等也被應(yīng)用于經(jīng)濟(jì)預(yù)測中。

美國麻省理工學(xué)院的學(xué)者領(lǐng)導(dǎo)了一個名為“十億價格”（Billion Prices Project，BPP）的研究項目。該項目與網(wǎng)絡(luò)零售商合作，每天下載成千上萬種在線零售商品的實時價格，生成每天的價格指數(shù)，可以實現(xiàn)以每天一次的頻率發(fā)布價格變動和通貨膨脹數(shù)據(jù)。利用BPP在線價格指數(shù)，可以較為準(zhǔn)確地判斷出未來一定時期特別是2—3個月時間內(nèi)的通貨膨脹變化趨勢。最值得一提的是，BPP在線價格指數(shù)在預(yù)測通脹趨勢變化拐點方面特別有效。

加拿大麥吉爾大學(xué)的學(xué)者利用包括銀行卡在內(nèi)的電子支付大數(shù)據(jù)，通過多個模型的不同組合對加拿大GDP進(jìn)行即時預(yù)測；并以此項工作為基礎(chǔ)構(gòu)建了一個全新的GDP月度數(shù)據(jù)庫，預(yù)測精度顯著提高。

萬國郵政聯(lián)盟（Universal Postal Union，UPU）的學(xué)者將國際郵政物流體系每天所產(chǎn)生的商品交換數(shù)據(jù)，與每日的國際匯率變動數(shù)據(jù)相結(jié)合，對國際間的電子商務(wù)套利行為進(jìn)行預(yù)測分析。這一嘗試表明，利用國際郵政物流數(shù)據(jù)有助于提高預(yù)測能力。

在澳大利亞，其官方統(tǒng)計部門正在采取相關(guān)措施，以便將特定來源的大數(shù)據(jù)納入到常規(guī)官方統(tǒng)計體系中。在統(tǒng)計實踐中，澳大利亞統(tǒng)計局已經(jīng)著手構(gòu)建基于大數(shù)據(jù)的統(tǒng)計推斷框架。一個典型的例子就是，利用遙感數(shù)據(jù)對澳大利亞的農(nóng)業(yè)數(shù)據(jù)進(jìn)行統(tǒng)計和預(yù)測。

經(jīng)濟(jì)預(yù)測中大數(shù)據(jù)應(yīng)用的挑戰(zhàn)

近年來各國機(jī)構(gòu)和學(xué)者的探索表明，利用各種不同來源的大數(shù)據(jù)能夠有效提高經(jīng)濟(jì)預(yù)測的精度，在某些領(lǐng)域甚至能夠進(jìn)行拐點預(yù)測。不過，在經(jīng)濟(jì)預(yù)測實踐中如何更加有效地利用大數(shù)據(jù)仍然面臨諸多挑戰(zhàn)。

第一，大數(shù)據(jù)的可獲得性將直接限制大數(shù)據(jù)在經(jīng)濟(jì)預(yù)測中的推廣應(yīng)用。無論是政府部門數(shù)據(jù)還是私人公司數(shù)據(jù)，都不可能為經(jīng)濟(jì)預(yù)測者隨意使用；對于私人公司數(shù)據(jù)來說，通常需要通過簽訂合作協(xié)議并嚴(yán)格執(zhí)行保密條款才能獲取數(shù)據(jù)；至于政府部門公共數(shù)據(jù)，大多存在開放限制，往往需要通過機(jī)構(gòu)內(nèi)部人員才能獲取數(shù)據(jù)。

第二，來自搜索查詢、社交媒體等不同渠道的非結(jié)構(gòu)化原始數(shù)據(jù)既雜亂無章，又存在非常復(fù)雜的內(nèi)在關(guān)聯(lián)，將其提煉并轉(zhuǎn)換為結(jié)構(gòu)化的有用信息需要有足夠的技巧，并且耗費大量人力、物力和財力。

第三，充裕的數(shù)據(jù)信息還會帶來過度識別問題。以谷歌趨勢數(shù)據(jù)為例，谷歌每天產(chǎn)生的數(shù)十億個查詢記錄，即便利用谷歌趨勢進(jìn)行分類仍有數(shù)百個指數(shù)；而每個指數(shù)即便從2004年1月開始，至今也最多不過一百多個序列。變量個數(shù)大于序列長度，必然導(dǎo)致過度識別問題。

第四，同任何傳統(tǒng)經(jīng)濟(jì)預(yù)測一樣，大數(shù)據(jù)的應(yīng)用也無法解決“盧卡斯批評”問題。雖然大數(shù)據(jù)提高了預(yù)測精度，但如果預(yù)測模型被用于決定采用何種干預(yù)政策，那么最終的實際結(jié)果可能不會如模型所預(yù)測，因為政策的變化會影響到后續(xù)行為，而變量之間的關(guān)系恰恰是由相應(yīng)數(shù)據(jù)所反映。

谷歌經(jīng)濟(jì)預(yù)測自回歸模型