1. 大數據的"大"
大數據最顯著的特征就是 數據量大 ( large scope ) + 即時性 ( real time data )
比如: 你在超市收銀機的數據, 網購的記錄, 或者在線閱讀( 比如在知乎的關注文章 ) 等等.
同時大數據時代帶來了很多新的數據類型 (新在于對比以往經濟學上運用的數據)
比如: 社交網絡上發的微博或者朋友圈里所包含的文字數據 (這是以往經濟分析中不太會使用的).
計量經濟中的數據結構經常是矩陣型的, 也就是說通常收集 N 個觀察項, K 個變量 (且 K << N)
大數據的數據結構顯然不是這樣, 很多情況下 K > N
計量中經常假設觀察項之間是獨立的, 但是在社交網絡中觀察項之間卻是經?;ハ嗦摻Y, 計量經濟學未來在使用社交網絡數據時如何處理這種觀察項間的影響將成為一個關鍵.
2. 目前時髦的大數據應用: 預測建模 ( predictive modeling )
簡而言之, 預測建模可以理解為: 已知 N 個觀察 通過 K 個預測變量 來推導出相關性最強的 N 個結果.
大數據時代數據雖然豐富多了, 但是數據的質量卻很容易下降.
比如: 縱使你有全國層次上百萬級的觀察項, 而你所研究的課題卻是在市縣層次. 容易造成大量不相關且描述不夠詳盡的數據.
而且這種統計方法面臨一個權衡取舍:
在 K > N 的時候, 模型的樣本外預測效果 ( out-of-sample performance ) 就會很差. 但是模型的樣本內預測效果 (in-sample performance) 會很好.
而當經濟學家考慮運用機器學習的方法時, 很容易想到盧卡斯批評( Lucas Critique ): 如果一個預測模型通過收集市場上已知的經濟行為, 從而用來預測最優的政府干預政策時, 預測的結果可能并不準確, 因為預測出來的干預政策會改變市場的經濟行為( 而這些正是和原模型中相關聯的 )
3. 大數據時代已經為實證經濟學研究提供了新的思路
美國統計局調查通貨膨脹是使用派發問卷的方式, 回收的數據再分類到不同的通貨膨脹指標中 (eg CPI). 大數據領域的 Billion Price Project ( BPP ) 運用實時的在線商店數據提供
一種 CPI 的替代指標 (這一指標在美國被驗證 BPP 與 CPI 有很強的相關性).
其他的還有穆迪分析通過 MasterCard 和 Visa 的 Spending Pulse 來提供行業就業率的觀測指標.
然而這些大數據還不夠完美, 很顯然這些數據的樣本本身就不具有代表性. 比如: 利用 MasterCard 和 Visa 推導出的就業率指數首先就要求被調查者要至少有一張 MasterCard 或者 Visa.
4. 對經濟學家的挑戰
數據獲取: 公共領域以及政府數據是否容易獲得.
數據管理以及編輯能力: 經濟學家是否有能力快速的把大數據高效地應用在經濟學思想.
最重要的, 急需開發出創新的數據總結, 描述和分析的方法.