精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

大數據時代對統計學和經濟學的影響

責任編輯:editor006 |來源:企業網D1Net  2015-07-08 16:23:44 本文摘自:愛數據

大數據

  1. 大數據的"大"

大數據最顯著的特征就是 數據量大 ( large scope ) + 即時性 ( real time data )

比如: 你在超市收銀機的數據, 網購的記錄, 或者在線閱讀( 比如在知乎的關注文章 ) 等等.

同時大數據時代帶來了很多新的數據類型 (新在于對比以往經濟學上運用的數據)

比如: 社交網絡上發的微博或者朋友圈里所包含的文字數據 (這是以往經濟分析中不太會使用的).

計量經濟中的數據結構經常是矩陣型的, 也就是說通常收集 N 個觀察項, K 個變量 (且 K << N)

大數據的數據結構顯然不是這樣, 很多情況下 K > N

計量中經常假設觀察項之間是獨立的, 但是在社交網絡中觀察項之間卻是經?;ハ嗦摻Y, 計量經濟學未來在使用社交網絡數據時如何處理這種觀察項間的影響將成為一個關鍵.

2. 目前時髦的大數據應用: 預測建模 ( predictive modeling )

簡而言之, 預測建模可以理解為: 已知 N 個觀察 通過 K 個預測變量 來推導出相關性最強的 N 個結果.

大數據時代數據雖然豐富多了, 但是數據的質量卻很容易下降.

比如: 縱使你有全國層次上百萬級的觀察項, 而你所研究的課題卻是在市縣層次. 容易造成大量不相關且描述不夠詳盡的數據.

而且這種統計方法面臨一個權衡取舍:

在 K > N 的時候, 模型的樣本外預測效果 ( out-of-sample performance ) 就會很差. 但是模型的樣本內預測效果 (in-sample performance) 會很好.

而當經濟學家考慮運用機器學習的方法時, 很容易想到盧卡斯批評( Lucas Critique ): 如果一個預測模型通過收集市場上已知的經濟行為, 從而用來預測最優的政府干預政策時, 預測的結果可能并不準確, 因為預測出來的干預政策會改變市場的經濟行為( 而這些正是和原模型中相關聯的 )

3. 大數據時代已經為實證經濟學研究提供了新的思路

美國統計局調查通貨膨脹是使用派發問卷的方式, 回收的數據再分類到不同的通貨膨脹指標中 (eg CPI). 大數據領域的 Billion Price Project ( BPP ) 運用實時的在線商店數據提供

一種 CPI 的替代指標 (這一指標在美國被驗證 BPP 與 CPI 有很強的相關性).

其他的還有穆迪分析通過 MasterCard 和 Visa 的 Spending Pulse 來提供行業就業率的觀測指標.

然而這些大數據還不夠完美, 很顯然這些數據的樣本本身就不具有代表性. 比如: 利用 MasterCard 和 Visa 推導出的就業率指數首先就要求被調查者要至少有一張 MasterCard 或者 Visa.

4. 對經濟學家的挑戰

數據獲取: 公共領域以及政府數據是否容易獲得.

數據管理以及編輯能力: 經濟學家是否有能力快速的把大數據高效地應用在經濟學思想.

最重要的, 急需開發出創新的數據總結, 描述和分析的方法.

關鍵字:數據獲取數據類型統計學

本文摘自:愛數據

x 大數據時代對統計學和經濟學的影響 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

大數據時代對統計學和經濟學的影響

責任編輯:editor006 |來源:企業網D1Net  2015-07-08 16:23:44 本文摘自:愛數據

大數據

  1. 大數據的"大"

大數據最顯著的特征就是 數據量大 ( large scope ) + 即時性 ( real time data )

比如: 你在超市收銀機的數據, 網購的記錄, 或者在線閱讀( 比如在知乎的關注文章 ) 等等.

同時大數據時代帶來了很多新的數據類型 (新在于對比以往經濟學上運用的數據)

比如: 社交網絡上發的微博或者朋友圈里所包含的文字數據 (這是以往經濟分析中不太會使用的).

計量經濟中的數據結構經常是矩陣型的, 也就是說通常收集 N 個觀察項, K 個變量 (且 K << N)

大數據的數據結構顯然不是這樣, 很多情況下 K > N

計量中經常假設觀察項之間是獨立的, 但是在社交網絡中觀察項之間卻是經?;ハ嗦摻Y, 計量經濟學未來在使用社交網絡數據時如何處理這種觀察項間的影響將成為一個關鍵.

2. 目前時髦的大數據應用: 預測建模 ( predictive modeling )

簡而言之, 預測建模可以理解為: 已知 N 個觀察 通過 K 個預測變量 來推導出相關性最強的 N 個結果.

大數據時代數據雖然豐富多了, 但是數據的質量卻很容易下降.

比如: 縱使你有全國層次上百萬級的觀察項, 而你所研究的課題卻是在市縣層次. 容易造成大量不相關且描述不夠詳盡的數據.

而且這種統計方法面臨一個權衡取舍:

在 K > N 的時候, 模型的樣本外預測效果 ( out-of-sample performance ) 就會很差. 但是模型的樣本內預測效果 (in-sample performance) 會很好.

而當經濟學家考慮運用機器學習的方法時, 很容易想到盧卡斯批評( Lucas Critique ): 如果一個預測模型通過收集市場上已知的經濟行為, 從而用來預測最優的政府干預政策時, 預測的結果可能并不準確, 因為預測出來的干預政策會改變市場的經濟行為( 而這些正是和原模型中相關聯的 )

3. 大數據時代已經為實證經濟學研究提供了新的思路

美國統計局調查通貨膨脹是使用派發問卷的方式, 回收的數據再分類到不同的通貨膨脹指標中 (eg CPI). 大數據領域的 Billion Price Project ( BPP ) 運用實時的在線商店數據提供

一種 CPI 的替代指標 (這一指標在美國被驗證 BPP 與 CPI 有很強的相關性).

其他的還有穆迪分析通過 MasterCard 和 Visa 的 Spending Pulse 來提供行業就業率的觀測指標.

然而這些大數據還不夠完美, 很顯然這些數據的樣本本身就不具有代表性. 比如: 利用 MasterCard 和 Visa 推導出的就業率指數首先就要求被調查者要至少有一張 MasterCard 或者 Visa.

4. 對經濟學家的挑戰

數據獲取: 公共領域以及政府數據是否容易獲得.

數據管理以及編輯能力: 經濟學家是否有能力快速的把大數據高效地應用在經濟學思想.

最重要的, 急需開發出創新的數據總結, 描述和分析的方法.

關鍵字:數據獲取數據類型統計學

本文摘自:愛數據

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 德令哈市| 巴林右旗| 永康市| 新和县| 西昌市| 濮阳市| 江源县| 云和县| 梁河县| 镇巴县| 龙川县| 海盐县| 静乐县| 贵南县| 凤庆县| 化德县| 藁城市| 临桂县| 仪征市| 名山县| 大城县| 滨州市| 周至县| 道真| 土默特左旗| 舒城县| 永州市| 西丰县| 晋中市| 赞皇县| 竹北市| 拉萨市| 巫山县| 锦屏县| 湖口县| 福海县| 阿拉善盟| 仙桃市| 榆林市| 华阴市| 甘谷县|