精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據數據分析 → 正文

對大數據分析錯誤認識那么多 舍恩伯格你知道嗎?

責任編輯:editor008 |來源:企業網D1Net  2014-04-03 09:01:18 原創文章 企業網D1Net

《企業網D1Net》4月3日訊

隨著大數據時代的到來,很多人對大數據產生了濃厚的興趣,然而,大數據只是一個新概念,很多認識都是不正確的。

大數據產生的背景是整個社會走向數字化,特別是社交網絡和各種傳感設備的發展。大數據分析擁有自身的特點,與計量經濟學既有區別又有聯系。當前對大數據的分析存在許多流行觀點,但其中很多核心觀點都值得商榷。

大數據產生的背景是整個社會走向數字化,特別是社交網絡和各種傳感設備的發展。云計算和搜索引擎的發展,使得對大數據的高效分析成為可能,核心問題是如何在種類繁多、數量龐大的數據中快速獲取有價值信息。大數據在社會分析、科學發現和商業決策中的作用越來越大,金融只是其中的一個應用領域。

什么是大數據

大數據是一個新概念,英文中至少有三個名稱:大數據(big data)、大尺度數據(big scale data)和大規模數據(massive data),至今未形成統一定義。但一般認為大數據具有四個基本特征(即所謂4V特征):數據體量龐大(volume)、價值密度低(value, 也有人理解成應用價值巨大)、來源廣泛和特征多樣(variety)、增長速度快(velocity, 也有人理解成需要高速分析能力)。

從學術角度,對大數據的討論基本屬于數據科學(Data Science)和數據挖掘(Data Mining)的范疇。

對大數據分析的主流誤解

舍恩伯格與合作者的《大數據時代》非常流行,但里面的很多核心觀點都值得商榷。

第一,他們認為,大數據分析不是針對隨機樣本,而是全體數據。盡管數據收集和分析手段足夠發達后,對全部數據的收集和分析成為可能,但從成本收益上衡量,這樣做不是總有必要。根據中心極限定理,統計分析質量與樣本數量之間存在平方根關系。比如,樣本數量提高100倍,分析質量提高10倍。而統計分析工作量與樣本數量之間存在線性關系。比如,樣本數量提高100倍,存儲和計算量一般增加100倍。這樣,樣本數量增長到一定程度后,新增工作量對應的成本就會超過質量提高產生的好處。因此,通過科學設計的抽樣調查獲得有代表性的樣本,在大數據分析中仍有價值。

第二,他們還認為,大數據分析不是因果關系,而是相關關系。這個說法在統計學中是老生常談,不是什么新觀點。統計學基于相關關系,只能被用來證偽因果關系,而不能被用來證實因果關系。大數據分析的基礎理論也是概率論和數理統計,從根本上就屬于相關關系的范疇。

第三,大數據分析也不是萬能的。基于大數據的預測可以抽象表述為:用 表示已知信息,用 表示未知信息,尋找關于 的函數 作為 的預測。預測誤差是 ,用 (類似于均方誤差)來衡量預測效果。概率論有一個基本結論:

對任意 ,總有 ,其中等號僅當時才成立,所以 也被稱為最佳預測(best predictor)。

可以看出兩點結論:首先,大數據分析中,各種算法的核心任務是使 盡可能接近理論上的最優預測 ;其次,即使在最優預測上, 代表的預測誤差仍不能被消除,是內生于信息結構的。比如,即使信息技術非常發達,如果現實世界中仍有部分信息不能被數字化(從而不能用在大數據分析中),這部分被“塵封”的信息就決定了大數據分析的有效邊界。

第四,大數據能降低信息不對稱的程度,但不能消除隨機性(不確定性);有助于評估風險(未來遭受損失的可能性,其中損失分布可計量),但不能消除奈特式不確定性(其中損失分布不可計量)。

D1Net評論:

大數據畢竟是一個新生兒,人們對它的認識會經歷一個由誤解到正確認識的過程,對于舍恩伯格而言,他關于大數據的一些觀點,也有很多值得商榷的地方,畢竟理論需要實踐來檢驗。

關鍵字:

原創文章 企業網D1Net

x 對大數據分析錯誤認識那么多  舍恩伯格你知道嗎? 掃一掃
分享本文到朋友圈
當前位置:大數據數據分析 → 正文

對大數據分析錯誤認識那么多 舍恩伯格你知道嗎?

責任編輯:editor008 |來源:企業網D1Net  2014-04-03 09:01:18 原創文章 企業網D1Net

《企業網D1Net》4月3日訊

隨著大數據時代的到來,很多人對大數據產生了濃厚的興趣,然而,大數據只是一個新概念,很多認識都是不正確的。

大數據產生的背景是整個社會走向數字化,特別是社交網絡和各種傳感設備的發展。大數據分析擁有自身的特點,與計量經濟學既有區別又有聯系。當前對大數據的分析存在許多流行觀點,但其中很多核心觀點都值得商榷。

大數據產生的背景是整個社會走向數字化,特別是社交網絡和各種傳感設備的發展。云計算和搜索引擎的發展,使得對大數據的高效分析成為可能,核心問題是如何在種類繁多、數量龐大的數據中快速獲取有價值信息。大數據在社會分析、科學發現和商業決策中的作用越來越大,金融只是其中的一個應用領域。

什么是大數據

大數據是一個新概念,英文中至少有三個名稱:大數據(big data)、大尺度數據(big scale data)和大規模數據(massive data),至今未形成統一定義。但一般認為大數據具有四個基本特征(即所謂4V特征):數據體量龐大(volume)、價值密度低(value, 也有人理解成應用價值巨大)、來源廣泛和特征多樣(variety)、增長速度快(velocity, 也有人理解成需要高速分析能力)。

從學術角度,對大數據的討論基本屬于數據科學(Data Science)和數據挖掘(Data Mining)的范疇。

對大數據分析的主流誤解

舍恩伯格與合作者的《大數據時代》非常流行,但里面的很多核心觀點都值得商榷。

第一,他們認為,大數據分析不是針對隨機樣本,而是全體數據。盡管數據收集和分析手段足夠發達后,對全部數據的收集和分析成為可能,但從成本收益上衡量,這樣做不是總有必要。根據中心極限定理,統計分析質量與樣本數量之間存在平方根關系。比如,樣本數量提高100倍,分析質量提高10倍。而統計分析工作量與樣本數量之間存在線性關系。比如,樣本數量提高100倍,存儲和計算量一般增加100倍。這樣,樣本數量增長到一定程度后,新增工作量對應的成本就會超過質量提高產生的好處。因此,通過科學設計的抽樣調查獲得有代表性的樣本,在大數據分析中仍有價值。

第二,他們還認為,大數據分析不是因果關系,而是相關關系。這個說法在統計學中是老生常談,不是什么新觀點。統計學基于相關關系,只能被用來證偽因果關系,而不能被用來證實因果關系。大數據分析的基礎理論也是概率論和數理統計,從根本上就屬于相關關系的范疇。

第三,大數據分析也不是萬能的。基于大數據的預測可以抽象表述為:用 表示已知信息,用 表示未知信息,尋找關于 的函數 作為 的預測。預測誤差是 ,用 (類似于均方誤差)來衡量預測效果。概率論有一個基本結論:

對任意 ,總有 ,其中等號僅當時才成立,所以 也被稱為最佳預測(best predictor)。

可以看出兩點結論:首先,大數據分析中,各種算法的核心任務是使 盡可能接近理論上的最優預測 ;其次,即使在最優預測上, 代表的預測誤差仍不能被消除,是內生于信息結構的。比如,即使信息技術非常發達,如果現實世界中仍有部分信息不能被數字化(從而不能用在大數據分析中),這部分被“塵封”的信息就決定了大數據分析的有效邊界。

第四,大數據能降低信息不對稱的程度,但不能消除隨機性(不確定性);有助于評估風險(未來遭受損失的可能性,其中損失分布可計量),但不能消除奈特式不確定性(其中損失分布不可計量)。

D1Net評論:

大數據畢竟是一個新生兒,人們對它的認識會經歷一個由誤解到正確認識的過程,對于舍恩伯格而言,他關于大數據的一些觀點,也有很多值得商榷的地方,畢竟理論需要實踐來檢驗。

關鍵字:

原創文章 企業網D1Net

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 新巴尔虎左旗| 忻州市| 高台县| 炎陵县| 顺昌县| 科技| 武威市| 敖汉旗| 伊春市| 芦溪县| 平山县| 宁强县| 成安县| 霍邱县| 顺昌县| 沧州市| 武汉市| 皮山县| 桦甸市| 邻水| 志丹县| 故城县| 孝感市| 台北市| 张家口市| 泽州县| 伊春市| 东山县| 汝城县| 嵊州市| 和平区| 昌宁县| 招远市| 河津市| 南部县| 榆社县| 浦东新区| 永顺县| 云和县| 夏津县| 江津市|