精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

小心大數據的陷阱:數據是不是越大越好

責任編輯:jacky |來源:企業網D1Net  2014-08-27 08:39:42 本文摘自:和訊網

前不久騰訊舉辦了一場夏季思享會,其主題是大數據。關于大數據,大家炒作得更多的是機遇、威力,比方說越來越多人利用Google的大數據來研究趨勢,輔助分析決策,但是這場思享會從另一個角度分享了一個很好的思考:大數據也可能是“大忽悠”。

而最近對Google Flu Trends(流感趨勢)的一些研究正好佐證了這一點。

說到Google Flu Trends,首先必須先提一提Google Trends和Google Correlate。Google Trends利用對用戶搜索的大數據分析來獲得人類某些活動的趨勢,只要在Google Trends上輸入某些查詢關鍵字即可返回相關活動的數據序列。而Google Correlate則是輸入數據序列可返回一組結果呈類似模式(相關性)的查詢,有點類似于Google Trends的反函數。

Google Flu Trends是Google Trends最早也是最知名的應用之一。鑒于很多人患流感是往往會上Google查詢了解疾病情況和用藥,因此Google發現這種查詢與流感爆發存在著某種相關關系。Google Trends曾經有過多次對流感的成功預測,包括2011/12年的美國流感、2007/08年瑞士流感、2005/06年德國流感、2007/08比利時流感等,其及時性甚至要比美國疾病預防控制中心還要高。

這顯示出了搜索“流感”與流感爆發的相關性。

另一個例子是“宿醉”。比方說在Google Trends輸入“hangover(宿醉)”,你會發現這種情況在周六開始冒頭,然后周日到達巔峰,而到了周一則急劇下降。這種模式與輸入“伏特加”的查詢結果類似(滯后一天)。

但是數據越大未必就能帶來更高的預測率。甚至還會帶來“假規律”和“偽相關”。比方說,搜索2004至2012年間的美國汽車銷售與“印度餐館”,結果發現二者之間竟然存在相關關系。這個東西顯然是無法解釋的。

偽相關的原因是什么呢?

首先,相關性并不意味著因果關系。比方說,Google Flu Trends對趨勢的預測并非屢試不爽。有幾次Google Trends就嚴重高估了流感病例的數量,包括2011/12的美國流感,2008/09瑞士流感,2008/09德國流感、2008/09比利時流感等。

英國倫敦大學學院的研究人員對此進行了研究。結果發現,到Google搜索“流感”的人可以分成兩類,一類是感冒患者,一類是跟風搜索者(可能是因為媒體報道而對感冒話題感興趣者)。

顯然第一類人的數據才是有用的。其搜索是內部產生的,獨立于外界的。因此這些人的搜索模式應該與受到外界影響而進行搜索的人的模式不同。而正是第二類人的社會化搜索使得Google Flu Trends的預測失真。這正是因為Google Flu Trends把搜索“流感”與得流感的相關性當成了因果關系所致。

而稍早前美國東北大學與哈佛大學的研究人員對Google Flu Trends的失真案例進行的另一組研究則認為,這反映出了熱炒大數據的氛圍下誕生的一股大數據自大思潮。這股思潮認為,大數據完全可以取代傳統的數據收集方法。其最大問題在于,絕大多數大數據與經過嚴謹科學試驗和采樣設計得到的數據之間存在很大的不同。首先,大未必全;其次,大則可能魚龍混雜。

此外,Google搜索算法本身的變化也有可能影響到Google Flu Trends的結果。這個原因不難理解。要知道,Google搜索的調整非常頻繁,單去年就進行了890項改進。其中就有不少屬于算法的調整。媒體對于流感流行的報道會增加與流感相關的詞匯的搜索次數,也會令Google增加相關搜索的推薦。從而令一些本身并不感冒的人也對流感產生了興趣,進而把數據弄臟。

如何清洗數據呢?歸根到底還是需要對數據進行模式分析。在流感趨勢這個例子,研究人員認為,執行獨立搜索的患流感人群的模式會隨著時間推移而異于社會化搜索。其表現應該是在流感爆發時搜索急劇攀升,然后隨著流感消失而緩慢下降。相反,社會化搜索則會表現得更為勻稱。數據表明,在Google流感趨勢出現高估的時候,趨勢曲線的對稱性的確更高。

這說明在分析大數據時必須要注意此類陷阱。充斥的大數據集以及統計學家對分析結果的傳播會令真實的數據被放大或弄臟。

正如《The Parable of Google Flu: Traps in Big Data Analysis》的作者所認為那樣,數據的價值并不僅僅體現在其“大小”上。利用創新性數據分析方法去分析數據才是本質。

當然,在未來數據能夠逐步成為真正的大數據,并且數字世界與實體世界的映射趨于一致時,大數據也許就能發揮其完全的威力,乃至于改變我們解決問題的方式。

關鍵字:流感大數據

本文摘自:和訊網

x 小心大數據的陷阱:數據是不是越大越好 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

小心大數據的陷阱:數據是不是越大越好

責任編輯:jacky |來源:企業網D1Net  2014-08-27 08:39:42 本文摘自:和訊網

前不久騰訊舉辦了一場夏季思享會,其主題是大數據。關于大數據,大家炒作得更多的是機遇、威力,比方說越來越多人利用Google的大數據來研究趨勢,輔助分析決策,但是這場思享會從另一個角度分享了一個很好的思考:大數據也可能是“大忽悠”。

而最近對Google Flu Trends(流感趨勢)的一些研究正好佐證了這一點。

說到Google Flu Trends,首先必須先提一提Google Trends和Google Correlate。Google Trends利用對用戶搜索的大數據分析來獲得人類某些活動的趨勢,只要在Google Trends上輸入某些查詢關鍵字即可返回相關活動的數據序列。而Google Correlate則是輸入數據序列可返回一組結果呈類似模式(相關性)的查詢,有點類似于Google Trends的反函數。

Google Flu Trends是Google Trends最早也是最知名的應用之一。鑒于很多人患流感是往往會上Google查詢了解疾病情況和用藥,因此Google發現這種查詢與流感爆發存在著某種相關關系。Google Trends曾經有過多次對流感的成功預測,包括2011/12年的美國流感、2007/08年瑞士流感、2005/06年德國流感、2007/08比利時流感等,其及時性甚至要比美國疾病預防控制中心還要高。

這顯示出了搜索“流感”與流感爆發的相關性。

另一個例子是“宿醉”。比方說在Google Trends輸入“hangover(宿醉)”,你會發現這種情況在周六開始冒頭,然后周日到達巔峰,而到了周一則急劇下降。這種模式與輸入“伏特加”的查詢結果類似(滯后一天)。

但是數據越大未必就能帶來更高的預測率。甚至還會帶來“假規律”和“偽相關”。比方說,搜索2004至2012年間的美國汽車銷售與“印度餐館”,結果發現二者之間竟然存在相關關系。這個東西顯然是無法解釋的。

偽相關的原因是什么呢?

首先,相關性并不意味著因果關系。比方說,Google Flu Trends對趨勢的預測并非屢試不爽。有幾次Google Trends就嚴重高估了流感病例的數量,包括2011/12的美國流感,2008/09瑞士流感,2008/09德國流感、2008/09比利時流感等。

英國倫敦大學學院的研究人員對此進行了研究。結果發現,到Google搜索“流感”的人可以分成兩類,一類是感冒患者,一類是跟風搜索者(可能是因為媒體報道而對感冒話題感興趣者)。

顯然第一類人的數據才是有用的。其搜索是內部產生的,獨立于外界的。因此這些人的搜索模式應該與受到外界影響而進行搜索的人的模式不同。而正是第二類人的社會化搜索使得Google Flu Trends的預測失真。這正是因為Google Flu Trends把搜索“流感”與得流感的相關性當成了因果關系所致。

而稍早前美國東北大學與哈佛大學的研究人員對Google Flu Trends的失真案例進行的另一組研究則認為,這反映出了熱炒大數據的氛圍下誕生的一股大數據自大思潮。這股思潮認為,大數據完全可以取代傳統的數據收集方法。其最大問題在于,絕大多數大數據與經過嚴謹科學試驗和采樣設計得到的數據之間存在很大的不同。首先,大未必全;其次,大則可能魚龍混雜。

此外,Google搜索算法本身的變化也有可能影響到Google Flu Trends的結果。這個原因不難理解。要知道,Google搜索的調整非常頻繁,單去年就進行了890項改進。其中就有不少屬于算法的調整。媒體對于流感流行的報道會增加與流感相關的詞匯的搜索次數,也會令Google增加相關搜索的推薦。從而令一些本身并不感冒的人也對流感產生了興趣,進而把數據弄臟。

如何清洗數據呢?歸根到底還是需要對數據進行模式分析。在流感趨勢這個例子,研究人員認為,執行獨立搜索的患流感人群的模式會隨著時間推移而異于社會化搜索。其表現應該是在流感爆發時搜索急劇攀升,然后隨著流感消失而緩慢下降。相反,社會化搜索則會表現得更為勻稱。數據表明,在Google流感趨勢出現高估的時候,趨勢曲線的對稱性的確更高。

這說明在分析大數據時必須要注意此類陷阱。充斥的大數據集以及統計學家對分析結果的傳播會令真實的數據被放大或弄臟。

正如《The Parable of Google Flu: Traps in Big Data Analysis》的作者所認為那樣,數據的價值并不僅僅體現在其“大小”上。利用創新性數據分析方法去分析數據才是本質。

當然,在未來數據能夠逐步成為真正的大數據,并且數字世界與實體世界的映射趨于一致時,大數據也許就能發揮其完全的威力,乃至于改變我們解決問題的方式。

關鍵字:流感大數據

本文摘自:和訊網

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 手游| 花莲县| 化隆| 紫金县| 休宁县| 温泉县| 四会市| 贵德县| 武义县| 泸定县| 疏勒县| 涡阳县| 襄城县| 隆安县| 梧州市| 邓州市| 沛县| 琼中| 信阳市| 朔州市| 巩留县| 万载县| 宽甸| 稻城县| 潢川县| 吉木乃县| 左贡县| 青田县| 南丹县| 三台县| 包头市| 德惠市| 南昌县| 平和县| 莆田市| 太仓市| 曲沃县| 嘉黎县| 本溪市| 泊头市| 南投市|