精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

大數據也有問題:數據量增加遠超摩爾定律需要“智能遺忘”

責任編輯:editor004 作者:任天 |來源:企業網D1Net  2016-06-13 19:38:37 本文摘自:新浪科技

大數據的問題之一是太過于關注當前,而忽略了即使最近的過去。

 大數據的問題之一是太過于關注當前,而忽略了即使最近的過去。

我們需要更好地確定哪些數據值得優先保存

北京時間6月13日消息,據國外媒體報道,在經濟領域和人類行為的大量數據采集中,存在著一個違反直覺的弊端,而這會使我們忽略歷史的教訓。

你或許很熟悉這樣一個統計結論:世界90%的數據是過去幾年里產生的。事實上,過去三十年中,全世界的數據量大約每兩年增加10倍——遠遠超過了計算機領域的摩爾定律。

這樣的信息增長速率會帶來一些問題,其中之一便是現時的數據量總是遠遠超過即使最近的過去。想象你正在通過一本相片簿回顧人生的頭18年,假設在兩歲時你有兩張照片,如果信息增長速率與世界數據量相同,那么在你6到8歲時,你會有驚人的2000張照片;10到12歲時有20萬張照片;而在16到18歲時,照片數量會達到2億張,相當于在最后兩年中,每秒有3張以上的照片。

當然,這并非是全球數據增長情況的完美類比。首先,世界大部分數據的增長源于有更多的人創造出了更多的信息來源,同時伴隨更大、更精細的格式。不過,有關比例的觀點還是成立的。如果你像前述的例子那樣回顧以往的記錄,或者試圖進行分析,那距離越久遠的過去就會變得越無關緊要。

這就是目前采集和分析大數據時所面臨的問題。當你開始以更長遠的視角往前回溯時,會發現近期的事情太多,而以前的事情太少。短視是結構性的,對短期趨勢的過度估計是壓倒性的,同時卻忽略了歷史的經驗教訓。

為了理解這個問題的重要性,需要考慮社會科學中有關“近期偏差”(recency bias,又稱近因效應)的研究發現。近期偏差是指在判斷趨勢時,認為未來事件與近期體驗更加類似。這可以說是某種“可利用性法則”(availability heuristic) ——不恰當地以最容易被知覺到的信息來作為思考的基礎。這還是一種普遍的心理學特征。舉例來說,如果在你居住的地方,過去幾年中夏季都異乎尋常地寒冷,你 可能會認為夏天正在變得更冷——或者說你當地的氣候正在變冷。事實上,你不應當把任何東西都塞到數據里分析。你需要有一個長遠的視角,才能認識真正有意義的氣候趨勢。在短時期內,你最好不進行任何猜測。不過,我們之中又有誰能真正做到這點呢?

現實生活中大部分復雜的趨勢正是如此:股票市場、經濟發展、企業的成功或失敗、戰爭或和平、國家關系、帝國的崛起和衰落等等。短期分析不僅不夠扎實,而且毫無益處甚至會帶來誤導。看看2009年金融危機即將到來的時候,還有那么多經濟學家信誓旦旦地宣稱這一事件不會發生。認為從那種時間尺度的數據就能做出扎實的預測,本身就有很大的問題。

我們還應當記住,在決定哪些數據是保存還是刪除的時候,新穎性往往會成為主要的考慮因素。舊的淘汰,新的進來,在這個搜索算法本質上偏向于新鮮事物的數字世界中,這是明顯的趨勢。從高等法院的裁決,到所有的社交媒體服務平臺上,我們到處都可以看到已經失效的網址。對當前的偏好已經滲透到我們身邊幾乎所有的技 術中,大多數人已經習慣用個四五年就把原本光鮮亮麗的機器拋棄。

怎么辦?這不僅是一個如何更好保存舊數據的問題——盡管這并不是個壞主意,想想我們現在還有什么東西能保留10年的。更重要的是,這個問題關系到確定哪些東西值得優先保存,如何在知識的名義下,確定哪些信息最有意義。

或許我們需要的是“智能遺忘”:讓我們的工具變得更會放棄最近的過去,從而在整體視角上保持更大的連續性。這有點像是重新組織一本相片簿,盡管加上了更多的 數學方法。什么時候兩百萬張照片的價值比兩千張照片更低?什么時候較大的樣品覆蓋的范圍反而較小?什么時候細節水平能提供有用的質疑證據,而不是虛假的自信?

許多數據集是無法縮減的,而且在完整的情況下才最寶貴,比如,基因序列、人口統計學數據、地理和物理學的原始觀測數據等。科學性越弱,數據規模與數據的質量更可能呈現負相關,此時時間本身就成為更加重要的過濾工具。我們如果不仔細選擇過去保存下來的有價值、有意義的東西,那它們就會悄無聲息地淹沒在如今日益增長的噪音之中。

今天的企業、個人和政府機構都能夠獲得比以往(甚至就在幾年前)大許多數量級的數據,但這些數據并沒有獲得更多的處理時間。利用越來越高效的工具,董事會成員、首席執行官、政府官員等決策者可以就已有的信息提出更有意義的問題。單純的堆積不是問題的答案。在一個數據量越來越大的時代,如何選擇不知道哪些事情,與選擇做什么事情一樣重要。

關鍵字:谷歌張穎

本文摘自:新浪科技

x 大數據也有問題:數據量增加遠超摩爾定律需要“智能遺忘” 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

大數據也有問題:數據量增加遠超摩爾定律需要“智能遺忘”

責任編輯:editor004 作者:任天 |來源:企業網D1Net  2016-06-13 19:38:37 本文摘自:新浪科技

大數據的問題之一是太過于關注當前,而忽略了即使最近的過去。

 大數據的問題之一是太過于關注當前,而忽略了即使最近的過去。

我們需要更好地確定哪些數據值得優先保存

北京時間6月13日消息,據國外媒體報道,在經濟領域和人類行為的大量數據采集中,存在著一個違反直覺的弊端,而這會使我們忽略歷史的教訓。

你或許很熟悉這樣一個統計結論:世界90%的數據是過去幾年里產生的。事實上,過去三十年中,全世界的數據量大約每兩年增加10倍——遠遠超過了計算機領域的摩爾定律。

這樣的信息增長速率會帶來一些問題,其中之一便是現時的數據量總是遠遠超過即使最近的過去。想象你正在通過一本相片簿回顧人生的頭18年,假設在兩歲時你有兩張照片,如果信息增長速率與世界數據量相同,那么在你6到8歲時,你會有驚人的2000張照片;10到12歲時有20萬張照片;而在16到18歲時,照片數量會達到2億張,相當于在最后兩年中,每秒有3張以上的照片。

當然,這并非是全球數據增長情況的完美類比。首先,世界大部分數據的增長源于有更多的人創造出了更多的信息來源,同時伴隨更大、更精細的格式。不過,有關比例的觀點還是成立的。如果你像前述的例子那樣回顧以往的記錄,或者試圖進行分析,那距離越久遠的過去就會變得越無關緊要。

這就是目前采集和分析大數據時所面臨的問題。當你開始以更長遠的視角往前回溯時,會發現近期的事情太多,而以前的事情太少。短視是結構性的,對短期趨勢的過度估計是壓倒性的,同時卻忽略了歷史的經驗教訓。

為了理解這個問題的重要性,需要考慮社會科學中有關“近期偏差”(recency bias,又稱近因效應)的研究發現。近期偏差是指在判斷趨勢時,認為未來事件與近期體驗更加類似。這可以說是某種“可利用性法則”(availability heuristic) ——不恰當地以最容易被知覺到的信息來作為思考的基礎。這還是一種普遍的心理學特征。舉例來說,如果在你居住的地方,過去幾年中夏季都異乎尋常地寒冷,你 可能會認為夏天正在變得更冷——或者說你當地的氣候正在變冷。事實上,你不應當把任何東西都塞到數據里分析。你需要有一個長遠的視角,才能認識真正有意義的氣候趨勢。在短時期內,你最好不進行任何猜測。不過,我們之中又有誰能真正做到這點呢?

現實生活中大部分復雜的趨勢正是如此:股票市場、經濟發展、企業的成功或失敗、戰爭或和平、國家關系、帝國的崛起和衰落等等。短期分析不僅不夠扎實,而且毫無益處甚至會帶來誤導。看看2009年金融危機即將到來的時候,還有那么多經濟學家信誓旦旦地宣稱這一事件不會發生。認為從那種時間尺度的數據就能做出扎實的預測,本身就有很大的問題。

我們還應當記住,在決定哪些數據是保存還是刪除的時候,新穎性往往會成為主要的考慮因素。舊的淘汰,新的進來,在這個搜索算法本質上偏向于新鮮事物的數字世界中,這是明顯的趨勢。從高等法院的裁決,到所有的社交媒體服務平臺上,我們到處都可以看到已經失效的網址。對當前的偏好已經滲透到我們身邊幾乎所有的技 術中,大多數人已經習慣用個四五年就把原本光鮮亮麗的機器拋棄。

怎么辦?這不僅是一個如何更好保存舊數據的問題——盡管這并不是個壞主意,想想我們現在還有什么東西能保留10年的。更重要的是,這個問題關系到確定哪些東西值得優先保存,如何在知識的名義下,確定哪些信息最有意義。

或許我們需要的是“智能遺忘”:讓我們的工具變得更會放棄最近的過去,從而在整體視角上保持更大的連續性。這有點像是重新組織一本相片簿,盡管加上了更多的 數學方法。什么時候兩百萬張照片的價值比兩千張照片更低?什么時候較大的樣品覆蓋的范圍反而較小?什么時候細節水平能提供有用的質疑證據,而不是虛假的自信?

許多數據集是無法縮減的,而且在完整的情況下才最寶貴,比如,基因序列、人口統計學數據、地理和物理學的原始觀測數據等。科學性越弱,數據規模與數據的質量更可能呈現負相關,此時時間本身就成為更加重要的過濾工具。我們如果不仔細選擇過去保存下來的有價值、有意義的東西,那它們就會悄無聲息地淹沒在如今日益增長的噪音之中。

今天的企業、個人和政府機構都能夠獲得比以往(甚至就在幾年前)大許多數量級的數據,但這些數據并沒有獲得更多的處理時間。利用越來越高效的工具,董事會成員、首席執行官、政府官員等決策者可以就已有的信息提出更有意義的問題。單純的堆積不是問題的答案。在一個數據量越來越大的時代,如何選擇不知道哪些事情,與選擇做什么事情一樣重要。

關鍵字:谷歌張穎

本文摘自:新浪科技

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 博乐市| 乐安县| 博客| 稷山县| 和龙市| 富宁县| 凤山县| 海原县| 万年县| 驻马店市| 河东区| 凌海市| 刚察县| 靖州| 格尔木市| 剑阁县| 伊川县| 阜平县| 峨边| 洞口县| 宝坻区| 临澧县| 扎鲁特旗| 兴文县| 汽车| 如东县| 罗田县| 崇州市| 江北区| 宣威市| 乌兰县| 耿马| 锦州市| 惠来县| 潜江市| 北安市| 海宁市| 新河县| 青川县| 突泉县| 卢氏县|