精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據業界動態 → 正文

大數據應用大爆發 創意五彩繽紛涌現

責任編輯:editor004 |來源:企業網D1Net  2013-11-21 08:35:00 本文摘自:中國科技網

關于大數據的觀察與思考 (上)

所有評論家都喜歡提到“尿片與啤酒”的故事,認為它是大數據分析的開始:1960年代,沃爾瑪連鎖超市研究銷售記錄發現,給孩子買紙尿片的男人都會順便買幾瓶啤酒。為此,超市在尿布旁邊擺上了啤酒架,方便顧客。這是半個世紀前的事了。

1980年代著名的未來學書籍《第三次浪潮》,預言未來信息時代必然有“big data(大數據)”應用。不過,就在5年前,網上百科全書Wikipedia還不愿開辟“big data”的詞條,認為這不過是兩個單詞的組合而已。當時網上普遍認為,大數據更多的是概念和憧憬,其志向不小,成就卻不多。

而就在近兩年,大數據應用突然爆炸,五彩繽紛的創意都變成現實。即使最謹慎的觀察家也承認,大數據的商業應用時代已經來臨,正因為它前所未有的能力——準確預測。

數據大爆發,帶來“新石油”

去年,演繹白宮政治的《紙牌屋》成了美國收視率第一的電視劇,這絲毫不出制片人的意料——計算機分析了多年的數據,發現一部電視劇如果具備三個元素,就必定大賣:導演大衛·芬奇、奧斯卡影帝凱文·史派西、BBC劇風格?!都埮莆荨肪褪窃跀祿笇?,如法炮制,果然紅透半邊天。這個例子很能說明大數據應用的特點:從海量數據里發掘出從前沒意識到的聯系,并且將它轉化為利潤。

邁爾-舍恩伯格和庫克耶合著的《大數據時代》一書認為,數據量一旦變“大”,根據數據預測就會十分可靠,而不再是小數據時代的模糊推測了。他們認為,大數據的核心就是預測。

美國工程師愛奇奧尼搭飛機時,發現旁邊的旅客買票比他便宜。于是他開發了一個系統,預測機票價格的漲跌。截至2012年,他的“faircast”系統用網上的10萬億條價格記錄去推測機票何時價格為何,預測準確度達75%,幫助旅客平均每張機票節省50美元。

愛奇奧尼并不懂航空業,他所做的僅僅是查閱過去的數據,就能從中做出有價值的判斷。

還有一個例子廣為人知。google能從網民搜索關鍵詞中推斷出一場流感正在蔓延。工程師實驗了4.5億個不同的數學模型,最后發現,45條檢索詞條組合用于某個數學模型,與過去的流感數據十分吻合。由此,google第一時間發現了2009年甲型H1N1流感的傳播,比官方確認早一兩周。

無獨有偶,美國政府為了公布CPI數據,雇用很多人調查90個城市的8萬種價格信息,每年要花費2.5億美元。而麻省理工學院的兩位經濟學家,通過一個軟件在網上捕捉50萬種商品的價格信息去做同樣的事情。金融危機時,雷曼剛破產他們就發現了通貨緊縮的趨勢,比政府早發現兩個月。

大數據預測并不復雜,不論是價格預測,還是疫情預測,只要有海量的數據就行。Word程序中語法檢查使用的4種算法,隨著其依靠的數據量從500萬變為10億,表現都大為提高。彼得·諾威格,谷歌公司的人工智能專家寫道:“大數據基礎上的簡單算法比小數據基礎上的復雜算法更有效。”

但在“尿片與啤酒”的年代,10億條級別的信息量還很難獲得。人們只能建立數據庫,將一部分信息分門別類地入庫,其他的丟棄。直到最近,計算機處理速度的飛躍和低成本的存儲,才實現了“一切盡錄”,讓大數據分析成為現實。

目前,美國股市三分之二的交易,是計算機程序根據海量數據預測和自動做出的。由此來看,美國2012年3月的《大數據研究和發展計劃》中提出的“大數據是新石油”,并不完全是理想,已經部分成真。

記錄一個人的過去,就知道他的未來

即使是普通人也能注意到,各個領域收集的數據量都在爆發。人類存儲信息量的增長速度比經濟增速快4倍,而計算機數據處理能力的增速更比經濟增速快了9倍。

信息爆炸的端倪參見美國“斯隆數字巡天望遠鏡”:運行短短幾周,斯隆收集的數據比天文學歷史上總共的數據還多;而預計2016年,智利的“大視場全景巡天望遠鏡”5天就能收集同樣多的信息。不光是科學儀器,互聯網、視頻監控網,以及傳感器網(物聯網),都在提供海量信息。有人甚至預測,不需太久,信息爆炸造成的一年數據量就將超過人類歷史上積攢的所有數據量。

如今,一個人的電子郵件、手機通話記錄、網購記錄、網上發布內容等等,全都在各家公司的硬盤里存儲著;同時,他的行蹤被手機記下;身影被街頭的監控器捕捉……一旦這些數據串聯起來,這個人的一舉一動幾乎無從遁形。

讓人吃驚的是,根據《爆發》一書的作者巴拉巴西的論證,人的行為是高度重復和可預測的(巴拉巴西甚至算出,93%的行為是可預測的)。因此一旦明白了人的過去,就掌握了他的未來。

大大小小的機構,都想利用大數據時代這個神奇的現象獲利。其中一些對人類行為的預測,已經顯示出威力。今年的奧斯卡金像獎頒獎禮之前,微軟紐約研究院的大衛·羅斯柴爾德通過大數據分析,預測了各大獎項的歸屬。結果除了最佳導演獎外,他全部猜中。而他在2012年美國總統大選中,就根據過去的數據,準確預測了51個選區中50個地區的選舉結果。

大型超市Target公司根據20多種購買物,判斷顧客的孕期階段,并適時寄去推薦清單。有時,甚至顧客還不知道自己已經懷孕了,Target的系統就能從其購買偏好的改變上判斷出來。

美國一家個人消費評估公司推出了“遵從醫囑評分”,這個評分會幫助醫療機構知道哪些人更需要被提醒及時用藥。這個評分是分析一系列變量來確定的,比如某人在某地居住多久,是否結婚,多久換一個工作及有沒有私家車。

要知道一個人是否會及時吃藥,為何要查閱他的工作簡歷或者私家車?誰都說不上來。但事實是,只要過去的數據顯示,有私家車、很少換工作的人更愿意按時服藥,那么今后肯定也是如此。

而微軟跟華盛頓中心醫院合作,發現充血性心力衰竭病人如果初診中有類似“壓抑”這種暗示心理疾病的詞,再度入院的可能性也會增大。

知道如此就夠了,不必問為何如此

《大數據時代》一書中強調,大數據不關心“因果”,只在乎“相關”。這一點也被此書的擁躉們反復強調。因為大數據分析,人們理解世界,不再需要探討“內在機理”。大數據不是教機器像人一樣思考,而是簡單的數學算法用在海量數據上,讓數據自己說話。

在最難確定因果關系的人體科學領域,大數據分析同樣屢有斬獲。中英人壽保險公司用幾百種生活方式的數據,比如愛好、常瀏覽的網站、??吹墓澞恳约笆杖氲龋页龈赡芑几哐獕?、糖尿病和抑郁癥的人。

丹麥癌癥協會2011年發表文章,利用1985年以來的全部手機用戶數據,與同期所有癌癥患者數據結合來看,發現癌癥跟使用手機并沒有關系。

還有美國研究者通過16個不同數據,發現早產兒穩定的生命體征不是病情好轉的標志,而是暴風雨前的寧靜。研究者并不知道具體原因,只知道數據顯示出是如此。

有了大數據,分析不必知其所以然。著名的谷歌翻譯小組,竟然不需要語言學家。他們完全是讓計算機根據網上的數據,去判斷一段英文可能對應于哪一段中文。一開始這種翻譯質量不會太好,隨著信息量的增加,機器會翻譯得越來越讓人滿意。

有了大數據,分析也不需要太精確,因為批量處理允許瑕疵存在。ZestFinance是一家由計算機決定是否為客戶提供貸款的公司。它的客戶信息表中有大量空白。甚至有10%的客戶屬性是“已去世”,這顯然是錯的,實際上這些客戶是還貸款的。這家公司不會太精確地對待它的數據,然而其貸款拖欠率比行業平均水平低三分之一。

英國石油公司在美國的一個煉油廠里,安裝了很多無線感應器,因為高溫和電器干擾,不少感應器讀數是錯的,但數據一多,這些錯誤就可以彌補。通過隨時監測管道承壓,廠方發現某些原油更具腐蝕性,就可以發現和防止。

UPS快遞公司在所有卡車上安裝傳感器,如果發現數據異常,他們就提前更換零件,這樣節省了好幾百萬美元修理費用。他們并不在乎傳感器數據是否準確。但這樣做的確有效。

像那句老話所說:“量變引起質變”。數據量極多時,數據分析就呈現出我們所不熟悉的屬性——因果關系淡出;單個數據準確不再重要;而預測幾乎必然準確。大數據如同巫師一樣的神力,既讓我們陌生,又讓我們激動。

關鍵字:谷歌Wikipedia神器大數據

本文摘自:中國科技網

x 大數據應用大爆發 創意五彩繽紛涌現 掃一掃
分享本文到朋友圈
當前位置:大數據業界動態 → 正文

大數據應用大爆發 創意五彩繽紛涌現

責任編輯:editor004 |來源:企業網D1Net  2013-11-21 08:35:00 本文摘自:中國科技網

關于大數據的觀察與思考 (上)

所有評論家都喜歡提到“尿片與啤酒”的故事,認為它是大數據分析的開始:1960年代,沃爾瑪連鎖超市研究銷售記錄發現,給孩子買紙尿片的男人都會順便買幾瓶啤酒。為此,超市在尿布旁邊擺上了啤酒架,方便顧客。這是半個世紀前的事了。

1980年代著名的未來學書籍《第三次浪潮》,預言未來信息時代必然有“big data(大數據)”應用。不過,就在5年前,網上百科全書Wikipedia還不愿開辟“big data”的詞條,認為這不過是兩個單詞的組合而已。當時網上普遍認為,大數據更多的是概念和憧憬,其志向不小,成就卻不多。

而就在近兩年,大數據應用突然爆炸,五彩繽紛的創意都變成現實。即使最謹慎的觀察家也承認,大數據的商業應用時代已經來臨,正因為它前所未有的能力——準確預測。

數據大爆發,帶來“新石油”

去年,演繹白宮政治的《紙牌屋》成了美國收視率第一的電視劇,這絲毫不出制片人的意料——計算機分析了多年的數據,發現一部電視劇如果具備三個元素,就必定大賣:導演大衛·芬奇、奧斯卡影帝凱文·史派西、BBC劇風格?!都埮莆荨肪褪窃跀祿笇拢绶ㄅ谥疲患t透半邊天。這個例子很能說明大數據應用的特點:從海量數據里發掘出從前沒意識到的聯系,并且將它轉化為利潤。

邁爾-舍恩伯格和庫克耶合著的《大數據時代》一書認為,數據量一旦變“大”,根據數據預測就會十分可靠,而不再是小數據時代的模糊推測了。他們認為,大數據的核心就是預測。

美國工程師愛奇奧尼搭飛機時,發現旁邊的旅客買票比他便宜。于是他開發了一個系統,預測機票價格的漲跌。截至2012年,他的“faircast”系統用網上的10萬億條價格記錄去推測機票何時價格為何,預測準確度達75%,幫助旅客平均每張機票節省50美元。

愛奇奧尼并不懂航空業,他所做的僅僅是查閱過去的數據,就能從中做出有價值的判斷。

還有一個例子廣為人知。google能從網民搜索關鍵詞中推斷出一場流感正在蔓延。工程師實驗了4.5億個不同的數學模型,最后發現,45條檢索詞條組合用于某個數學模型,與過去的流感數據十分吻合。由此,google第一時間發現了2009年甲型H1N1流感的傳播,比官方確認早一兩周。

無獨有偶,美國政府為了公布CPI數據,雇用很多人調查90個城市的8萬種價格信息,每年要花費2.5億美元。而麻省理工學院的兩位經濟學家,通過一個軟件在網上捕捉50萬種商品的價格信息去做同樣的事情。金融危機時,雷曼剛破產他們就發現了通貨緊縮的趨勢,比政府早發現兩個月。

大數據預測并不復雜,不論是價格預測,還是疫情預測,只要有海量的數據就行。Word程序中語法檢查使用的4種算法,隨著其依靠的數據量從500萬變為10億,表現都大為提高。彼得·諾威格,谷歌公司的人工智能專家寫道:“大數據基礎上的簡單算法比小數據基礎上的復雜算法更有效。”

但在“尿片與啤酒”的年代,10億條級別的信息量還很難獲得。人們只能建立數據庫,將一部分信息分門別類地入庫,其他的丟棄。直到最近,計算機處理速度的飛躍和低成本的存儲,才實現了“一切盡錄”,讓大數據分析成為現實。

目前,美國股市三分之二的交易,是計算機程序根據海量數據預測和自動做出的。由此來看,美國2012年3月的《大數據研究和發展計劃》中提出的“大數據是新石油”,并不完全是理想,已經部分成真。

記錄一個人的過去,就知道他的未來

即使是普通人也能注意到,各個領域收集的數據量都在爆發。人類存儲信息量的增長速度比經濟增速快4倍,而計算機數據處理能力的增速更比經濟增速快了9倍。

信息爆炸的端倪參見美國“斯隆數字巡天望遠鏡”:運行短短幾周,斯隆收集的數據比天文學歷史上總共的數據還多;而預計2016年,智利的“大視場全景巡天望遠鏡”5天就能收集同樣多的信息。不光是科學儀器,互聯網、視頻監控網,以及傳感器網(物聯網),都在提供海量信息。有人甚至預測,不需太久,信息爆炸造成的一年數據量就將超過人類歷史上積攢的所有數據量。

如今,一個人的電子郵件、手機通話記錄、網購記錄、網上發布內容等等,全都在各家公司的硬盤里存儲著;同時,他的行蹤被手機記下;身影被街頭的監控器捕捉……一旦這些數據串聯起來,這個人的一舉一動幾乎無從遁形。

讓人吃驚的是,根據《爆發》一書的作者巴拉巴西的論證,人的行為是高度重復和可預測的(巴拉巴西甚至算出,93%的行為是可預測的)。因此一旦明白了人的過去,就掌握了他的未來。

大大小小的機構,都想利用大數據時代這個神奇的現象獲利。其中一些對人類行為的預測,已經顯示出威力。今年的奧斯卡金像獎頒獎禮之前,微軟紐約研究院的大衛·羅斯柴爾德通過大數據分析,預測了各大獎項的歸屬。結果除了最佳導演獎外,他全部猜中。而他在2012年美國總統大選中,就根據過去的數據,準確預測了51個選區中50個地區的選舉結果。

大型超市Target公司根據20多種購買物,判斷顧客的孕期階段,并適時寄去推薦清單。有時,甚至顧客還不知道自己已經懷孕了,Target的系統就能從其購買偏好的改變上判斷出來。

美國一家個人消費評估公司推出了“遵從醫囑評分”,這個評分會幫助醫療機構知道哪些人更需要被提醒及時用藥。這個評分是分析一系列變量來確定的,比如某人在某地居住多久,是否結婚,多久換一個工作及有沒有私家車。

要知道一個人是否會及時吃藥,為何要查閱他的工作簡歷或者私家車?誰都說不上來。但事實是,只要過去的數據顯示,有私家車、很少換工作的人更愿意按時服藥,那么今后肯定也是如此。

而微軟跟華盛頓中心醫院合作,發現充血性心力衰竭病人如果初診中有類似“壓抑”這種暗示心理疾病的詞,再度入院的可能性也會增大。

知道如此就夠了,不必問為何如此

《大數據時代》一書中強調,大數據不關心“因果”,只在乎“相關”。這一點也被此書的擁躉們反復強調。因為大數據分析,人們理解世界,不再需要探討“內在機理”。大數據不是教機器像人一樣思考,而是簡單的數學算法用在海量數據上,讓數據自己說話。

在最難確定因果關系的人體科學領域,大數據分析同樣屢有斬獲。中英人壽保險公司用幾百種生活方式的數據,比如愛好、常瀏覽的網站、??吹墓澞恳约笆杖氲龋页龈赡芑几哐獕?、糖尿病和抑郁癥的人。

丹麥癌癥協會2011年發表文章,利用1985年以來的全部手機用戶數據,與同期所有癌癥患者數據結合來看,發現癌癥跟使用手機并沒有關系。

還有美國研究者通過16個不同數據,發現早產兒穩定的生命體征不是病情好轉的標志,而是暴風雨前的寧靜。研究者并不知道具體原因,只知道數據顯示出是如此。

有了大數據,分析不必知其所以然。著名的谷歌翻譯小組,竟然不需要語言學家。他們完全是讓計算機根據網上的數據,去判斷一段英文可能對應于哪一段中文。一開始這種翻譯質量不會太好,隨著信息量的增加,機器會翻譯得越來越讓人滿意。

有了大數據,分析也不需要太精確,因為批量處理允許瑕疵存在。ZestFinance是一家由計算機決定是否為客戶提供貸款的公司。它的客戶信息表中有大量空白。甚至有10%的客戶屬性是“已去世”,這顯然是錯的,實際上這些客戶是還貸款的。這家公司不會太精確地對待它的數據,然而其貸款拖欠率比行業平均水平低三分之一。

英國石油公司在美國的一個煉油廠里,安裝了很多無線感應器,因為高溫和電器干擾,不少感應器讀數是錯的,但數據一多,這些錯誤就可以彌補。通過隨時監測管道承壓,廠方發現某些原油更具腐蝕性,就可以發現和防止。

UPS快遞公司在所有卡車上安裝傳感器,如果發現數據異常,他們就提前更換零件,這樣節省了好幾百萬美元修理費用。他們并不在乎傳感器數據是否準確。但這樣做的確有效。

像那句老話所說:“量變引起質變”。數據量極多時,數據分析就呈現出我們所不熟悉的屬性——因果關系淡出;單個數據準確不再重要;而預測幾乎必然準確。大數據如同巫師一樣的神力,既讓我們陌生,又讓我們激動。

關鍵字:谷歌Wikipedia神器大數據

本文摘自:中國科技網

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 潼南县| 图片| 昌乐县| 襄樊市| 永善县| 商丘市| 皋兰县| 山阴县| 扎赉特旗| 肃宁县| 玛曲县| 睢宁县| 连云港市| 晋宁县| 巢湖市| 扶风县| 集安市| 威信县| 喀喇| 静乐县| 灵宝市| 瓮安县| 洛浦县| 稷山县| 安国市| 宁安市| 伊春市| 介休市| 富锦市| 平山县| 丹寨县| 德令哈市| 南康市| 崇仁县| 唐河县| 延庆县| 胶州市| 丹棱县| 张掖市| 介休市| 克什克腾旗|