精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

當前位置:大數據數據分析 → 正文

數據類型質量巨變 大數據分析應開發專門技術

責任編輯:editor004 |來源:企業網D1Net  2015-03-13 13:20:00 本文摘自:中國大數據網

由于資訊化應用的普及,導致數據量的規模已經龐大到無法透過人工,在合理時間內達到擷取、管理、處理、并整理成為人類所能解讀的資訊,根據IDC統計,數位世界的資訊容量將會從2009年的0.8ZB,在2020年成長到35ZB,等于每15秒就成長1PB,年復合成長率高達40%,而且這些數據數據不僅巨大而且不同,如何優化數據,方便且容易的搜尋到所需要的資訊,也變得更加困難。

因此,如何將數據采礦(Data Mining)的技術有效的應用在大數據(Big Data)中,快速萃取出未知且有價值的潛在資訊,進而找出市場趨勢,創造新的商機,會是未來企業競爭中一項重要的優勢與目標。

Google利用運算及線上查詢的優勢,結合大數據分析,可提供更快速而精確的預測。

大數據

  大數據分析可能會因此改變我們理解及組織社會的方式。

傳統數據分析方式無法適用于大數據

值得注意的是,數據采礦的相關技術及應用,早在90年代即已提出,無論是方法抑或是工具都已經相當成熟且完善,但過去數據采礦的工具與模組,往往是以單一機器的環境為對象,而非今日的分散式系統或云端運算環境。事實上,許多在單一的機器上很容易做到的事情,在分散式系統上會變得很難很復雜且困難。

因此,想要分析大數據,不能只是直接援用現有的數據采礦技術及應用,因為大數據分析所需要的數據庫管理系統,往往必須在數十、數百甚至數千臺伺服器上同時運行。根據KDnuggets網站調查,數據采礦分析使用平均約1~10GB的數據大小,與動輒數據量超過TB等級的大數據,差異非常的大。故數據探勘以往所能處理的數據,充其量只能稱為「大」數據,而非「巨量」數據。

除了量的變化外,目前的數據類型,也已經超越傳統數據庫或現有數據管理工具能夠處理的范圍。因為在爆炸性的數據增長過程中,結構性數據的成長相當緩慢,反觀非結構性的數據,包括視訊、網頁、智慧型手機、消費數據、位置數據、財務服務數據,以及社會媒體數據等。

而目前的數據庫解決方案,主要是用來設計儲存結構化數據,除了只能針對已知問題的回答速度進行優化外,架構本身往往就決定了內容形式,對于新數據型態與新問題,都有適應上的困難,加上擴展成本高昂,企業勢必得尋求不同以往的數據處理解決方案,才能面對爆炸性的數據增長。

大數據分析能力的四大原則

歷經過去幾年在技術上與觀念上的進展,大數據分析已經成為公私部門組織的競爭利器之一,甚至逐漸形成了跨越統計、資訊科技、行政管理等領域的數據科學領域。

由于大數據的特性難以用傳統分析方法進行分析,必須用進階的技術和演算法來解讀、儲存、分析與管理,如何培育并善用兼具Volume(數據數據的大量)、Velocity(數據分析的時效)、Variety(數據格式的多樣)與Veracity(數據內容的真實)所謂4V特質的大數據分析能力,也逐漸成為跨越統計、資訊、與特定業務領域的共同議題。

如新型禽流感疫情在2009年開始快速蔓延時,美國疾病管制局(Centers for Disease Control;CDC)要求醫生必須通報新型流感的病例,但傳統的報送作業方式往往需要約兩個星期的時間,這樣的速度也會讓公共衛生機構錯失防疫的先機。

Google工程師曾在科學期刊Natural發表有關流感的研究指出,他們將Google每天300萬個與禽流感相關的搜尋關鍵字,與CDC從2007到2008年的實際禽流感染案例,透過數學演算法進行相關性分析比對,最後找出45個與實際發生禽流感案例有很強相關性的搜尋項目組合,只要在特定區域發現這些搜尋項目組合,發生禽流感的案例也會隨之增多。

Google利用運算及線上查詢的優勢,提供更快速而精確的預測,協助公共衛生機構掌握疫情資訊,可見單單只有儲存數據量龐大是沒有任何用處的,因為數據并不會自己進行分析,想要從大量的資訊中得到價值,必須要找到新技術。

如位置訊息也是大數據分析一個非常重要的分析標的,大數據若能結合地理資訊系統,除了「人」的位置資訊以外,「物體」的位置也可以利用這類的裝置進行大量的蒐集,這些訊息也成為重要的分析數據,讓用戶的地理位置變成非常寶貴的數據。

亞馬遜(Amazon)在思考如何根據個別的消費習性,推薦特定的商品給消費者時,本來是用傳統的分析方法,直接從巨量的客戶數據中抽樣後,再分析客戶之間的相似度,但分析結果提供的建議卻很粗糙,如消費者只是購買一項嬰兒用品,系統卻只是推薦一大堆相類似產品。

亞馬遜後來意識到,系統不應該去比較客戶,而是要找出產品之間的關連,必須用到全部的數據,并在事前完成計算,才能夠在客戶購物時,很快地給出適當建議,結果也比先前成功,如喜愛A作者的讀者,未必會喜歡A作者全部的書,但經由關連分析後,卻可能會發現喜愛A作者的人,多半同時會喜歡B作者的書,這樣的大數據交叉分析,才會帶來更大的效益。

改變理解及組織社會的方式

雖然現在蒐集數據要比以前容易許多,但也因為數量前所未有的龐大,必須要找到一種大數據的分析方法,才能夠混和數據采礦過程,蒐集相關數據,進行相關分析,并找到真正可以操作的KPI,才會有很大的機會,找到分析標的的改善重點及方法,這也才是大數據分析應用的價值所在。

總上所述,大數據分析方法需要注意3個重點,并因此改變我們理解及組織社會的方式,第一大改變是能夠取得、分析的數據量大為增加,使用所有數據分析,而非抽樣篩選,可以讓我們清楚看見數據中最細致的地方;第二大改變是不再堅持一切都要做到精準,大數據分析雖可減少抽樣造成的誤差,仍必須對于測量上的誤差,給予一定程度的妥協,放棄百分之一百的精確;第三大改變是放下長久以來對于因果關系的堅持,而專注于發現事物的相關性,只找尋事情「正是如此」的答案,而不一定要了解某件事「為何如此」。

由此可知,對一個組織而言,大數據分析的最重要價值有二,其一是分析使用(analytical use),透過大數據分析,揭露數據隱藏的洞見,如顧客之間的同儕影響、消費者的交易習慣以及社會及空間數據的關系,這些洞見在過去往往因為數據分析的成本太高而被忽視;其二是開發新產品,大數據分析可以即時的處理與分析數據,以發現新的需求而刺激服務或產品的創新。

原文鏈接:http://www.thebigdata.cn/YeJieDongTai/13700.html

關鍵字:數據隱藏KDnuggets數據增長

本文摘自:中國大數據網

x 數據類型質量巨變 大數據分析應開發專門技術 掃一掃
分享本文到朋友圈
當前位置:大數據數據分析 → 正文

數據類型質量巨變 大數據分析應開發專門技術

責任編輯:editor004 |來源:企業網D1Net  2015-03-13 13:20:00 本文摘自:中國大數據網

由于資訊化應用的普及,導致數據量的規模已經龐大到無法透過人工,在合理時間內達到擷取、管理、處理、并整理成為人類所能解讀的資訊,根據IDC統計,數位世界的資訊容量將會從2009年的0.8ZB,在2020年成長到35ZB,等于每15秒就成長1PB,年復合成長率高達40%,而且這些數據數據不僅巨大而且不同,如何優化數據,方便且容易的搜尋到所需要的資訊,也變得更加困難。

因此,如何將數據采礦(Data Mining)的技術有效的應用在大數據(Big Data)中,快速萃取出未知且有價值的潛在資訊,進而找出市場趨勢,創造新的商機,會是未來企業競爭中一項重要的優勢與目標。

Google利用運算及線上查詢的優勢,結合大數據分析,可提供更快速而精確的預測。

大數據

  大數據分析可能會因此改變我們理解及組織社會的方式。

傳統數據分析方式無法適用于大數據

值得注意的是,數據采礦的相關技術及應用,早在90年代即已提出,無論是方法抑或是工具都已經相當成熟且完善,但過去數據采礦的工具與模組,往往是以單一機器的環境為對象,而非今日的分散式系統或云端運算環境。事實上,許多在單一的機器上很容易做到的事情,在分散式系統上會變得很難很復雜且困難。

因此,想要分析大數據,不能只是直接援用現有的數據采礦技術及應用,因為大數據分析所需要的數據庫管理系統,往往必須在數十、數百甚至數千臺伺服器上同時運行。根據KDnuggets網站調查,數據采礦分析使用平均約1~10GB的數據大小,與動輒數據量超過TB等級的大數據,差異非常的大。故數據探勘以往所能處理的數據,充其量只能稱為「大」數據,而非「巨量」數據。

除了量的變化外,目前的數據類型,也已經超越傳統數據庫或現有數據管理工具能夠處理的范圍。因為在爆炸性的數據增長過程中,結構性數據的成長相當緩慢,反觀非結構性的數據,包括視訊、網頁、智慧型手機、消費數據、位置數據、財務服務數據,以及社會媒體數據等。

而目前的數據庫解決方案,主要是用來設計儲存結構化數據,除了只能針對已知問題的回答速度進行優化外,架構本身往往就決定了內容形式,對于新數據型態與新問題,都有適應上的困難,加上擴展成本高昂,企業勢必得尋求不同以往的數據處理解決方案,才能面對爆炸性的數據增長。

大數據分析能力的四大原則

歷經過去幾年在技術上與觀念上的進展,大數據分析已經成為公私部門組織的競爭利器之一,甚至逐漸形成了跨越統計、資訊科技、行政管理等領域的數據科學領域。

由于大數據的特性難以用傳統分析方法進行分析,必須用進階的技術和演算法來解讀、儲存、分析與管理,如何培育并善用兼具Volume(數據數據的大量)、Velocity(數據分析的時效)、Variety(數據格式的多樣)與Veracity(數據內容的真實)所謂4V特質的大數據分析能力,也逐漸成為跨越統計、資訊、與特定業務領域的共同議題。

如新型禽流感疫情在2009年開始快速蔓延時,美國疾病管制局(Centers for Disease Control;CDC)要求醫生必須通報新型流感的病例,但傳統的報送作業方式往往需要約兩個星期的時間,這樣的速度也會讓公共衛生機構錯失防疫的先機。

Google工程師曾在科學期刊Natural發表有關流感的研究指出,他們將Google每天300萬個與禽流感相關的搜尋關鍵字,與CDC從2007到2008年的實際禽流感染案例,透過數學演算法進行相關性分析比對,最後找出45個與實際發生禽流感案例有很強相關性的搜尋項目組合,只要在特定區域發現這些搜尋項目組合,發生禽流感的案例也會隨之增多。

Google利用運算及線上查詢的優勢,提供更快速而精確的預測,協助公共衛生機構掌握疫情資訊,可見單單只有儲存數據量龐大是沒有任何用處的,因為數據并不會自己進行分析,想要從大量的資訊中得到價值,必須要找到新技術。

如位置訊息也是大數據分析一個非常重要的分析標的,大數據若能結合地理資訊系統,除了「人」的位置資訊以外,「物體」的位置也可以利用這類的裝置進行大量的蒐集,這些訊息也成為重要的分析數據,讓用戶的地理位置變成非常寶貴的數據。

亞馬遜(Amazon)在思考如何根據個別的消費習性,推薦特定的商品給消費者時,本來是用傳統的分析方法,直接從巨量的客戶數據中抽樣後,再分析客戶之間的相似度,但分析結果提供的建議卻很粗糙,如消費者只是購買一項嬰兒用品,系統卻只是推薦一大堆相類似產品。

亞馬遜後來意識到,系統不應該去比較客戶,而是要找出產品之間的關連,必須用到全部的數據,并在事前完成計算,才能夠在客戶購物時,很快地給出適當建議,結果也比先前成功,如喜愛A作者的讀者,未必會喜歡A作者全部的書,但經由關連分析後,卻可能會發現喜愛A作者的人,多半同時會喜歡B作者的書,這樣的大數據交叉分析,才會帶來更大的效益。

改變理解及組織社會的方式

雖然現在蒐集數據要比以前容易許多,但也因為數量前所未有的龐大,必須要找到一種大數據的分析方法,才能夠混和數據采礦過程,蒐集相關數據,進行相關分析,并找到真正可以操作的KPI,才會有很大的機會,找到分析標的的改善重點及方法,這也才是大數據分析應用的價值所在。

總上所述,大數據分析方法需要注意3個重點,并因此改變我們理解及組織社會的方式,第一大改變是能夠取得、分析的數據量大為增加,使用所有數據分析,而非抽樣篩選,可以讓我們清楚看見數據中最細致的地方;第二大改變是不再堅持一切都要做到精準,大數據分析雖可減少抽樣造成的誤差,仍必須對于測量上的誤差,給予一定程度的妥協,放棄百分之一百的精確;第三大改變是放下長久以來對于因果關系的堅持,而專注于發現事物的相關性,只找尋事情「正是如此」的答案,而不一定要了解某件事「為何如此」。

由此可知,對一個組織而言,大數據分析的最重要價值有二,其一是分析使用(analytical use),透過大數據分析,揭露數據隱藏的洞見,如顧客之間的同儕影響、消費者的交易習慣以及社會及空間數據的關系,這些洞見在過去往往因為數據分析的成本太高而被忽視;其二是開發新產品,大數據分析可以即時的處理與分析數據,以發現新的需求而刺激服務或產品的創新。

原文鏈接:http://www.thebigdata.cn/YeJieDongTai/13700.html

關鍵字:數據隱藏KDnuggets數據增長

本文摘自:中國大數據網

電子周刊
回到頂部

關于我們聯系我們版權聲明隱私條款廣告服務友情鏈接投稿中心招賢納士

企業網版權所有 ©2010-2024 京ICP備09108050號-6 京公網安備 11010502049343號

^
  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 丰县| 阜新| 黔西| 和顺县| 香港 | 疏附县| 峨山| 齐齐哈尔市| 云南省| 和平县| 陇川县| 苍山县| 宿松县| 洛川县| 瑞金市| 油尖旺区| 新龙县| 津南区| 鹿邑县| 商南县| 平潭县| 冕宁县| 深州市| 涞水县| 临漳县| 页游| 揭阳市| 鄂州市| 民县| 锡林浩特市| 鄂尔多斯市| 巨鹿县| 龙门县| 涟水县| 离岛区| 当涂县| 高密市| 桂林市| 璧山县| 津南区| 沽源县|