精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

閑話大數據

責任編輯:editor005

作者:劉燊

2015-04-27 11:36:21

摘自:數據玩家

廣義上,對于任何事物、任何現象,以任何方式記錄下來的信息,都可以稱作數據(Data)。根據以往的資料,Google流感預測趨勢的分析結果與美國聯邦疾病預防與控制中心公布的結果十分相似(見圖,藍色代表Google的結果,黃色代表聯邦疾病防控中心的結果)。

  什么是大數據?要了解這個問題,我們首先要了解:什么是數據?

廣義上,對于任何事物、任何現象,以任何方式記錄下來的信息,都可以稱作數據(Data)。嚴格來說,人類從第一次在石頭上刻錄符號的那一天開始,就進入了數據時代。數據,本質上就是記錄下來的信息。毫不夸張的說,任何事物或現象都可以被量化,或者說被數據化,換言之,在數據科學家看來,世間萬事萬物皆數據。而大數據,正是這一信條的堅定追隨者。

一般來說,任何與大數據有關的概念,都需要在一定程度上和以下的四個V產生聯系:

·Volume(容量)

·Velocity(速率)

·Variety(多樣性)

·Value(價值)

這四個V,定義了數據的四個維度。而有關數據的一切活動,包括獲取、記錄、挖掘、分析、整合等等,在這四個維度上的拓展和延伸,都可稱作是大數據行為。下面,我們分別來看看這四個V是如何在實際生活中發揮作用的。

1. Volume(容量)

提到大數據,人們最容易想到的就是“大量的數據”。雖然這樣的“成見”被各路專家詬病已久,但不得不承認的是,大量的數據的確是人們進行精確量化分析的基 礎。單個的數據意義不大,但大量的數據累加,就會產生重大的意義。好比在零售業,一個顧客的購買偏好不是那么重要,但一萬個顧客的購買偏好就會對決策者產 生重大的影響,而一億個顧客的偏好足以重新定義市場。從哲學上說,這就是量變到質變的轉化。

關于“大容量數據”,一個有名的例子是Google于2008年推出的Google流感預測趨勢(Google Flu Trends, 簡稱GFT)。GFT來自一個很簡單的想法:在流感爆發的季節,人們在Google上搜尋流感防治相關資訊的比例會增加。通過分析海量的關鍵字(比如“咳嗽”、“發燒”等)搜尋記錄,可準確且快速的預測流感將在哪些地區出現,以及對應的傳播范圍。

再比如,2014年,美國舊金山附近發生了一場6.0級的地震,地震發生時間大約是凌晨的3點20分。 第二天,有一個可穿戴式設備的制造商發布了一組大數據,他們發現通過他們的可穿戴式設備他們可以知道在地震的時候有多少人醒了,多少人翻身,并且可以明顯 的看到隨著離震源的距離不斷變大,醒來和翻身的人數逐漸減少。在科學家看來,這件事情具有劃時代的意義,因為這是人類歷史上第一次能夠宣稱說有一天晚上我 們知道這個地區有多少人處于深度睡眠,有多少人處于淺度睡眠,有多少人醒來,并且是在什么時刻醒來,又有多少人過了多久再次睡著。如果你對數據分析有著敏 銳的嗅覺,你會發現這是一件很恐怖的事情。為什么?因為單單是這樣的睡眠數據就已經能夠解釋太多問題了!比如,為什么第二天這個地區的交通事故增加?為什 么藥店的某種藥物銷量劇增?為什么購買暖色服裝的人數減少?為什么某個電視頻道變得更受歡迎?…..心理學家或者社會學家還能用這些數據解釋更多的問題,這是在十年之前不能想象的事情。

在上面這個故事中,我們不妨想想,假如是你,你為什么要戴上可穿戴式設備?你是為了收集你個人的睡眠數據,用以監控你的健康狀況。然而,當有千萬個和你一樣 的人在做同樣事情的時候,這些數據匯集到一起,能解釋的事情就遠超個人本身了。這叫做數據的外部性。換言之,數據的作用超出了最初收集它的目的。本來這些 數據是為個人健康服務,但事實上一旦容量足夠大,它就可以在更高的層次上解釋更宏觀的事情。通過在不同層次上的應用,數據的作用和價值被層層放大,這就是 大容量(Volume)數據的優勢。

2. Velocity(速率)

大數據的高速率特性,主要體現在數據的生成、采集和分析上。在傳統的數據分析領域,數據從采集、處理到分析,要經過一段較長的時間。而在高速率的數據環境下,由于每時每刻都有大量數據產生,我們必須對數據進行實時的收集和分析,以免造成數據的流失。

還是看看Google(沒辦法,這是大數據分析的龍頭老大)。Google地圖里包含了實時路況分析功能,可以實時判斷某一路段車流大小,從而為道路使用者提供最優化的交通方案。這一功能的實現,就是基于高速率數據采集與分析的技術。比如在某個路段內,Google通過帶GPS功能的手機以及其他移動設備匿名收集信息,當你允許Google Maps獲取你的地址時,手機會上傳你移動的速度到服務器。這些移動設備會向Google的分析中心提供實時的數據,而分析中心可以利用這些數據快速推算出該路段的擁堵狀況,從而實現實時路況分析。


  之前提到過的Google流感預測也是一個很好的例子。Google挑選美國九個區域進行流感預測趨勢的測試,發現這個技術可以比美國聯邦疾病預防與控制中心提前一到兩周準確預測流感的爆發。因為傳統的流感監測系統要用7到14天來收集和發布監測數據,而Google對關鍵詞搜索數據的分析可以在極短的時間內自動完成。根據Google的軟件工程師的評估,這個流感預測趨勢可以為流感的爆發提供一個早期的預警系統。


  根據以往的資料,Google流感預測趨勢的分析結果與美國聯邦疾病預防與控制中心公布的結果十分相似(見圖,藍色代表Google的結果,黃色代表聯邦疾病防控中心的結果)。另外,這套預測系統在其他國家也有不俗的表現。

3. Variety(多樣性)

數 據的多樣性,主要體現在兩個方面:一是數據的來源多樣,二是數據的形式多樣。拿衛生保健數據舉例,大致有藥理學科研數據,臨床數據,個人行為和情感數據, 就診索賠記錄和開銷數據四類,而每一類數據的形式也千差萬別(比如臨床數據就包括病歷的文本數據,醫患的電子郵件記錄,電話記錄,醫學儀器診療結果等 等)。而對于不同來源、不同形式的數據加以挖掘和整合,是讓Variety產生價值的關鍵。

例如,北京市交通智能化分析平臺數據源來自路網攝像頭/傳感器、地面公交、軌道交通、出租車以及省際客運、旅游、化危運輸、停車、租車等運輸行業,還有問卷調查和GIS數據。這些數據從Volume和Velocity上也達到了大數據的規模:4萬輛浮動車每天產生2000萬條記錄,交通卡刷卡記錄每天1900萬條,手機定位數據每天1800萬條,出租車運營數據每天100萬條,高速ETC數據每天50萬條,針對8萬戶家庭的定期調查,等等。分析這類數據的重點,在于發掘這些形態各異、快慢不一的數據流之間的相關性。甚至,交通數據與其它領域的數據也存在較強的相關性。有研究發現,可以從供水系統的數據中發現晨洗的高峰時間,加上一個偏移量(通常是滯后40-45分鐘)就是交通早高峰時間。同樣,可以從電網數據中統計出傍晚辦公樓集中關燈的時間,加上偏移量來估計出晚上的堵車時點。之前提到的交通事故率與睡眠質量的關聯,也是同一個道理。


  在疾病防控領域,處理多樣性數據往往會帶來理想的結果。流行病的發生和傳播有一定的規律性,與氣溫變化、環境指數、人口流動等因素密切相關,如果在數據的獲取和分析中把這些因素全部考慮進去,其可靠性會比單單分析關鍵詞搜索數據更高。和Google的GFT相比,百度的疾病預測考慮得更加周全。在關鍵詞搜索數據的基礎上,百度把微博、天氣、人群遷徙、用戶屬性、地面環境、甚至航班起降等數據一并加入預測模型。此外,Google用的數據依賴于Google Correlation產品,而百度則是直接從原始日志中進行清洗、消岐、擴展和分析,在數據上做得更加細致,也由此可以提供更加有效的判斷。

4. Value(價值)

值得注意的是,傳統意義上對于大數據的理解并不包含Value。大數據分析在它的初始階段僅僅著重于前三個V, 數據科學家們也往往只專注于數據處理的技術,卻忘了用它創造價值。然而隨著大數據的概念在企業中變得越來越普及,數據背后所蘊含的價值越來越受到決策者的 重視。無論任何形式的數據,如果不能為企業(或者其擁有者)帶來價值,那么它對于決策者而言是沒有任何意義的。反之,無論任何形式的數據,只要能創造價 值,決策者就應該加以利用和分析,即使它的容量、多樣性和速度并不是十分理想。

舉例來說,許多服裝的零售商開始嘗試一種新的數據記錄與分析的方法,來提高他們的利潤。他們在每件服裝上都安裝了一個射頻識別碼(RFID), 只要有顧客將衣服拿進試衣間,這個識別碼就會被記錄下來并傳送至公司總部的數據庫。換言之,每一件服裝,在什么國家什么城市的哪個分店,在什么時間被顧客 帶到試衣間,停留了多長時間,都被系統毫無遺漏的記錄下來并加以分析。不要小看這些“試衣間數據”,它們背后的價值不可限量。比如說,假設公司總部發現某 種服裝銷量很低,這種產品通常會被停止生產。但如果“試衣間數據”顯示這種服裝雖然銷量低,但被顧客帶進試衣間的次數多、時間長,那就說明它具有相當的吸 引力,決策者也就不會簡單粗暴的讓該產品下架,因為或許一點小小的改變就可以讓它的銷量飆升。

  小結

  人類社會的今天,在種類繁多的領域里,每天都有海量數據以驚人的速率產生。而對這些數據的獲取、記錄、挖掘、分析與整合,使之產生巨大的價值,這就是大數據的概念。在大數據這片浩瀚的海洋里,人們駕著一葉扁舟該何去何從,這需要大數據分析技術(Big Data Analytics)加以引導。在下一篇文章里,數據玩家會向大家介紹大數據分析中的幾條“顛覆性”原則,敬請期待!

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 从江县| 鲁山县| 翼城县| 岑溪市| 南靖县| 富宁县| 防城港市| 道孚县| 皋兰县| 灵武市| 遂宁市| 盐池县| 苍山县| 阿坝| 双柏县| 安泽县| 治多县| 佳木斯市| 伽师县| 阿鲁科尔沁旗| 徐州市| 宜良县| 新和县| 榆中县| 册亨县| 清河县| 方城县| 博爱县| 乐安县| 乐清市| 奉节县| 汝南县| 南丰县| 苏尼特右旗| 嘉定区| 四川省| 遂宁市| 乃东县| 察隅县| 台北县| 三都|