對于普通人來說,大數據離我們的生活很遠,但它的威力已無所不在:信用卡公司追蹤客戶信息,能迅速發現資金異動,并向持卡人發出警示;能源公司利用氣象數據分析,可以輕松選定安裝風輪機的理想地點;瑞典首都斯德哥爾摩使用運算程序管理交通,令市區擁堵時間縮短一半……這些都與大數據有著千絲萬縷的關系。
牛津大學教授維克托·邁爾-舍恩伯格在其新書《大數據時代》中說,這是一場“革命”,將對各行各業帶來深刻影響,甚至改變我們的思維方式,但同時它也引發“數據暴政”的擔憂。
如今,信息每天都在以爆炸式的速度增長,其復雜性也越來越高,當人類的認知能力受到傳統可視化形式的限制時,隱藏在大數據背后的價值就難以發揮出來。理解大數據并借助其做出決策,才能發揮它的巨大價值和無限潛力。
大數據有哪些類型?
交易數據
大數據平臺能夠獲取時間跨度更大、更海量的結構化交易數據,這樣就可以對更廣泛的交易數據類型進行分析,不僅僅包括POS或電子商務購物數據,還包括行為交易數據,例如Web服務器記錄的互聯網點擊流數據日志。
人為數據
非結構數據廣泛存在于電子郵件、文檔、圖片、音頻、視頻,以及通過博客、維基,尤其是社交媒體產生的數據流。這些數據為使用文本分析功能進行分析提供了豐富的數據源泉。
移動數據
能夠上網的智能手機和平板越來越普遍。這些移動設備上的App都能夠追蹤和溝通無數事件,從App內的交易數據(如搜索產品的記錄事件)到個人信息資料或狀態報告事件(如地點變更即報告一個新的地理編碼)。
機器和傳感器數據
這包括功能設備創建或生成的數據,例如智能電表、智能溫度控制器、工廠機器和連接互聯網的家用電器。這些設備可以配置為與互聯網絡中的其他節點通信,還可以自動向中央服務器傳輸數據,這樣就可以對數據進行分析。機器和傳感器數據是來自新興的物聯網(IoT)所產生的主要例子。來自物聯網的數據可以用于構建分析模型,連續監測預測性行為(如當傳感器值表示有問題時進行識別),提供規定的指令(如警示技術人員在真正出問題之前檢查設備)。
使用大數據需要用到哪些技術?
可視化分析
大數據分析的使用者有大數據分析專家,同時還有普通用戶,但是他們二者對于大數據分析最基本的要求就是可視化分析,因為可視化分析能夠直觀地呈現大數據特點,同時能夠非常容易被讀者所接受,就如同看圖說話一樣簡單明了。
數據挖掘算法
大數據分析的理論核心就是數據挖掘算法,各種數據挖掘的算法基于不同的數據類型和格式才能更加科學地呈現出數據本身具備的特點,也正是因為這些被全世界統計學家所公認的各種統計方法(可以稱之為真理)才能深入數據內部,挖掘出公認的價值。另外一個方面也是因為有這些數據挖掘的算法才能更快速地處理大數據,如果一個算法得花上好幾年才能得出結論,那大數據的價值也就無從說起了。
預測性分析能力
大數據分析最重要的應用領域之一就是預測性分析,從大數據中挖掘出特點,通過科學地建立模型,之后便可以通過模型帶入新的數據,從而預測未來的數據。
語義引擎
大數據分析廣泛應用于網絡數據挖掘,可從用戶的搜索關鍵詞、標簽關鍵詞或其他輸入語義,分析、判斷用戶需求,從而實現更好的用戶體驗和廣告匹配。
數據質量和數據管理
大數據分析離不開數據質量和數據管理,高質量的數據和有效的數據管理,無論是在學術研究還是在商業應用領域,都能夠保證分析結果的真實和有價值。大數據分析的基礎就是以上幾個方面,當然更加深入大數據分析的話,還有很多更加有特點的、更加深入的、更加專業的大數據分析方法。