隨著大數據時代的深入發展,業界對于大數據的關注也日漸廣泛,究竟何為大數據,讓我們一起分析一下。
大數據所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中強調,大數據是指:不用隨機分析法(抽樣調查)這樣的捷徑,而采用所有數據的方法。大數據的4V+1O特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(真實)、Online(在線)。
大數據
Volume——數據量大
第一個特征是數據量大,包括采集、存儲和計算的量都非常大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T)。
Variety——類型繁多
第二個特征是種類和來源多樣化。包括結構化、半結構化和非結構化數據,具體表現為網絡日志、音頻、視頻、圖片、地理位置信息等等,多類型的數據對數據的處理能力提出了更高的要求。
Value——價值密度低
第三個特征是數據價值密度相對較低,或者說是浪里淘沙卻又彌足珍貴。隨著互聯網以及物聯網的廣泛應用,信息感知無處不在,信息海量,但價值密度較低,如何結合業務邏輯并通過強大的機器算法來挖掘數據價值,是大數據時代最需要解決的問題。
Velocity——速度快時效高
第四個特征數據增長速度快,處理速度也快,時效性要求高。比如搜索引擎要求幾分鐘前的新聞能夠被用戶查詢到,個性化推薦算法盡可能要求實時完成推薦。這是大數據區別于傳統數據挖掘的顯著特征。
Online——數據在線
數據是永遠在線的,是隨時能調用和計算的,這是大數據區別于傳統數據最大的特征。現在我們所談到的大數據不僅僅是大,更重要的是數據變的在線了,這是互聯網高速發展背景下的特點。比如,對于打車工具,客戶的數據和出租司機數據都是實時在線的,這樣的數據才有意義。如果是放在磁盤中而且是離線的,這些數據遠遠不如在線的商業價值大。
關于大數據特征方面,特別要強調的一點是數據是在線的,因為很多人認為數據量大就是大數據,往往忽略了大數據的在線特性。數據只有在線,即數據在與產品用戶或者客戶產生連接的時候才有意義。
D1Net評論:
用一個恰當的例子也解釋,假如某用戶在使用某互聯網應用時,其行為及時的傳給數據使用方,數據使用方通過某種有效加工后(通過數據分析或者數據挖掘進行加工),進行該應用的推送內容的優化,把用戶最想看到的內容推送給用戶,也提升了用戶的使用體驗。