麥肯錫在它的報告中這樣描述大數據:大數據是指無法在一定時間內用傳統數據庫軟件工具對其內容進行抓取、管理和處理的數據集合。IDC在它的報告中給大數據下了一個定義:大數據技術是新一代的技術與架構,它被設計用于在成本可承受的條件下,通過非常快速(velocity)的采集、發現和分析,從大體量(volumes)、多類別(variety)的數據中提取價值。
IDC的定義描述了大數據時代的三大特征,即俗稱的“3V”。第一個是Volume(海量),數據容量越來越大;第二個是Velocity(速度),數據量增長越來越快,需要處理的速度和響應越來越快;第三個是Variety(多樣性),指各種各樣類型的數據出現,過去的數據更多的是結構化的,現在越來越多的數據是半結構,甚至是完全沒有結構的數據,如文本、郵件甚至于語音、視頻等。“3V”是對大數據最基本特征的歸納,得到業界的共識。
雖然后續不斷有人增加對V的理解,如Value(價值),強調大數據中的總體價值大,但是價值密度低;也有Veracity(真實和準確),強調真實而準確的數據才能讓對數據的管控和治理真正有意義,也有Vitality(動態性)強調數據體系的動態性等,這些都有一定的道理,但都不及最初的“3V”具有代表性。