在計算機系統中,各種字母、數字符號的組合、語音、圖形、圖像等統稱為數據,數據經過加工后就成為信息。時下人類信息以每年50%的速度增長,大約每兩年就翻一番;數據海洋呈爆發式增長。
什么是大數據?有研究報告將大數據定義為,由數量巨大、結構復雜、類型眾多數據構成的數據集合,是基于云計算的數據處理與應用模式,通過數據的整合共享、交叉復用形成的智力資源和知識服務能力。大數據技術的戰略意義在于對這些有意義的數據進行專業化處理,從海量數據中發掘出真正的價值。
最早提出大數據時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來。”
大數據到底有多大?一組名為“互聯網上一天”的數據告訴我們,一天之中,互聯網產生的全部內容可以刻滿1.68億張DVD;發出的郵件有2940億封之多,相當于美國兩年的紙質信件數量;發出的社區帖子達200萬個,相當于《時代》雜志770年的文字量;賣出的手機為37.8萬臺,高于全球每天出生的嬰兒數量37.1萬……截止到2012年,數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。隨著計算機硬件成本、計算機內存成本的降低和超級集群計算機的產生,使得處理大規模的復雜數據成為可能,這樣就產生以結構化(股票交易數據)、半結構化(網絡日志)和非結構化(文本數據、音頻數據、視頻數據)為主的大數據。其中非結構化數據占互聯網數據總量的80%。
目前,一些專業人士將大數據概括為四大特征,即“四V”:數量大(Volume),數據量級已從TB(1012字節)發展至PB乃至ZB,可稱海量、巨量乃至超量;多樣性(Variable),數據類型繁多,多為網頁、圖片、視頻、圖像與位置信息等半結構化和非結構化數據信息;速度快(Velocity),數據流往往為高速實時數據流,而且往往需要快速、持續的實時處理,處理工具亦在快速演進,軟件工程及人工智能等均可能介入;價值高(Value),以視頻安全監控為例,連續不斷的監控流中,有重大價值者可能僅為一兩秒的數據流,360度全方位視頻監控的“死角”處,可能會挖掘出最有價值的圖像信息。