在這個互聯網時代,數據技術時代,大數據(Big Data,BD)是構成信息化世界的基本元素,組成了互聯網上紛繁龐雜的知識和數據資源。通過合理的挖掘工具進行分析處理,可以形成國家、企業、機構管理運營的策略指南,可以是科研中的離子對撞機每秒運行產生的量子世界,也可以是有效避免和防范自然災害的預警機制,還可以是反對恐怖主義的有力武器……
一、大數據概念的起源
1980年,未來學家阿爾文托夫勒將大數據稱作“第三次浪潮的華彩樂章”;
2005年,Hadoop項目誕生,從技術層面上搭建了一個使對結構化和復雜數據快速、可靠分析變為現實的平臺;
2008年起,“大數據”成為互聯網信息技術行業的高頻詞匯;
2011年,IBM的沃森超級計算機每秒可掃描并分析4TB的數據量;同年,麥肯錫第一次全方面地介紹和展望大數據;
2012年,美國軟件公司Splunk成為第一家上市的大數據處理公司;
2014年,世界經濟論壇以“大數據的回報與風險”為主題發布了《全球信息技術報告(第13版)》……
大數據從哪里來?大體可以簡單概括成以下幾類:第一,物質世界本身數字化產生的大數據。例如一些醫療服務類網站,將醫生信息、門診信息等現實事物數字化,形成了大量網絡數據。第二,互聯網交流不斷產生的大數據。大量移動電子終端設備的出現,更加快了互聯網信息制造的速度。第三,各種數據的積累、沉淀、及保存產生大數據。隨著科技進步,時代變化,高性能存儲設備日益發展普及,使越來越多的數據得以持續保存,形成越發龐大的數據集。
二、大數據究竟指什么?
大數據,顧名思義,海量數據或巨量數據。不同機構有不同的定義,基本上大同小異:Gartner公司認為“大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產”;麥肯錫全球研究所認為,大數據是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合。
大數據有四個特點:第一,數據體量巨大。可以稱之為海量或天量;第二,數據類型繁多。涉及到人類生活方方面面所產生的數據源;第三,處理速度快。瞬間可從各類數據中快速獲得高價值的信息;第四,數據動態變化。不斷有新數據增加,采用合理的數據模型和分析處理方法,將會帶來很高的經濟和社會效益。
究竟大到多少才算是大數據?從數字上說,到2012年,互聯網數據量已經從TB(1024GB=1TB)級別躍升到PB(1024TB=1PB)、EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級別。據估計,到2020年,全球數據量將達到2015年的44倍,增長速度超過摩爾定律。
根據維基百科的定義,大數據的大小從TB到PB級別不等。然而,到目前為止,尚未有一個公認的標準來界定“大數據”的大小,其數據價值才是大數據的存在意義。換句話說,“大”只是大數據的一個表示容量的特征,并非全部含義。
三、大數據的意義與應用
剛剛過去的十一月,本人有幸當面請教數據庫創始人、圖靈獎得主Micheal Stonebraker,他認為,大數據這個詞事實上是一些做營銷的人發明的。提到意義、提到價值,首先就要將大數據聯系到企業組織與管理方面,對大數據的合理解析可以幫助他們降本增效、做出更明智的市場決策,可以利用大數據進行精準營銷與投資規劃等等。
大數據分析相比于傳統的數據挖掘分析,具有數據量大、查詢分析復雜等特點,大數據與云計算密不可分。大數據需要結合新的處理模式才能產生具有更強的決策力、 流程優化能力等多樣化的信息資產。大數據技術的戰略意義不在于掌握龐大的數據信息,而在于掌握對這些含有意義的數據進行專業化處理的技術。
如果將“大數據”在經濟發展中的意義當作其全部價值,那確實有些坐井觀天,違背大數據的內涵本身了。大數據在當前為人們發掘利用,對社會、軍事、生活等眾多領域所產生的影響既具有廣度又具有深度。例如:許多國家政府機構建立了用于身份管理的生物識別數據庫;美國政府通過啟動Data.gov網 站的方式進一步開放了政府數據的大門;歐洲一些領先的研究型圖書館和科技信息研究機構致力于改善在互聯網上獲取科學數據的方便性等等。不難看出,大數據作為一種重要的戰略資產,已經不同程度地滲透到各個行業領域和部門,其深度應用不僅有助于企業經營活動,還有利于推動國民經濟發展,可以說,大數據是一種反 映社會競爭力的軟實力,是一種無形的資產,是一件隱形的武器,蘊含著很多占領先機的優勢。
大數據的特色在于對海量數據進行分布式數據挖掘,它必須依托互聯網的云服務進行分布式處理、分布式數據庫和云存儲等。如果把大數據比作一種產業,那么這種產業實現盈利的關鍵是提高對海量數據的“加工能力”。簡單地說,大數據技術就是從各種各樣類型的數據海洋中,快速獲得有價值信息的能力。