通過大數據,我們能夠認識復雜系統的新思維,促進經濟轉型,提升國家綜合能力,保障國家安全等。
所謂大數據,是信息化到一定階段之后必然出現的一個現象,主要是由于信息技術的不斷廉價化,以及互聯網及其延伸所帶來的無處不在的信息技術應用所帶來的自然現象。基本上,大數據有四個驅動力,即摩爾定律所驅動的指數增長模式;技術低成本化驅動的萬物的數字化;寬帶移動泛在互聯驅動的人機物廣聯連接;云計算模式驅動的數據大規模的匯聚。
當前,大數據開啟了信息化的第三波浪潮。如果我們回顧來看,大體上能夠看到兩個明顯的階段劃分,一個是從PC機進入市場帶來的信息化的第一撥浪潮,這個浪潮差不多到上世紀90年代中期,這個時候的主要特征是單機應用為特征的數字化。過去的20年來,從上世紀90年代中期到現在,是以互聯網應用為特征的網絡化。現在我們正在進入新的階段,即以數據的深度挖掘和融合應用為特征的智慧化。
那么,到底什么才是大數據呢?這個定義可以從兩個角度來談。從技術能力的視角來說,大數據指的是規模超過現有數據庫工具獲取、存儲、管理和分析能力的數據集,同時并不是超過某個特定數量級的數據集才是大數據。
從數據內涵的視角來說,大數據是具備海量、高速、多樣、可變等特征的多維數據集,需要通過可伸縮的體系結構實現高度的存儲、處理和分析。
那么,大數據給我們帶來什么樣的挑戰呢?我覺得最重要的,可能是帶來思維模式的變化。通過大數據,我們能夠認識復雜系統的新思維,促進經濟轉型,提升國家綜合能力,保障國家安全,提升政府的治理能力以及服務民生、服務社會的能力。
就我個人覺得,目前來講,大數據還處在炒作的階段,至少在我國炒作的熱潮還沒有過去,真正的大數據應用應該體現在數據挖掘的深度。
這是為什么呢?原因有三點:首先有我們當前對數據認識不到位的原因,還有在當今的情況下大家對大數據都很熱衷,使其成為獲取資源的一個途徑。第二個,是大數據投入過熱,資源的浪費比較明顯,這方面的投入特別以數據中心的投入最為典型。第三個,就是我們認為大數據的理論和技術都還處于發展的早期,盡管對大數據的定義已經有了共識,但是對它的核心觀點和命題還是有很多爭議的,比如說大和小到底怎么來定義等等。
此外,對我們做計算領域研究的人來講,總是希望能夠為數據的處理方式提供一種手段,但當前數據科學的理論基礎還沒有,很多數據分析的結論基本上缺少因果,缺少理論知識,都是靠關聯關系建立起來的。總之,大數據這個現象可能會長期存在,對我們計算能力的挑戰也是永恒的。