大數據的應用從需求角度出發,是物聯網的興起。隨著互聯網逐漸過渡到物聯網,網絡中互聯的主體可以不再是人,可以是智能終端、傳感器,乃至可穿戴設備。人們的各方面信息正通過無處不在的物聯網被采集、匯總和辨析,人類的生活最終進入虛擬化。數據得到爆發式增長,且成本越來越低。大數據革命正在對世界產生巨大的系統性影響和深遠意義。早在2012年美國就發布了《大數據研究和發展計劃》,并成立了“大數據高級指導小組”。歐盟也正在力推《數據價值鏈戰略計劃》,英國發布了《英國數據能力發展戰略規劃》,日本《創建最尖端IT國家宣言》和韓國的“大數據中心戰略”也陸續出臺。
上世紀80年代,未來學家托夫勒在那本聞名世界的《第三次浪潮》一書中就預言過:“如果說IBM的主機拉開了信息化革命的大幕,那么大數據才是第三次浪潮的華彩樂章。”因此,大數據作為未來國家發展的基礎設施,我國不應該落后于其他大國。可喜的是,國家級《關于促進大數據發展的行動綱要》于2015年8月19日正式通過,標志著我國已經啟動了大數據的后發之勢。因此,最為這一過程的蒞臨者更多是談幾點我對大數據的幾點體會。
世界的本質是數據
大數據有諸多定義,從麥肯錫的技術定義到維基百科的一個范性的概括,再到IDC(國際數據公司)被廣泛接受的四個特性――4V,即海量的數據規模(Volume)、快速的數據流轉和動態的數據體系(Velocity)、多樣的數據類型(Variety)和巨大的數據價值(Value)。大數據告訴了我們,現在以及未來的社會,數據至關重要,數據成為我們分析、決策的前提和基礎。
何為數據?就是有根據的數字編碼,這是人類度量世界萬物的一個尺度。早在古埃及,人類已經學會了通過數據來計量財富和日常的生活。歐洲的文藝復興后,數據開始進入人類的意識形態,可以刻畫自然乃至人文規律。隨著近現代信息技術的發展和數字化進程的日益深入,數據逐漸脫離了僅僅作為刻度表征的特性,成為世界萬物的量化映射。世界可以通過數據來表示,人類也可以通過數字化的信息對世界進行再認識,數據最終實現了主體地位,是客觀存在的一個體系。這也驗證了古希臘哲學家畢達哥拉斯“數是萬物的本原”的思想,世界的一切關系皆可用數據來表征。
大數據是方法論
如果說大數據是方法論,更多是分析、解決問題的一次變革。數量經濟學告訴我們,一個經濟過程的刻畫,背后潛在的原理是通過一般模型出發,參數靠近理論在樣本的空間內進行估計和檢驗,實現經濟過程的模型簡化,來探討和發現一種因果關系。因此這一過程難以避免分析主體依據變量對樣本進行必要的加工或調整,而大數據實現了用數據說話。先前分析問題的方式是一種小樣本的思維模式,建立在分析問題信息相對不全面的前提之上(樣本數據往往具有“一次性”)。
大數據理論的提出,本身基于海量數據,是一種全數據的思維方式,通過數據挖掘來獲得數據本身的含義,Let data say!因此,大數據強調的是整體、多樣、關聯、動態、開放、平等的新思維,通過關系的相關性來變革認識事物的方法。同時通過海量存儲、云計算、數據挖掘等信息技術實現思維理解的物理轉化。
大數據是國家整體競爭力的體現
大數據是國家未來現代化發展的基礎設施,因此大數據的實現必然是高投入、高技術門檻、周期長、資源匹配效率高的建設過程。不僅涉及建設的軟硬件,而且關于日后的管理、運營和相關服務的配套,是國家整體實力的體現。從廣義層面上講,大數據是由海量數據集合和對這些數據進行存儲、處理、分析的技術所組成的綜合性概念。那么從大數據的概念上理解,大數據基礎設施的建立必須形成以大數據為產業鏈條、縱橫交錯的生態環境。縱向來看,處于底層的是IT技術的開源項目,在這之上的是基礎架構、證析和應用。橫向來看,依次是基礎架構、證析和應用,其中的應用又必須依靠數據源。這樣看來,大數據真正從實現到最終的應用,國家層面需要在人才、財稅、科技金融等方面設計有利于數據人才和數據產業發展的政策,逐步建立有利于大數據金融研究與發展的制度法規體系。
最后,我想強調當前數據的開放問題。大數據的前提一定要落腳到數據,當前我們國家存在數據割裂、統計口徑不統一、數據重疊與失真等問題,這些都將嚴重制約未來大數據國家規劃的全面實現。因此,當前重中之重需要對“數據孤島”問題進行妥善解決,首當其沖是政府數據的整合和梳理,亟需中央政府各部委、地方政府間、各級監管機構等部門達成數據的流動與共享,同時在一定程度上實現部分數據的社會公布。因此,這需要政府進行頂層設計,建立法律規章,實現政府信息保密、私人信息私權向公權的讓渡、統計口徑的統一、數據清洗等工作。畢竟美國的數據開放,從1789年通過的《管家法》(House-keeping Act)到1966年通過的《信息自由法》(Freedom of Information Act),歷時近200年徹底建立了相對完善的美國數據開放制度體系。同時,大數據也并非一定是靈丹妙藥,它也肯定存在局限性(我們很難界定什么是“全數據”,只是一個相對概念),需要我們決策者用一種理性思維來認識并使用。