對政府統(tǒng)計(jì)而言,大數(shù)據(jù)采用多種數(shù)據(jù)收集方式、整合多種數(shù)據(jù)來源,并采用現(xiàn)代信息技術(shù)和架構(gòu)高速處理及挖掘數(shù)據(jù),具有高度應(yīng)用價(jià)值和決策支持功能。一方面,統(tǒng)計(jì)調(diào)查主體的多元化發(fā)展趨勢和電子商務(wù)等領(lǐng)域的迅速發(fā)展,給統(tǒng)計(jì)數(shù)據(jù)的生產(chǎn)方式帶來了很大的挑戰(zhàn),不斷沖擊著政府統(tǒng)計(jì)管理體系與統(tǒng)計(jì)理念。另一方面,計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)和空間信息技術(shù)的巨大進(jìn)步,為提高統(tǒng)計(jì)生產(chǎn)力提供了廣闊空間。海量的電子化、非結(jié)構(gòu)化數(shù)據(jù),極大地豐富了統(tǒng)計(jì)數(shù)據(jù)的來源。
種類繁多的“大數(shù)據(jù)”,正日益成為官方統(tǒng)計(jì)部門研究應(yīng)用的方向。在這樣的背景下,探索大數(shù)據(jù)在政府統(tǒng)計(jì)中的應(yīng)用,把握這一促進(jìn)政府統(tǒng)計(jì)改革發(fā)展的機(jī)遇,對政府統(tǒng)計(jì)有著劃時(shí)代的意義。盡管近代統(tǒng)計(jì)學(xué)已經(jīng)發(fā)展了上百年,但是大數(shù)據(jù)時(shí)代的到來依然暴露出了統(tǒng)計(jì)學(xué)已有方法的缺陷,從抽樣調(diào)查和設(shè)計(jì)、數(shù)據(jù)管理和存儲(chǔ)到統(tǒng)計(jì)分析和計(jì)算,海量數(shù)據(jù)分析的需求都部分地顛覆了傳統(tǒng)的統(tǒng)計(jì)方法,這對統(tǒng)計(jì)學(xué)和統(tǒng)計(jì)學(xué)家是嚴(yán)峻的挑戰(zhàn)。
來自喬治·華盛頓大學(xué)的胡善慶教授依托豐富的政府實(shí)踐經(jīng)歷,提出了支持現(xiàn)代治理的統(tǒng)計(jì)學(xué)2.0的概念。相對于統(tǒng)計(jì)學(xué)2.0,胡善慶教授稱近代統(tǒng)計(jì)學(xué)是1.0時(shí)代,其特點(diǎn)是,統(tǒng)計(jì)數(shù)據(jù)來自普查或隨機(jī)抽樣,而非隨機(jī)收集的數(shù)據(jù)是無研究價(jià)值的。在20世紀(jì)這個(gè)統(tǒng)計(jì)學(xué)的黃金時(shí)代,統(tǒng)計(jì)學(xué)是作為一門應(yīng)用科學(xué)而存在的,統(tǒng)計(jì)學(xué)作為國際語言在政府、社會(huì)、經(jīng)濟(jì)和科學(xué)中幫助解決了許多實(shí)際問題。
以美國為例,美國政府廣泛采用隨機(jī)抽樣調(diào)查的方式,各行各業(yè)統(tǒng)計(jì)應(yīng)用普遍化,小樣本亦可產(chǎn)生大量數(shù)據(jù),計(jì)算機(jī)商業(yè)化帶來了計(jì)算方法的創(chuàng)新,統(tǒng)計(jì)軟件支持?jǐn)?shù)據(jù)收集與分析,數(shù)據(jù)文化深入到美國社會(huì)的各個(gè)層面。但是在21世紀(jì)統(tǒng)計(jì)學(xué)面臨很大挑戰(zhàn),過去是有問題才收集數(shù)據(jù),然后建立合適的統(tǒng)計(jì)模型來揭示觀測到的數(shù)據(jù),大數(shù)據(jù)時(shí)代則不同,需要從泥沙俱下的大數(shù)據(jù)中提煉出有價(jià)值的知識(shí)和信息,而這些有價(jià)值的知識(shí)和信息顯然是非預(yù)期的。
中國目前的很多追蹤調(diào)查項(xiàng)目都存在耗時(shí)過長的問題,中國的城鎮(zhèn)化、智慧城市建設(shè)、政府簡政放權(quán)、推進(jìn)監(jiān)管、國家統(tǒng)計(jì)局四大工程項(xiàng)目等都面臨諸多統(tǒng)計(jì)上的挑戰(zhàn)和需求,海量縱向數(shù)據(jù)的應(yīng)用,多種數(shù)據(jù)來源的整合,快速以及簡便的呈現(xiàn)結(jié)果,嚴(yán)格保護(hù)數(shù)據(jù)和系統(tǒng)安全,提高精度和可靠性等都是對統(tǒng)計(jì)的新要求。無論美國還是中國,使用20世紀(jì)的統(tǒng)計(jì)方法都不能解決21世紀(jì)的治理需求。如果我們可以用同樣的效率和成本收集數(shù)據(jù),實(shí)時(shí)分析總體,還需要隨機(jī)抽樣嗎?過去80年的數(shù)理統(tǒng)計(jì)何去何從?
大數(shù)據(jù)時(shí)代的重要意義在于大部分?jǐn)?shù)據(jù)已經(jīng)數(shù)字化,易于批量存儲(chǔ)和處理,并且數(shù)據(jù)來源多樣化、快速化,舊數(shù)據(jù)也可以有新用途。統(tǒng)計(jì)學(xué)2.0時(shí)代包含一個(gè)動(dòng)態(tài)的框架,要求有能力提供實(shí)時(shí)的結(jié)果和動(dòng)態(tài)的分析報(bào)告,動(dòng)態(tài)的框架可以提供更科學(xué)、更高精度、更能跟蹤、更快速的隨機(jī)抽樣。
基于此,胡善慶教授展望了2020年人口信息管理制度的整個(gè)框架,提出了統(tǒng)計(jì)學(xué)創(chuàng)新的一些獨(dú)到觀點(diǎn),比如,大數(shù)據(jù)需要統(tǒng)計(jì)設(shè)計(jì)、數(shù)據(jù)清洗和信息數(shù)據(jù)提煉才可能有價(jià)值或達(dá)到信息挖掘的最佳效果,統(tǒng)計(jì)學(xué)專長于分辨數(shù)據(jù)質(zhì)量和抽取最優(yōu)化信息,國際隊(duì)伍建設(shè)需要專業(yè)人才、完善的教育系統(tǒng)、悠長歷史、優(yōu)良信譽(yù)和扎實(shí)嚴(yán)謹(jǐn)?shù)乃季S、理論和應(yīng)用基礎(chǔ)等。動(dòng)態(tài)框架不但保留了框架原本的目的,即為普查以及隨機(jī)抽樣提供結(jié)構(gòu)基礎(chǔ),還有其他方面巨大的應(yīng)用潛力,這完全取決于統(tǒng)計(jì)學(xué)界的想象力和創(chuàng)新精神。統(tǒng)計(jì)學(xué)家應(yīng)該欣然歡迎大數(shù)據(jù)時(shí)代的到來,并把它看作是統(tǒng)計(jì)學(xué)本身的一個(gè)大變革,帶動(dòng)統(tǒng)計(jì)學(xué)在運(yùn)用數(shù)據(jù)研究社會(huì)和人類知識(shí)的實(shí)踐中達(dá)到一個(gè)新的高度。