6月8日,國際科技數據委員會主辦的“大數據與科學發現國際研討會”開幕,近百位科學家共聚一堂,研討如何喚醒沉睡的“科學大數據”。大數據已經進入社會的各個層面,科學,商業,社會管理等等,無不都在探索大數據帶來的價值。統計作為一門研究數據的科學,在大數據時代下其作用和地位也在隨之提高。
今年3月份,《國家新型城鎮化規劃(2014-2020年)》發布,《規劃》第31章指出:加強城鎮化統計工作,順應城鎮化發展態勢,建立健全統計監測指標體系和統計綜合評價指標體系,規范統計口徑、統計標準和統計制度方法。加快制定城鎮化發展監測評估體系,實施動態監測與跟蹤分析,開展規劃中期評估和專項監測,推動本規劃順利實施。
大數據時代已然來臨,它對于當前統計學應用于社會的意義是什么?挑戰又在哪里?統計應用對于國家決策起著何種作用?針對這些問題,本報對話美國華人統計學家,美國百人會華盛頓地區共同主席胡善慶先生。
突破信息統計關鍵環節
科技日報:您如何看待中國對于數據的使用情況?
胡善慶:自2002年以來,中國積極整合和發展全國性的縱向數據系統,特別是建立各種定義、代碼、和標準,更是不遺余力,已經奠定了相當穩固的基礎。然而也存在不少薄弱的關鍵環節和諸多挑戰,包括數據的共享和公開,信息的及時和質量,統計的思維和設計,工具,例如地圖的智能化,此外還有數據收集和計算方法的透明化,符合應用既定標準和增強對不同信息的可用性和傳遞等等。其中一些問題是全球性的,有些則是中國特有的。
科技日報:如何理解統計對于國家政策的作用?
胡善慶:在過去的一個世紀,傳統普查和新引進的隨機抽樣調查共同被應用于各國人口和經濟的測量與推論。
不過人類活動是連續和動態的,普查只能為一個指定的普查日子或短暫時期提供一個比較全面的速映。通常普查結果在被宣布時,它們已經過時了。盡管如此,20世紀期間,這兩種統計數據方法在全世界支持決策、政策的制定和傳遞信息都非常重要。
美國、中國和其他國家都很普遍地舉行多范圍包括人口、經濟、工業和農業的普查和隨機抽樣調查。例如美國政府每月收集來自6萬個家庭的數據,來對國家就業形勢發表月度報告。根據這些數據計算得出美國失業率,僅約有0.2%抽樣誤差。美國有1.2億個家庭,共3.1億人,而關于其經濟的很多重大推論和政策就是由分析這些隨機抽樣數據而得出的。
中國也有人口和經濟普查。雖然每項普查都有不同的法律背景或動機,但最終目的是相似,都是為了提供有關聯的、及時的和可靠的數據,以用于研究、分析、支持最后決策。作為一個快速成長的經濟大國,中國的統計數字日益受到重視,并對世界具有重大影響力,但也面對許多相同的挑戰。
利用先進技術啟動統計2.0時代
科技日報:在統計應用上,您認為大數據時代的到來為統計學應用帶來何種契機?
胡善慶:我們知道,2000年以來,廉價捕獲和儲存大量電子數據的能力暴升,新方法也在不斷被發現和拓寬,大數據時代因此來臨。全球數據大量電子化及大數據爆發成長刺激和引起對更及時和更廣泛信息的更多要求。
但大數據的收集幾乎從不依照概率設計,且通常沒有結構,也就無法進行傳統的統計分析。大數據和先進技術則提供了一個啟動統計2.0的理想時機。
對復雜數據的可視化和處理必然成為統計2.0的核心環節,實現用統計的方法講故事。動態框架保留了傳統框架的原始功能,并能及時捕獲最新數據,有利于實時分析,并且動態框架能夠靈活拓展,促進創新實踐和創新產品。
倘若成本合適,并且能夠如同一個隨機樣本般呈現出高效率和高質量數據分析,我們有什么理由不去研究整個總體呢?但要注意,數據中所謂的“大”是一個相對的概念,它是根據樣本量在總體中所占的百分比而定,而并非是關于數據儲存量而定的絕對概念。
科技日報:那么如何理解之前的統計階段?也就是統計1.0
胡善慶:19世紀晚期,隨機抽樣的概念首次被引入,經過40多年的爭論,才被完全接受成為一門科學學科。一部分人慢慢開始關注隨機現象,并逐漸聚焦分析以隨機概率收集到的有代表性的數據,使統計成為專業,數理統計才因此迅速發展。
數理統計以概率為專業理論基礎,達成國際一致的標準認同,開啟統計1.0,并成為劃時代的分水嶺。但傳統的普查和隨機調查是靜態、定時的,它不可能毫無基本變化地滿足不斷擴張的動態需求。
21世紀統計系統和方法特征在于可精巧地應用大量縱向數據、連接組合多個數據來源、迅速簡單地遞送信息,同時能夠繼續嚴格保護穩私和數據安全,并認證準確與可靠度。
把大數據比作“泥沙”更貼切
科技日報:業界對于大數據的討論越來越熱,甚至有神話大數據的傾向,您認為大數據是泥沙還是金沙?
胡善慶:很多人會把大數據比喻為金沙,甚至覺得可以隨手可得,若果真如此,很多人早已發了大財。把大數據比喻為泥沙會比較貼切,但大量泥沙本身也有價值。古有堆沙成塔的說法,今日是硅片的原素,更高的價值則在于它是一門尚未完全開發的新學問。這一大堆泥沙當中,有時包含一些金沙,有時一點也沒有,極少場合之下,也會有很多。無論如何,都要投資費力,下工夫挖掘淘沙,沒有什么軟件或硬件可以取代。
科技日報:數據對于智慧城市的建設也至關重要,大數據時代下,您如何看待智慧城市在中國的落地情況?
胡善慶:中國推動智慧城市,使原來的全國性基礎數據庫支解到比較易于管理的市級制度,然后再總匯到省或較大地區的水平。到2013年底,中國已建立了至少193個智慧城市試點。無疑,在未來幾年內中國也會繼續推動實現建設更智慧的城市。
我了解到,2013年10月29日,中國首個城市公共信息服務平臺發布,現在平臺已在幾個智慧城市試點實施啟用。它提供了一站式中心,服務于百萬計市民,打破戶籍,使市民能夠用一個安全的智能卡作為額外渠道,實現以前分隔獨立的城市功能。
開拓這個系統就是一個溫和的小開端,它代表了實際工作在進展,有助于奠定基礎,并建設成功的中國城市信息學和應用。
在前段時間在伊利諾伊大學芝加哥分校研討會上,我們也做出了《通過大數據和統計看中國城市》的論文提案,現在提案已從90個提案角逐而出,準備參與8月份的二次會議。