7月中旬以來,從中央到地方,今年上半年經濟社會發展的統計數據陸續進入人們的視野。在觀察、使用統計數據時,類似“大數據時代怎樣用好數據”這樣的話題,再次引起人們的關注。
7月20日出版的《人民日報》,刊發了清華大學統計學研究中心主任劉軍做客人民日報、人民網《文化講壇》時,對相關問題所做的介紹和分析。其內容包括:
什么是數據?
數據(data)在拉丁文里是“已知”的意思,在英文中的一個解釋是“一組事實的集合,從中可以分析出結論”?;\統地說,凡是用某種載體記錄下來的、能反映自然界和人類社會某種信息的,就可稱之為數據。古人“結繩記事”,打了結的繩子就是數據。步入現代社會,信息的種類和數量越來越豐富,載體也越來越多。數字是數據,文字是數據,圖像、音頻、視頻等都是數據。
什么是大數據?
量的增多,是人們對大數據的第一個認識。大數據區別于數據,還在于數據的多樣性。從數據到大數據,不僅是量的積累,更是質的飛躍,海量的、不同來源、不同形式、包含不同信息的數據可以容易地被整合、分析,原本孤立的數據變得互相聯通。這使得人們通過數據分析,能發現小數據時代很難發現的新知識,創造新的價值。
大數據時代,統計學是數據分析的靈魂。
大數據告知信息但不解釋信息。打個比方,大數據是“原油”而不是“汽油”,不能被直接拿來使用。大數據時代,統計學依然是數據分析的靈魂。正如美國加州大學伯克利分校邁克爾·喬丹教授指出的,“沒有系統的數據科學作為指導的大數據研究,就如同不利用工程科學的知識來建造橋梁,很多橋梁可能會坍塌,并帶來嚴重的后果。”
事物的發展充滿了不確定性,而統計學,既研究如何從數據中把信息和規律提取出來,找出最優化的方案;也研究如何把數據當中的不確定性量化出來。
劉軍的介紹與分析,幫助我們認識到,從數據到大數據,伴隨質的飛躍;通過對海量數據的整合、分析,可以發現新知識、創造新價值;大數據時代,統計學肩負從數據中提取規律、量化數據中的不確定性等使命。