國家統計局的“大數據夢”肯定不是說說而已,而在這場圓夢之旅中,作為中國互聯網翹楚的BAT(百度、阿里、騰訊)三家都不會缺席。
在19日上午召開的第五屆中國統計開放日上,國家統計局首次對外展示了其正在研究的基于百度搜索數據來預測房地產價格的新工具,并演示了這項工具對北京房價的驚人預測力。在開放日上,國家統計局也展示了新研發的網購數據統計,而其數據來源之一就是剛赴紐約上市的阿里巴巴。
騰訊也沒有缺席這場建立大數據統計的國家戰役。甫一開年,國家統計局局長馬建堂就馬不停蹄地走訪了中國最具代表性的互聯網企業。馬建堂的身影出現在京東商城和阿里巴巴,以及1號店、CBI易貿集團、百度等企業。今年6月末,馬建堂來到了騰訊,并從馬化騰手中接過了一個企鵝公仔。
百度如何統計房價
更為精確的房地產價格統計一直是政府希圖攻克的難題。因為個人隱私、陰陽合同等問題存在可能影響源頭數據的真實性,而現有房地產領域“數出多門”的情況也增加了“數據打架”的概率。
相對而言,海量的搜索數據不經意透露了真實的房地產走勢信息。
利用基于百度搜索數據,國家統計局篩選出同房地產價格有關的一系列關鍵詞,然后通過這些關鍵詞出現的時間頻次同以往實際發布的新房數據和二手房數據價格的走勢實施擬合并建立模型,最后根據所建模型預測未來房地產價格的走勢。這就是國家統計局新工具的基本原理。除了國家統計局之外,美國的谷歌也是在用這種原理來預測流行病的暴發趨勢。
利用這一工具,國家統計局在開放日現場演示了一把對北京房價的模擬和預測。
《第一財經日報》記者注意到,通過百度數據所得出的價格曲線預測值同實際價格曲線之間的擬合程度較高,其中百度搜索數據對二手房價格擬合效果比新房更好。這或許是因為剛需人群在尋找二手房交易時更能提供準確而真實的信息。
如果這項工具投入應用,官方內部有望提前多天就了解到下月房價的大致走勢。統計部門也希望,在房價實際數據出來后能使用這一工具檢驗官方數據的有效性,從而提升統計數據的有效性。
國家統計局同阿里巴巴的合作則由來已久。在向社會“找數據”的進程中,淘寶網是統計部門最先關注的大數據來源。因為淘寶網上的交易數據既是實時成交數,又真實有效,這正是統計部門以往驅動龐大的調查隊伍所希望尋找的絕佳數據。
早在2012年,國家統計局上海調查總隊就開始了網絡采價試點。上海調查總隊發現,淘寶網上有大量銷量較大但不在CPI統計內的產品,比如進口糖果、進口巧克力、進口餅干、進口奶粉、進口美容用品和鮮花快遞等,通過一定的方式這些產品都可以被整合進CPI。另外,原有CPI規格品中有的數據比統計部門抽樣調查得到的數據更為及時,比如書籍銷售價格就可以從亞馬遜、當當網、京東網上選取。上海的試點發現,2012年含網絡采價的CPI和不含網絡采價的CPI銜接性非常好。
統計局的互聯網思維
通過直接利用淘寶和天貓等電商交易平臺的數據,國家統計局就能統計出通過傳統調查無法拿到的網絡交易數據。今年初,國家統計局開始對外公布這一成果。數據顯示,上半年,全國網上零售額11375億元,同比增長48.3%。其中,限額以上單位網上零售額1819億元,增長56.3%,而同期的社會消費品零售總額只有12.1%。如果沒有網上銷售數據,市場也許會過低估計中國經濟增速放緩表象下的新經濟動力。
馬建堂在對騰訊調研時再次提出,要進一步打造現代化服務型統計。積極利用互聯網和無線移動等現代信息技術手段以及新興媒體等平臺不斷拓展統計服務渠道、提升服務品質。
他表示,要特別加強與大型綜合性互聯網公司的合作,利用他們已有的各類網絡平臺提供統計服務,不斷推動常規統計和各類普查數據和產品展示的空間化、可視化,為社會公眾提供更加優質、友好的統計服務。
為了給公眾提供貼身服務,就在這次統計開放日上,國家統計局推出了更新版的國家數據庫手機軟件,向海外推出了具有可視化功能的英文版的國家數據庫,還展示了未來將要推出的應用第三次經濟普查數據的地理信息系統。
利用這個地理信息系統,普通用戶能找到其自主劃定任意區域內的經濟單位數量、分布和單位基本信息,同時還可以圖形化顯示一個地區內行業和企業數量的分布。這就相當于一個商業的GPS導航,無論是規劃寫字樓、建設百貨大樓、選定物流中心還是找到合作伙伴,都可以用這一GPS在商業的“地圖”上自由馳騁。
用馬建堂自己的話說,大數據時代正在來臨,“這一滾滾浪潮浩浩蕩蕩、不可阻擋”。
而在這場革新之潮中,馬建堂領導的國家統計局也在構筑一個“統計夢”。在統計開放日上,馬建堂用一個人的頭腦四肢比喻他的統計夢想。
這個統計夢有正確的頭腦,“真實可信、科學嚴謹、創新進取、服務奉獻”的統計核心價值觀入腦入心,統領一切統計工作。有健壯的兩臂,一邊插上現代信息技術的翅膀,實現統計生產全流程、全方位的信息化、網絡化、電子化,實現統計調查和大數據共同成為統計基礎數據兩大來源;一邊是統計法制建設更加健全,依法統計、獨立調查蔚然成風。有魁偉的軀干,統計生產流程再造,統計人員通過電子手段直接采集數據,調查對象利用互聯網直接上報數據,同一平臺加工處理所有統計數據。有堅實的雙腿,就是統計基層工作得到進一步加強,數據源頭更加透明;統計業務基礎更加鞏固,統計標準更加統一健全,統計制度更加規范完備,統計方法更加科學先進。