《大數據》和《數據之巔》兩本書的作者涂子沛先生,不久前從美國硅谷回國,到阿里巴巴集團擔任了副總裁。他在很短的時間內,又寫了多篇關于大數據的文章。在接受采訪回答為什么回國的問題時,他再次強調了在《數據之巔》一書中的觀點,即“我國信息產業與工業、農業相比,與世界的差距是非常小的。在信息技術領域的應用創新,我們中國有能力有機遇和一流的發達國家比肩齊驅”。
他的這個觀點,早在2012年12月與多位美籍華裔專家學者、企業家、官員做客國家統計局時就有過表達。他與同行者還期待中國的統計工作能夠在應用大數據方面走在世界前列。兩年過去了,看來,他的看法沒有變。實際情況也確實如此。在去年10月底在北京召開的大數據國際會議上,當一個發言者介紹利用手機掌握旅游人數時,就有參會者提醒這樣的數據并不符合抽樣調查的代表性;當有人提出谷歌后來預測流感誤差很大時,也有人表示并不能因此否定其此前所做的努力。大家不僅在用相同的語言談論相同的問題,而且許多人在許多問題上真的心有靈犀。大會的發言與討論都表明,中國統計在應用大數據方面依然與世界同步前行。那么,再過兩年、三年、四年,這種局面是否依然如是,或是中國統計已經創造出領先世界的成功經驗?關鍵在于我們能否盡早突破大數據應用中的“瓶頸”。
研究表明,大數據有多種來源、多種類型。而大數據在政府統計中的應用,大致涉及兩個方面,即大數據信息本身以及獲取這些信息所需要的技術,且后者顯然要以前者為前提。只有清晰地知道我們要搜集什么信息、從哪里搜集、搜集信息要達到什么目的,才能提出明確的技術需求。而在利用大數據信息方面,最主要、最重要的內容,就是不斷取得越來越多的企業在生產經營過程中產生的越來越多的大數據信息。第一,是直接利用企業的大數據產品。如阿里巴巴的全網網購價格指數、百度搜索指數及中小企業景氣指數、卓創大宗商品出廠價格指數等,都已經納入統計部門的大數據旬報。第二,是與大數據企業共同開發新的大數據產品。如泛亞有色金屬交易所在統計專家的指導下,研發出泛亞有色金屬交易指數;1號店在上海統計部門的指導下,開發了1號店快速消費品價格指數。在以上兩個方面,都已經有多項大數據產品成為了統計部門分析判斷經濟形勢的參考。不是要替代現有的統計指標,而是多了一個參照系。特別是在諸多專業統計只有月報數據、且要經過若干環節才能出數的時候,一些以周報、旬報反映、乃至可以時時反映的大數據產品,就補充了現行統計制度及指標的不足,且可以成為我們評估數據質量時的一種依據。第三,也是最最主要和最最重要的一點是,獲取大數據基礎數據,使其真正成為政府統計數據源的第二軌。在這方面,諸多專業都在努力探索,但尚未取得實質性的突破。而在人們的衣食住行都已越來越多地融入浩瀚的大數據洪流、成為其中一朵朵浪花的大勢下,打造第二軌的時間、內容、形式和規模,都決定了中國政府統計在應用大數據方面能否繼續與世界并駕齊驅、乃至走在世界前列。
毫無疑問,相關的法律法規的完善是必需且急迫的。只有健全且強有力的法制保障,才能使政府統計在保護個人隱私和企業秘密的前提下,及時獲得所需的涉及第三方的大數據信息。統計指標、統計標準、各種分類、產品編碼的對應與轉換也是應該并可以著手去做的,且數據處理技術的研發也可以與制度方法的研究同步跟進。而最可以做、最有意義、最可以取得成果和突破的是,借鑒張保羅先生曾介紹過的新加坡經驗,在部分城市進行試點,建立起企業向政府統計部門提供電子交易記錄的制度。可以在不同區域選擇有關行業規上企業和采價點作為試點單位,要求其提供全部電子交易記錄。在此基礎上,進行專業指標特別是代表規格品的抽取和測算,總結經驗,逐步推廣。如果新加坡在全國可以這樣做,至少在我們大中城市中的商場和超市也可以逐步做到。屆時,大數據的應用就又會取得新的實質性進展。