幾年很熱門的大數據問題在主要研究數據、用數據說話的人口學界卻很冷清。除王廣州專門發文討論過大數據時代人口學的創新問題(王廣州,2015; 2017)外,其他人很少進行正式討論。具體研究方面,僅有少數幾個作者用戶籍登記數據(王莉,2011)、婚姻登記數據(高穎等,2011到2016的系列文章)、手機信令數據(王德等,2016)、燈光遙感數據(高倩等,2017)、百度遷徙數據(趙梓渝,2017;蔣小榮,2017)做了些研究發表在人口學的幾大期刊上。為什么會出現這種情況?
一、人口學大數據研究討論還較少的原因
大體而言,這和中國大數據的開放現狀、人口學研究取向以及人口學者的訓練都有一定關系。
一方面,人口學研究講求量的準確,而能提供這種準確度的大數據不多。用南佛羅里達國際大學的賴慶博士的話說,人口學是“定于量”的,不像社會學“化為量”即可。關于中國的生育水平,人口學界爭論了二十多年,就是為了確定中國的總和生育率到底是在大約1~2之間的哪個具體小數上。
其次,近十多年來,確實有越來越多的信息被電子化,甚至量化,但是諸如普查數據、戶籍數據、婚姻登記數據、出生數據、教育學籍數據,以及醫保、交通、勞保、不動產、銀行等公共部門掌握的微觀個人數據開放獲取的可能性仍很低。已開放的數據往往只是一些互聯網企業有限開放或可公開爬取的異形數據或零碎的、不系統的文本、圖片、視頻數據。這些數據往往缺乏基礎性的社會人口變量,而且大多沒有解決樣本的代表性和測量準確性問題,無法對人口學所關心的數量、結構、過程做出精確估計。因此,人口學者通常也不敢用這些數據。
再者,人口學者不太擅長用這些新數據。人口學擅長年齡、隊列分析,經常要求年齡別或者五歲組的統計指標,這就要求各年齡組都具有獨立的代表性,樣本規模要求很大。一直以來,人口學者主要依賴權威部門(統計局,衛計委)發布的匯總數據或者大規模的抽樣數據(包括統計局的普查、小普查的樣本數據,人口變動抽樣調查數據,衛計委組織的流動人口動態監測調查數據和計生服務與生育狀況調查數據等少數微觀樣本數據,以及各種教育、衛生、戶籍、人口匯總數據,或各單位自己組織的小規模樣本調查數據)來做研究。說人口學者會玩數據,是因為他們擅長于開發利用匯總數據,較早使用計算機處理微觀數據,而且可能處理過體量比較大的數據(如普查數據)。 這些數據結構通常很簡單,變量也不太多。但采集和處理異形數據(如訪談文本)的經驗較少,比社會學家更挑數據,更依賴公共部門;另外,他們中真正接觸到超大規模原始業務數據(樣本量千萬以上的如戶籍數據、全員人口監測數據、學籍數據)的并不多,很多還需要依賴掌控這些數據的業務人員進行查詢和匯總。可以說,在面對新型大數據、異形數據,國內人口學者的實際處理能力還有待提高。比方說,新型大數據中空間信息和社會網絡信息越來越多,國內人口學者對這些新信息的理解和處理能力就還比較有限,相當部分研究主要由地理學專家貢獻。
總而言之,不能用、不敢用和不會用阻礙了在量化方法基礎相對較好的人口學者對大數據的探索和發言。盡管社會上大數據的口號喊了很久,但國內基礎性公共數據不可得的情況未明顯改觀,使得即便討論也容易變成紙上談兵,而夸夸其談也不符合人口學者的形象。
二、人口學該如何接觸和開發大數據
在這種情況下,人口學者是不是光等著掌握數據的公共部門開放數據就可以了呢?面對越來越多的基于互聯網和智能設備的新數據、異形數據,人口學者能在推動這些大數據的應用方面有所作為嗎?這些新數據對人口學者回答傳統研究問題有幫助嗎?這就首先需要弄清楚所謂的大數據到底包括哪些數據,哪些與人口學關注的核心變量或問題相關?然后想辦法接觸和開發這些數據。
今天所謂的大數據主要來自兩個方面,首先是政府及公共部門日漸電子化的基礎業務數據。王廣州將之分為全員人口數據和特定人群數據,如戶籍、生育、死亡、醫療和遷移登記數據等等。以往很多紙質版的、分散的資料,現在大多都電子化,并聯網統一。這些業務、臺賬、調查數據包含大量的人口變量信息和社會屬性信息,如果合理開放,能幫助人口研究者更好地研究人口的生、老、病、死、遷移流動以及行為活動。并且可以把研究做到很小的區域范圍內,突破以往研究中研究精細度和研究規模之間此消彼長的矛盾。王廣州研究員強調的就是這類數據。
但是這些數據(包括人口普查樣本數據)直到現在仍極少向人口學者開放,部門之間分割嚴重,很少互聯互通。這些數據已經存在那里了,花了大價錢,相關部門也逐漸認識到它們的價值,如果關聯串并整合起來,價值會更大。但很可惜,部門利益或過度敏感等原因,使得這些數據的開放、整合困難。封鎖在那里,不斷貶值。晚開發一天,信息就過時貶值一天。數據采集項目不是花完錢收集好就完了的,更重要的是數據開發。而且開發使用者越多越好,因為數字資源具有很強的外部性,非排他性。一些被擔憂的問題本可以通過技術和制度設計解決,但常常被相關部門搞成權力問題、政治問題。但相信,這些數據會日漸統合、開放,一些地方的動作會比中央動作更快,某些地方會比另一些地方快。你不整合、不公開,整合、公開的地方的治理效率就會比你更高,權威性、合法性就會比你大,迫使你不得不學習、模仿。這首先需要有人懂得如何統合利用這些帶有豐富的人口社會屬性的大數據,切實做出提高社會治理效率,降低交易成本的研究成果。
第二類數據來自互聯網痕跡數據、GPS定位、手機信令、視頻監控等便攜或智能設備產生的新數據。這些數據包含人們動態的時空信息和社會行為信息,通過對這類數據的開發能把握一定時空范圍內人口的分布和活動情況,提高我們對于人口動態的把握。但往往缺乏基礎性的人口社會信息,使得能夠研究的主題往往超出傳統人口學范圍。基于這些新數據做深入交互分析還比較困難,人口學者要與其他專業一起面對相關挑戰,做好創新準備。
如果不空談,人口學者就要多接觸這兩類數據。除了社會關系之外,主要應該是憑借人口學現在的專業理論和技能優勢與相關公共部門或商業機構建立合作關系,獲取數據的使用權。這意味著我們必須掌握大型數據庫的使用方法以及新型數據的信息提取加工方法。如各種異形數據和基礎數據的匹配方法,將手機號、機器識別號匹配身份證信息,從身份證信息提取年齡、性別、戶籍、出生地信息這樣的基本技能;也包括通過電子痕跡數據甄別使用者的性別、年齡、常住地、工作地等標簽信息的方法,包括機器學習方法。
隨著企業數據資產意識的增強和公民隱私保護意識的增長,人口學者以及其他學者接觸和使用相關數據的難度并不一定越來越容易,只有占據有利的分工位置,才能有所作為。北京市師范大學的高穎通過和北京市民政局數據信息中心的合作,利用北京市近年來的婚姻登記數據對北京市婚配模式及其變遷、人口結構及其變遷做出了系列研究,對我們認識北京戶籍人口、常住人口的演變規律提供了非常重要的基礎信息,為進一步的人口調控與政策調整提供了依據,就是很不錯的例子。
大體而言,人口學有兩種路徑逐步提高接觸數據的機會:第一,以專家身份接受委托,在保密的前提下幫助這些業務部門開發數據,生產非公開的咨詢產品,讓相關部門知道人口學的獨特價值;第二,培養好人口學學生,給他們武裝上人口學的理論武器和技術裝備,并輸送進這些業務部門,進行數據管理和開發。這兩種方式,都可以提高人口學者的專業形象,幫助與公共部門和商業機構建立社會聯系,有助于人口學界逐漸了解這些新數據資源,掌握數據的開發使用方法。在此過程中,人口學者特別應該有意識地爭取獲得一些可以開放使用的樣本數據,與開發使用經驗一起,分享給整個學術界,而不是封閉獨占。這樣才能為整個學術共同體進行研究和教學積累基礎設施,推動整個共同體專業能力的提升。大家要有意識地提高人口研究的可復制性和開源性,公開數據計算過程,提高統計結果的可比性。越是開放的數據(包括采集過程和分析過程),權威性越高,可大大降低長期的數字之爭發生的可能性。各大期刊可嘗試要求投稿者提供數據分析的源代碼和樣本數據。
實際操作時,如果國家層面入手難度較大,可以考慮先和那些先行一步的鄉鎮、縣區、省份或部門合作,將研究重心下沉到一定的區域。以往因為各個地區經濟實力不足,數據基礎差,很多人口學者不得不主要利用國家層面的數據,關注全國層面的人口問題。未來各個地方的經濟實力不僅支持大規模數據的采集和人口研究,數據的質量也會越來越好,隨著人口轉變的深化,地方也會越來越重視人口研究,為人口學者提供更大的舞臺。越來越多的地方會認識到人口資源和人力資本爭奪的重要性,人口問題的異質性及其對解決方案影響,人口學的發展空間仍然很大。
三、人口學要強化優勢并努力創新
在這種探索實踐過程中,人口學者如何展現自己的學科優勢呢?我想核心是應該積極圍繞大數據的開發使用創造條件。一是嘗試提供權威性的基礎數據用于大數據校準;二是將成熟的人口學理論和方法介紹到新數據的開發使用中。充分開發既有基礎數據,根據新數據的需要適時產生一些基礎數據,如匯總指標,幫助校準大數據統計結果,促進新數據的使用和開發。微信公眾號“城市數據派”發布的利用百度定位數據在寧波和杭州灣做的人口估計就和基礎的戶籍數據和人口數據進行了比對,從而綜合判斷新來源的數據的代表性和精確度,為進一步開發和使用新數據提供了依據。
在理論和技術方面,人口學經過多年的發展已經積累了一些非常成熟的方法和技術,例如隊列分析技術、標準化技術、生命表技術、間接估計方法、隨機人口模型、事件史技術、人口預測技術等等。這些成熟的模型和技術有著深厚的學科積累,懂計算機技術的人不一定都搞得懂。如何選擇測量和匯總指標、選擇模型、設定參數等都需要一定的人口學原理作為支撐。在這方面,人口學者應該積極將既有理論工具和方法應用于指導新數據的開發,讓數據掌控者知道人口學專業的價值,促進新老技術的交流,在地區性的數據分析實踐中逐漸完備學科的相關技能。
最后,人口學研究者在積極接觸和探索大數據時,應該有創新思維,有意識地擴展人口學的學科領地。盡管目前能夠獲得的大數據、新數據在代表性和微觀準確性上有所不足,但通常具有很好的時效性和較大的樣本基數,在區域或人群匯總指標上具有較好的效度和信度。我們應該充分利用這些匯總信息,善于利用相對指標分析總體的結構特征及其變遷。例如,在傳統人口數據中,空間數據較難得,了解人口的空間分布很難,即便有也常常是做區域內均勻分布的假定。現在,手機和智能設備提供了非常準確人口位置信息,能夠幫助我們更好地估計部分人口的空間分布、變動以及特定空間內的人口構成等,但由于并非所有的人都使用手機和智能設備,它提供的信息可能存在結構性偏差(如對老年人、小孩反映不足),但仍是重要的參考,通過一定校準,準確度可進一步提高。這就需要部分人口學者掌握相關的分析和校準技術,有些創造性。又比如,以往人口學者傾向于在個人層面上進行分析(生育、死亡、遷移),因為只有個人才有年齡、性別等人口學特征,但目前在個體層面進行數據的匹配、串并還很難。人口學者可能需要更多地探索在相對中觀或宏觀的研究單位上,人口統計特征與其他匯總屬性之間的關系,例如社區人口規模、人口密度、人口結構與社區社會經濟形態、人口過程如死亡水平、出生水平、遷移狀態之間的關系。因為新型大數據往往更容易在更高層次的研究單位上進行指標匯總、匹配、串并。這種情況下,如何進行因果推論,如何避免層次謬誤之類的方法論問題也就變得更加重要。
總的來說,人口學者要想在大數據時代有所作為,仍面臨不少挑戰,但等靠要是不行的,要積極創造條件趕上去。其他學科也應該加強和人口學者的合作。如果人口學者都難以有所作為,其他學科利用大數據做出來的研究,其堅實性和深入性也就值得懷疑。因為如果人口學者可用的基礎性的人口社會屬性都不全的話,細致的交叉分析和統計控制也就成了空話,人群內部的異質性也必然被忽略。我們要一起不斷推動公共部門和數據壟斷企業加強大數據的開放、串并和合理合法使用,創新數據的開發使用方式甚至提問題方式。這還有很長的路要走,先從局部地區、具體項目做起來,并一定要在學科內加強共享、交流、學習。大家一起不斷積累,共同進步。