精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

大數據時代人口學如何積極作為

責任編輯:editor004

作者:李丁

2017-09-13 11:10:49

摘自:中國社會科學網-中國社會科學報

這幾年很熱門的大數據在主要用數據說話的人口學界卻較為冷清。和研究討論較少  大體而言,這和中國大數據的開放現狀、人口學研究取向以及人口學者的訓練都有一定關系。

這幾年很熱門的大數據在主要用數據說話的人口學界卻較為冷清。除王廣州專門發文討論過大數據時代人口科學的創新問題外,其他人很少進行正式的討論;具體研究方面,僅有少數學者用戶籍登記數據、婚姻登記數據、手機信令數據、燈光遙感數據、百度遷徙數據做研究發表在人口學期刊上,其中屬于人口學的更少。為什么會出現這種情況呢?

講求量的準確導致人口學大數據

和研究討論較少

大體而言,這和中國大數據的開放現狀、人口學研究取向以及人口學者的訓練都有一定關系。

首先,人口學研究講求量的準確,而能提供這種準確度的大數據不多。如南佛羅里達國際大學的賴慶博士關于定量和量化的概念辨析所言,人口學是“定于量”的,不像社會學“化為量”即可。關于中國生育水平到底有多高,人口學界爭論了20多年,就是為了確定總和生育率到底是在1—2之間的哪個具體小數上。

其次,近十多年來,確實有越來越多的信息被電子化甚至量化,但是諸如普查數據、戶籍數據、婚姻登記數據、出生數據、教育學籍數據,以及醫保、交通、勞保、不動產、銀行等公共部門掌握的微觀個人數據開放獲取的可能性仍很低。已開放的數據往往只是一些互聯網企業有限開放的異形數據或互聯網上可以公開爬取的零碎的、不系統的文本、圖片、視頻數據。這些數據往往缺乏基礎性的社會人口變量,而且大多沒有解決樣本的代表性和測量準確性問題,無法對人口學所關心的人口數量、結構、過程做出精確估計。因此,人口學者通常也不會用這類數據。

再者,人口學者不太擅長用這些新數據。一直以來,人口學者主要依賴權威部門(統計局、衛計委)發布的匯總數據或者規模抽樣調查數據來做研究。相對于社會學者,人口學者處理的大多是變量相對少、結構比較簡單的結構性數據,采集和處理異形數據(如訪談文本數據)的經驗較少。在這一點上,人口學者比社會學者更挑數據,也更依賴于公共部門。人口學擅長年齡、隊列分析,經常要求年齡別或者五歲組的統計指標,這通常要求每一個年齡組都具有獨立的代表性,從而在樣本規模要求上要大數十倍。中國人口學者主要使用的數據包括統計局的普查、小普查的樣本數據,人口變動抽樣調查數據,衛計委組織的流動人口動態監測調查數據和計生服務與生育狀況調查數據等微觀樣本數據,其他各種教育、衛生、戶籍、人口匯總統計數據,以及各單位自己組織的小規模樣本調查數據。人口學者善于處理數據,是因為他們長于開發匯總數據,較早使用計算機處理微觀數據,而且可能處理過體量比較大的數據。但這些數據結構通常很簡單,變量也不太多。另外,他們中真正接觸到超大規模原始業務數據(樣本量千萬以上的,如戶籍數據、全員人口監測數據、學籍數據等)的并不多,很多還需要依賴掌控這些數據的業務人員進行查詢和匯總。可以說,在面對新型大數據、異形數據時,國內人口學者的實際處理能力可能還有待提高。比方說,新型大數據中空間信息和網絡信息越來越多,國內人口學者對這些新信息的理解和處理能力還比較有限,這部分研究主要還是地理學專家貢獻的。

人口學需積極接觸和開發大數據

面對越來越多的基于互聯網和智能設備產生的新數據、異形數據,人口學者能在推動這些大數據的應用方面有所作為嗎?這些新數據對人口學者回答傳統研究問題有幫助嗎?總之,人口學者要應對大數據時代,首先需要弄清楚所謂的大數據到底包括哪些數據,哪些與人口學關注的核心變量或問題相關,然后想辦法接觸和開發這些數據。

今天所謂的大數據主要有兩類。第一類是政府及公共部門日漸電子化的基礎業務數據。王廣州將之分為全員人口數據和特定人群數據,如戶籍數據,生育登記、死亡登記、醫療登記數據,遷移登記數據等。以往很多紙質版的、分散的內容,現在大多都電子化了,且日漸聯網統一。這些業務、臺賬、調查數據包含大量的人口變量信息和社會屬性信息,如果開放使用,能夠幫助人口學者更好地研究人口的生老病死、遷移流動、行為活動,并且有助于把研究做到很小的區域范圍內,突破以往研究精細度和研究范圍之間的矛盾。王廣州強調的主要是這類數據。但是這些數據(包括人口普查樣本數據)直到現在仍很少向人口學者開放或僅向部分人開放。這些數據已經存在了,放在那里貶值,很可惜。相關部門也認識到它們的價值,如果關聯串并整合起來,價值會更大。但由于各種非技術的原因,這些數據的開放、整合還很困難。實際上,數據采集項目最重要的是數據開發,而且越多人使用開發越好,大家都能從中獲得新知識,也能迫使相關部門數據開發技術和數據服務質量的提升。

第二類數據是來自互聯網痕跡數據、GPS定位或手機信令等便攜智能設備產生的新數據。這些數據包含人們更為動態的時空位置和行為信息,但往往缺乏可以精確匹配的基礎性人口社會信息。通過對這類數據的開發,能幫助我們把握一定時空范圍內人口的分布和活動情況,提高對人口動態的把握,但主題往往超出傳統人口學范圍。目前基于這類數據做深入交互分析還比較困難,人口學者要與其他專業一起面對這些挑戰。

人口學者要多接觸和使用這兩類數據,憑借人口學現在的專業理論、技能優勢以及與相關公共部門或商業機構結成良好的合作關系,獲得數據使用權限。這意味著我們需要掌握大型數據庫的使用方法,以及新型數據的信息提取加工方法,如各種異形數據和基礎數據的匹配方法。包括將手機號、機器識別號匹配身份證信息,從身份證信息提取年齡、性別、戶籍、出生地信息這樣的基本技能,也包括通過電子痕跡數據綜合甄別使用者的性別、年齡、職業、家庭結構、常住地、工作地等標簽信息的新方法。隨著企業數據資產意識的增強和公民隱私保護意識的增長,只有占據有利的分工位置,人口學者接觸和使用相關數據的機會才會越來越多。比如高穎通過和北京市民政局數據信息中心合作,利用北京市近年來的婚姻登記數據對北京市民婚配模式及其變遷、人口結構及其變遷做出了系列研究,為我們認識北京戶籍人口、常住人口的演變規律提供了非常重要的基礎信息,為進一步作人口調控與政策調整提供了依據。但如何將個人的資源和關系轉變為整個學科的優勢,仍值得學術共同體去探索和討論。

實際操作時,如果從國家層面入手難度較大,可以考慮先和那些先行一步的地區或部門合作,將研究重心下沉到一定區域。以往因為地方經濟實力不足,數據基礎差,很多人口學者不得不主要利用國家層面的數據關注全國人口問題。現在,很多地方的經濟實力不僅足以支持大規模數據的采集,而且數據質量和基礎也越來越好。更重要的是,隨著區域競爭的激烈化,越來越多的地方認識到了人口資源和人力資本爭奪的重要性,認識到人口問題的異質性及其對解決方案的影響,從而為人口學發揮作用提供更大的舞臺。

人口學要強化優勢并努力創新

在探索實踐過程中,人口學如何展現學科優勢呢?筆者認為,核心是圍繞大數據的開發使用積極創造條件。一是嘗試提供權威性的基礎數據用于大數據校準;二是將成熟的人口學理論和方法介紹到新數據的開發使用中。通過利用現有基礎數據,生產一些權威性的基礎數據和匯總指標,幫助校準大數據統計結果,促進新數據的使用和開發。百度慧眼就利用基礎戶籍數據或登記數據對基于地圖定位請求數據估計的寧波和杭州灣地區小范圍人口規模進行了校準,從而綜合判斷新數據的代表性和精確度,為新數據的開發使用提供了依據。

在理論和技術方面,人口學多年發展積累了很多非常成熟的方法和技術,例如隊列分析技術、標準化技術、生命表技術、間接估計方法、隨機人口模型、事件史技術、人口預測技術等等。這些模型和技術有著深厚的學科積累,懂計算機技術的人不一定都搞得懂。研究中該如何選擇測量或匯總指標、確定模型、設定參數等,可能都需要一定的人口學基礎作為指導。人口學者應該積極將既有理論工具和方法應用于指導新數據的開發,讓其他人特別是數據掌控者知道人口學專業的價值,并在數據分析實踐中逐漸提高學科的相關技能。

最后,人口學者在積極接觸和探索大數據時,應該有創新思維。盡管目前能夠獲得的大數據、新數據在代表性、微觀準確性上有所不足,但通常具有很好的時效性和較大的樣本基數,在區域或人群匯總指標上具有較好的效度和信度。我們應該充分利用這些匯總信息,善于利用相對指標分析總體的結構特征及其變遷。例如,在傳統人口數據中,空間數據較難得,了解人口的空間分布很難。現在,手機和智能設備可提供非常準確的人口位置信息,幫助我們更好地估計部分人口的空間分布、變動,特定空間內的人口構成等。但并非所有人都使用手機和智能設備,它提供的信息可能存在結構性偏差(如對老年人、小孩的情況反映不足),但仍是重要的參考。通過一定校準,準確度可進一步提高。這就需要人口學者掌握相關的分析和校準技術。以往人口學傾向于在個人層面上進行分析(生育、死亡、遷移),因為只有個人才有年齡、性別等人口學特征,但目前在個體層面進行數據的匹配、串并還很難。人口學者可能需要更多地探索在相對中觀或宏觀的研究單位上,人群統計特征與其他匯總屬性之間的關系。例如,社區人口規模、人口密度、人口結構與社區社會經濟形態以及人口過程如死亡水平、出生水平、遷移狀態之間的關系,因為這些新型大數據往往更容易在較高層次的研究單位上實現指標匯總、匹配和信息串并。這種情況下,如何進行因果推論,如何避免層次謬誤之類的方法論問題也需要研究和回答。

總之,人口學要想在大數據時代有所作為,需直面挑戰,積極創造條件。其他學科也應該加強和人口學者的合作。因為如果主要關注基本人口社會變量的人口學者都難以有所作為,其他學科利用大數據做出來的研究,其堅實性和深入性也就值得懷疑。我們要一起推動公共部門和數據企業加強大數據的開放、串并和合理合法使用,創新數據的開發使用方式甚至提問題方式。這還有很長的路要走,可先從局部地區、具體項目做起來,并在學科內外加強共享、交流、學習,不斷積累,共同進步。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 临江市| 和田市| 镇平县| 深圳市| 时尚| 天全县| 五大连池市| 罗定市| 平顶山市| 阿克苏市| 高青县| 浠水县| 密山市| 佛教| 延川县| 信阳市| 周至县| 威宁| 缙云县| 安仁县| 道孚县| 新竹县| 万全县| 大洼县| 林口县| 微山县| 青田县| 宁晋县| 塘沽区| 普兰县| 昂仁县| 尉氏县| 济宁市| 同江市| 定结县| 上饶市| 边坝县| 和顺县| 吕梁市| 巴彦淖尔市| 洪雅县|