大數(shù)據(jù)不僅是一種龐大數(shù)據(jù)資料的稱謂,也是一種獲取和分析資料的方法。在社會(huì)學(xué)研究領(lǐng)域,大數(shù)據(jù)的引入被認(rèn)為是定量研究的范式下所做出的收集和分析資料方法的創(chuàng)新。但是大數(shù)據(jù)在多大程度上反映人群的狀況、能否解決被研究者的主觀性問(wèn)題、如何洞悉變量間關(guān)系的真?zhèn)巍⑷绾谓鉀Q數(shù)據(jù)缺失問(wèn)題等方面,還存在一定程度的方法論困境。這就要求研究者在使用大數(shù)據(jù)進(jìn)行研究時(shí),能夠在研究對(duì)象與問(wèn)題的選擇、變量的選取、數(shù)據(jù)的清理等一系列工作中更加謹(jǐn)慎,切勿犯簡(jiǎn)化社會(huì)生活、盲目推廣分析結(jié)果的錯(cuò)誤。
1.引言
近年來(lái),“大數(shù)據(jù)”(big data)作為一個(gè)熱門話題在社會(huì)各領(lǐng)域被廣泛討論。一般認(rèn)為擁有“4V”的特征的數(shù)據(jù)集合是大數(shù)據(jù):
規(guī)模(Volume),數(shù)據(jù)的體積巨大
高速性(V e l o c i t y),數(shù)據(jù)產(chǎn)生、處理和分析的速度快,數(shù)據(jù)具有實(shí)時(shí)性,且數(shù)據(jù)流量大
多樣性(Va r i e t y),大數(shù)據(jù)的類型復(fù)雜,除傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)之外,還包括大量非結(jié)構(gòu)化數(shù)據(jù)
價(jià)值性(V a l u e),數(shù)據(jù)的整體價(jià)值及商業(yè)利潤(rùn)高,潛力巨大
李天柱等在大數(shù)據(jù)的“4V”特征的基礎(chǔ)上進(jìn)一步指出:“假設(shè)存在規(guī)模龐大、類型多樣、動(dòng)態(tài)產(chǎn)生且價(jià)值巨大的‘特殊數(shù)據(jù)’集合,那么大數(shù)據(jù)可以定義為,在此‘特殊數(shù)據(jù)’集合的基礎(chǔ)上,借助計(jì)算科學(xué)及其它新興技術(shù)來(lái)實(shí)現(xiàn)特定功能的整體架構(gòu)。” 大數(shù)據(jù)的魅力除了“大”,更在于它將多學(xué)科、跨領(lǐng)域的數(shù)據(jù)結(jié)合在一起,開(kāi)辟了傳統(tǒng)方法所不能實(shí)現(xiàn)的、更為創(chuàng)新的研究路徑。
需要注意的是,大數(shù)據(jù)不僅是用于研究的經(jīng)驗(yàn)材料,也是一種獲取材料的方式和運(yùn)用材料的方法,具有獨(dú)特的方法論邏輯。從已有的文獻(xiàn)來(lái)看,大部分是對(duì)大數(shù)據(jù)的贊揚(yáng)之聲,一些學(xué)者甚至斷言大數(shù)據(jù)帶來(lái)了社會(huì)科學(xué)范式的革命,超越了定量與定性研究的對(duì)立,少數(shù)對(duì)大數(shù)據(jù)方法的質(zhì)疑也僅僅停留在數(shù)據(jù)獲取的倫理問(wèn)題上。然而,大數(shù)據(jù)作為一種收集和分析資料的方法,能不能用于社會(huì)學(xué)研究之中,它在方法論上的基礎(chǔ)是什么,其適用性和邊界又在哪里,這些問(wèn)題依然沒(méi)有得到充分探討和回答。本文正是以此為起點(diǎn),試圖在梳理社會(huì)科學(xué)領(lǐng)域大數(shù)據(jù)研究的基礎(chǔ)之上,闡述大數(shù)據(jù)在社會(huì)學(xué)研究中的方法論邏輯,并說(shuō)明大數(shù)據(jù)在應(yīng)用過(guò)程中的方法論困境。
2.大數(shù)據(jù)的方法論邏輯
大數(shù)據(jù)是將社會(huì)生活數(shù)字化、數(shù)據(jù)化、變量化,再通過(guò)測(cè)量這些變量,提取量化信息,得到關(guān)于這個(gè)變量的描述以及多變量關(guān)系的分析。大數(shù)據(jù)方法與定量研究范式有著共同的認(rèn)識(shí)論基礎(chǔ),但又有其特有的方法論特征。
(一)樣本趨近總體
社會(huì)學(xué)定量研究為調(diào)查某一社會(huì)現(xiàn)象在總體中的情況,在抽樣框中隨機(jī)抽取一定比例的樣本,通過(guò)描述和統(tǒng)計(jì)等一系列方法,得到樣本之中不同變量間的關(guān)系,并以此為依據(jù)推論總體之中這些變量之間的狀況。而以大數(shù)據(jù)為經(jīng)驗(yàn)材料的研究不涉及隨機(jī)抽樣的問(wèn)題,而是將全部總體納入到分析的框架內(nèi),得出的變量之間的關(guān)系也無(wú)需參數(shù)檢驗(yàn),而直接用于反映總體趨勢(shì)。例如,2015 年12 月淘寶聯(lián)合第一財(cái)經(jīng)商業(yè)數(shù)據(jù)中心推出的《淘寶大數(shù)據(jù)解讀中國(guó)消費(fèi)趨勢(shì)》的系列報(bào)告, 并不是將用戶做隨機(jī)抽樣形成樣本,然后調(diào)查他們的性別、地理位置、購(gòu)物傾向等,而是直接將3.86 億淘寶用戶這一總體作為分析的對(duì)象,描述總體的消費(fèi)狀況并預(yù)測(cè)未來(lái)消費(fèi)趨勢(shì)。
(二)利用非傳統(tǒng)方式獲取數(shù)據(jù)
一方面,大數(shù)據(jù)不同于傳統(tǒng)問(wèn)卷調(diào)查依靠被研究者的主訴來(lái)獲得資料,而是直接利用技術(shù)手段對(duì)被研究者的行為進(jìn)行檢測(cè)。另一方面,大數(shù)據(jù)的獲取不依賴傳統(tǒng)的社會(huì)統(tǒng)計(jì)部門。例如,全國(guó)性人口普查是關(guān)于人口的最“大”的數(shù)據(jù),理論上涵蓋每一個(gè)個(gè)人的信息,體量巨大,卻不能被稱為“大數(shù)據(jù)”,因?yàn)槿丝谄詹閿?shù)據(jù)通過(guò)接觸被調(diào)查者直接獲取,并依賴傳統(tǒng)的社會(huì)統(tǒng)計(jì)部門逐級(jí)上報(bào)。大數(shù)據(jù)往往基于現(xiàn)代科技手段,采取實(shí)時(shí)監(jiān)控、測(cè)量、存儲(chǔ)的方式整合海量信息,例如交通流量監(jiān)控、氣象水文監(jiān)測(cè)數(shù)據(jù)、環(huán)境監(jiān)測(cè)數(shù)據(jù)、商業(yè)物流的數(shù)據(jù)記錄,尤其是近年來(lái)基于互聯(lián)網(wǎng)的瀏覽、搜索引擎、上傳下載等行為的大數(shù)據(jù),更是成為了大數(shù)據(jù)的主流——甚至幾乎成為了“大數(shù)據(jù)”的同義詞。
(三)通過(guò)歸納建立模型
傳統(tǒng)的定量研究先提出假設(shè),并設(shè)計(jì)基于假設(shè)的待檢驗(yàn)?zāi)P停M(jìn)而通過(guò)分析數(shù)據(jù)證明或證偽假設(shè)及相關(guān)統(tǒng)計(jì)模型。而大數(shù)據(jù)方法是通過(guò)對(duì)海量的數(shù)據(jù)進(jìn)行分析,尋找變量之間的關(guān)系,而后建立模型。正如張曉強(qiáng)等所說(shuō):“數(shù)據(jù)科學(xué)以海量的數(shù)據(jù)為研究對(duì)象,通過(guò)數(shù)據(jù)挖掘等手段來(lái)尋找海量數(shù)據(jù)中潛在的規(guī)律。它研究各個(gè)科學(xué)領(lǐng)域所遇到的具有共性的數(shù)據(jù)問(wèn)題,通過(guò)對(duì)數(shù)據(jù)的規(guī)律的研究來(lái)實(shí)現(xiàn)對(duì)科學(xué)問(wèn)題的解答。”這也就意味著通過(guò)大數(shù)據(jù)方法建立的模型并不反應(yīng)必然規(guī)律,而是在非實(shí)驗(yàn)控制的條件下,一系列影響因素綜合作用的結(jié)果。雖然這種模型具有模糊性與偶然性,卻可以在一定程度上預(yù)測(cè)現(xiàn)象發(fā)展的趨勢(shì)。
(四)呈現(xiàn)相關(guān)關(guān)系而非因果關(guān)系
舍恩伯格等認(rèn)為,大數(shù)據(jù)“不是因果關(guān)系,而是相關(guān)關(guān)系”。定量研究目的是為變量的變異性提供因果解釋,用其他變量解釋所要研究的變量的變異性。而應(yīng)用大數(shù)據(jù),尤其在商業(yè)領(lǐng)域,其目的是銷售商品,這種情況下商家只需要了解用戶的行為與銷售額的相關(guān)關(guān)系為何,并以此作為決策依據(jù),向用戶推薦可能需要的商品,指導(dǎo)商業(yè)活動(dòng),而不需要為這種相關(guān)性做出解釋。例如,在美國(guó)沃爾瑪在季節(jié)性風(fēng)暴到來(lái)時(shí),將蛋撻和颶風(fēng)用品擺放在一起,以增加蛋撻的銷售量。分析兩個(gè)變量關(guān)系時(shí),僅僅止步于相關(guān)關(guān)系,即使這個(gè)相關(guān)關(guān)系是虛假關(guān)系,或者通過(guò)其他變量相互關(guān)聯(lián)。這并不是說(shuō)大數(shù)據(jù)不能為因果解釋提供數(shù)據(jù)基礎(chǔ),而是說(shuō)因?yàn)樵谝恍┐髷?shù)據(jù)廣泛應(yīng)用的領(lǐng)域,人們并不探究因果,而是利用大數(shù)據(jù)呈現(xiàn)現(xiàn)象,預(yù)測(cè)現(xiàn)象發(fā)展的趨勢(shì),為決策提供依據(jù)。
3.大數(shù)據(jù)的方法論困境
大數(shù)據(jù)的使用雖然也建立在統(tǒng)計(jì)與計(jì)算的基礎(chǔ)之上,但是卻有著不同于傳統(tǒng)定量研究范式的方法論特征,這些特征使得研究者在運(yùn)用大數(shù)據(jù)的過(guò)程中不可避免地遇到一些方法論困境,這就要求研究者在分析和結(jié)論推演時(shí)謹(jǐn)慎行事。
(一)被研究者的主觀性問(wèn)題
大數(shù)據(jù)更多強(qiáng)調(diào)對(duì)個(gè)體活動(dòng)的監(jiān)測(cè)來(lái)獲取數(shù)據(jù),而非如傳統(tǒng)的定量調(diào)查采取問(wèn)卷的方式。其中隱含的預(yù)設(shè)是,個(gè)體的主訴是含混不清的,被研究者有意隱瞞或是無(wú)意遺忘都可能會(huì)影響到數(shù)據(jù)的信度與效度,而對(duì)個(gè)體活動(dòng)監(jiān)測(cè)得來(lái)的數(shù)據(jù)就可以避免被研究者主觀意向的介入對(duì)數(shù)據(jù)質(zhì)量的影響,例如我們?cè)谡{(diào)查被研究者的收入情況時(shí),如果采用問(wèn)卷調(diào)查的方法,由被研究者自主填寫,可能會(huì)出現(xiàn)由于記憶不準(zhǔn)導(dǎo)致誤報(bào)或者故意瞞報(bào)的情況,而如果有技術(shù)可以做到對(duì)被研究者銀行賬戶收支的數(shù)據(jù)進(jìn)行監(jiān)測(cè),那么后者將最為接近被研究者收入的“真實(shí)”情況。
但是在研究之中,排除被研究者的主觀參與而對(duì)其行為的監(jiān)測(cè)存在很多問(wèn)題。首先,社會(huì)學(xué)的研究對(duì)象是社會(huì)現(xiàn)象,社會(huì)現(xiàn)象需要人的參與,但是個(gè)人的行為與社會(huì)現(xiàn)象是兩個(gè)不同的概念。行為必須與外部世界中的他人發(fā)生聯(lián)系并主觀指向他人才能被稱為社會(huì)現(xiàn)象,所以任何社會(huì)現(xiàn)象都有作為主體的人的主觀參與,僅僅依靠觀察個(gè)人的活動(dòng)軌跡并不能說(shuō)明發(fā)生了某種社會(huì)現(xiàn)象。例如,我們可以利用視頻監(jiān)控觀察一定時(shí)間地點(diǎn)內(nèi)的人群流動(dòng)狀況,但是我們無(wú)法區(qū)分人群是隨機(jī)地在該地出現(xiàn),還是發(fā)生了集會(huì)、游行等社會(huì)運(yùn)動(dòng)。所以用行動(dòng)代替社會(huì)現(xiàn)象是一種概念的偷換。
其次,當(dāng)我們利用行為監(jiān)測(cè)來(lái)獲得可供研究的經(jīng)驗(yàn)數(shù)據(jù)時(shí),數(shù)據(jù)的完整性依靠于我們監(jiān)測(cè)的手段和方法的可及性與適用性。以調(diào)查收入為例,如果要完整地掌握一個(gè)人的收入狀況,我們不僅需要將他名下的賬戶收支都調(diào)查清楚,還要考慮到他日常生活中的現(xiàn)金流動(dòng)狀況,即便我們可以使用銀行的數(shù)據(jù),但是還是難以監(jiān)測(cè)他在日常生活中的收支狀況,也就是說(shuō)僅利用銀行大數(shù)據(jù)也無(wú)法監(jiān)測(cè)到此人的完整收入信息。所以在現(xiàn)有手段和技術(shù)的條件下,直接向被研究者詢問(wèn)的問(wèn)卷法,依然是最有效的調(diào)查方法。
再次,雖然大數(shù)據(jù)的使用者聲稱用監(jiān)測(cè)其行為的方式替代了被研究者的自我敘述,避免了其主觀意志的干擾,但是在互聯(lián)網(wǎng)的虛擬環(huán)境下,數(shù)據(jù)化的信息有很大一部分來(lái)自于被研究者的鍵入。例如社交網(wǎng)站上的性別、地點(diǎn)、愛(ài)好等信息,依然主要依賴被研究者的自我鍵入,他們有可能會(huì)胡亂填寫一些錯(cuò)誤信息,那么這種利用互聯(lián)網(wǎng)大數(shù)據(jù)的調(diào)查方法比面對(duì)面的問(wèn)卷調(diào)查更加難以保證材料的真實(shí)性。
(二)研究對(duì)象的局限性
大數(shù)據(jù)方法把總體作為分析的樣本,直接分析總體的情況并建立模型,免去了隨機(jī)抽樣的過(guò)程。這種方法認(rèn)為將總體作為樣本避免了隨機(jī)抽樣過(guò)程中的抽樣誤差的產(chǎn)生,能夠精確地反映總體的變化趨勢(shì)。但是大數(shù)據(jù)方法能夠獲取的“總體”本身是存在偏差的。
首先,由于大數(shù)據(jù)抓取方式的特殊性,研究者的分析可能產(chǎn)生系統(tǒng)性偏誤。也就是說(shuō),研究者僅能獲得“能夠被抓取”的信息,而大量不能被抓取的信息則被排除在了總體之外。到2016 年初,中國(guó)有6.88 億網(wǎng)民,而中國(guó)總?cè)丝?3.68 億,那么通過(guò)網(wǎng)絡(luò)抓取個(gè)人信息的方式來(lái)獲得的大數(shù)據(jù)依然無(wú)法涵蓋不會(huì)在網(wǎng)上留下痕跡的6.8 億非網(wǎng)民。在實(shí)際的研究中,研究者往往僅依靠一個(gè)或幾個(gè)網(wǎng)站的后臺(tái)數(shù)據(jù)作為分析資料,那么這種大數(shù)據(jù)僅是使用該網(wǎng)站的用戶的數(shù)據(jù),不能將分析結(jié)果推論到其他網(wǎng)民,更不能推論到全體國(guó)民。因此,研究者必須注意,大數(shù)據(jù)中所謂的總體是有限的總體,大部分難以通過(guò)大數(shù)據(jù)方法抓取的個(gè)體并不被作為研究對(duì)象包含在總體中。
第二,即使在同一數(shù)據(jù)收集平臺(tái)上,由于不同的個(gè)人活躍性不同,其信息被抓取的概率也不同,因此這些大數(shù)據(jù)的形成既不是抽樣,也遠(yuǎn)非隨機(jī),而是具有極大的偶然性。英國(guó)廣播公司在2011 年通過(guò)互聯(lián)網(wǎng)上自助填寫問(wèn)卷的形式進(jìn)行了一項(xiàng)英國(guó)階層調(diào)查,并以此為根據(jù)將英國(guó)社會(huì)分為7 個(gè)階層。該調(diào)查共有161458 人參加,樣本規(guī)模遠(yuǎn)超傳統(tǒng)的問(wèn)卷調(diào)查,有的學(xué)者將該調(diào)查所獲得的數(shù)據(jù)界定為大數(shù)據(jù),并認(rèn)為該調(diào)查由被研究者填寫,可以擺脫以往的大數(shù)據(jù)方法多是對(duì)行為進(jìn)行觀察而忽視個(gè)人主觀性的方法論困境。然而網(wǎng)絡(luò)調(diào)查的樣本僅僅是在問(wèn)卷投放網(wǎng)絡(luò)的一段時(shí)間內(nèi)發(fā)現(xiàn)并有意愿填寫問(wèn)卷的網(wǎng)民,如果一個(gè)網(wǎng)民在這一時(shí)間并不活躍,那么他將不被納入調(diào)查的樣本之中,因此通過(guò)該網(wǎng)絡(luò)調(diào)查得出的結(jié)果只是一種偶然關(guān)聯(lián),一種統(tǒng)計(jì)學(xué)上的相關(guān),而不具有任何推論價(jià)值。
(三)變量關(guān)系的真?zhèn)螁?wèn)題
如前所述,一般情況下人們?cè)谑褂么髷?shù)據(jù)時(shí)僅僅關(guān)注兩個(gè)事件的相關(guān)關(guān)系。而對(duì)社會(huì)學(xué)研究來(lái)說(shuō),研究者需要描述特定社會(huì)現(xiàn)象的變異,再通過(guò)了解該社會(huì)想象與其他社會(huì)現(xiàn)象(變量)的因果關(guān)系,為該現(xiàn)象的變異提供解釋依據(jù)。所以當(dāng)我們?cè)噲D用大數(shù)據(jù)作為材料來(lái)進(jìn)行解釋社會(huì)現(xiàn)象時(shí)需要非常謹(jǐn)慎,可能兩個(gè)具有高度統(tǒng)計(jì)相關(guān)的變量并不具有社會(huì)學(xué)意義上的因果關(guān)系。
第一,在一些領(lǐng)域應(yīng)用的大數(shù)據(jù)變量間的關(guān)系為虛假關(guān)系。例如颶風(fēng)用品的銷售量和蛋撻的銷售量呈現(xiàn)成比例相關(guān),但是二者并不具有因果關(guān)系,而是共同的受到另一變量即颶風(fēng)天氣因素的影響,控制天氣因素則二者相關(guān)關(guān)系自動(dòng)解除。所以在使用大數(shù)據(jù)分析兩個(gè)變量關(guān)系時(shí)往往需要控制其他變量,以達(dá)到辨別相關(guān)關(guān)系真?zhèn)危M(jìn)而對(duì)社會(huì)現(xiàn)象進(jìn)行因果解釋的目的。
第二,由于大數(shù)據(jù)旨在一個(gè)較大的數(shù)量級(jí)上關(guān)注兩個(gè)變量變異的總體趨勢(shì)預(yù)測(cè),所以往往忽視樣本內(nèi)部個(gè)體之間的差異,試圖用一個(gè)變量完全解釋另一個(gè)變量的變異,導(dǎo)致層次謬誤。Ar tés 對(duì)西班牙選舉日的天氣和投票大數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)如果天氣狀況不佳,則保守政黨得票比例將增高。如果分析止步于此,就會(huì)得到結(jié)論:天氣狀況影響保守派的得票率。但是作者將投票者的社會(huì)經(jīng)濟(jì)地位作為變量帶入分析之中,進(jìn)而論述天氣不佳會(huì)影響較低階層的人們出行,而較低階層的人群更多地將選票投給左翼政黨,所以天氣不佳,較低階層的投票者數(shù)量減少,左翼政黨得票比例下降,保守政黨得票比例上升。控制社會(huì)經(jīng)濟(jì)地位這一變量,則可以看到天氣僅對(duì)低階層人群的投票率產(chǎn)生影響,所以僅關(guān)注數(shù)據(jù)的整體趨勢(shì)則可能導(dǎo)致層次謬誤的出現(xiàn)。
第三,利用大數(shù)據(jù)方法獲取資料是否要進(jìn)行顯著性檢驗(yàn)、應(yīng)該如何進(jìn)行相關(guān)檢驗(yàn),依然存疑。一方面,大數(shù)據(jù)方法聲稱其樣本即總體,那么既然直接分析總體趨勢(shì)的變化則可以免去顯著性檢驗(yàn)的過(guò)程。然而如前所述,大數(shù)據(jù)方法能夠獲取到的“總體”和作為研究對(duì)象的“總體”總是存在著錯(cuò)位,大數(shù)據(jù)“總體”(樣本)的獲取也并不是采用概率抽樣,所以該不該進(jìn)行顯著性檢驗(yàn)的問(wèn)題就擺在了研究者面前。另一方面,即使暫且認(rèn)為大數(shù)據(jù)需要進(jìn)行顯著性檢驗(yàn),通常顯著性檢驗(yàn)是針對(duì)正態(tài)分布的較小樣本而進(jìn)行的,樣本規(guī)模會(huì)對(duì)顯著性檢驗(yàn)的結(jié)果產(chǎn)生影響,而大數(shù)據(jù)由于樣本規(guī)模龐大,所以在分析的過(guò)程中很容易發(fā)現(xiàn)統(tǒng)計(jì)顯著性,那么就有可能導(dǎo)致這樣一種錯(cuò)誤:被發(fā)現(xiàn)變量之間的關(guān)系是偶然出現(xiàn)的而并不具有任何規(guī)律性,卻僅僅由于龐大的樣本量而被證明具有顯著性。
(四)數(shù)據(jù)缺失問(wèn)題
不管是辨別相關(guān)關(guān)系的真?zhèn)危€是避免層次謬誤,都離不開(kāi)數(shù)據(jù)本身包含的變量的規(guī)模,只有在數(shù)據(jù)包括足夠豐富的其他變量時(shí),我們才能夠引入或者控制這些變量,已達(dá)到解釋因變量變異的目的。舉例說(shuō)明,當(dāng)研究者對(duì)人群的收入進(jìn)行研究時(shí),不僅僅要看作為整體的收入變量如何分布,還需要收集人群的其他變量,例如性別、年齡、收入、職業(yè)等,分別分析收入在不同人群之中的變異情況,從而對(duì)收入不平等進(jìn)行解釋。也就是說(shuō),社會(huì)學(xué)研究需要的是多變量的數(shù)據(jù)矩陣,而不是樣本龐大但變量單一的大數(shù)據(jù)。然而做到這一點(diǎn)并不容易。
第一,如果一個(gè)大數(shù)據(jù)樣本量巨大,但只包括單一的變量,那么只能對(duì)這個(gè)大數(shù)據(jù)中的這個(gè)變量進(jìn)行描述統(tǒng)計(jì),則這個(gè)大數(shù)據(jù)不能作為社會(huì)學(xué)分析的材料,例如單一的地區(qū)人均收入數(shù)據(jù)、流行病死亡率數(shù)據(jù)等。如果研究者想要使用這些數(shù)據(jù),必須將時(shí)間、地點(diǎn)等內(nèi)容作為中間變量,將該大數(shù)據(jù)與其他數(shù)據(jù)庫(kù)進(jìn)行對(duì)接,以此獲得較多的分析所需的變量。
第二,一些網(wǎng)絡(luò)大數(shù)據(jù)由于其獲取形式的非常規(guī)問(wèn)題,導(dǎo)致數(shù)據(jù)本身的模糊性和混雜性,致使不可避免地出現(xiàn)數(shù)據(jù)缺失的情況。假設(shè)要對(duì)一個(gè)匿名的不需要身份驗(yàn)證的社交網(wǎng)站上的內(nèi)容做分析,我們難以保證所有用戶都鍵入了研究所要分析的社會(huì)特征信息,例如性別、畢業(yè)學(xué)校、薪資等內(nèi)容,這就必然導(dǎo)致大量的數(shù)據(jù)缺失,面對(duì)海量的缺失數(shù)據(jù),任何刪除和填補(bǔ)的補(bǔ)救措施都會(huì)對(duì)分析的結(jié)果產(chǎn)生影響,因此關(guān)鍵變量的大量數(shù)據(jù)缺失使得任何統(tǒng)計(jì)分析的結(jié)果都存在偏誤。
4.結(jié)語(yǔ)
大數(shù)據(jù)近年來(lái)的廣泛應(yīng)用,大大拓展了社會(huì)學(xué)的理論視野。然而,任何單一范式中的理論與方法都有其適用性和解釋邊界。大數(shù)據(jù)將社會(huì)生活數(shù)字化、數(shù)據(jù)化、定量化,認(rèn)為社會(huì)生活的本質(zhì)是由信息構(gòu)成的,主張測(cè)量一切,實(shí)質(zhì)上是用一種科學(xué)主義簡(jiǎn)化論的世界觀來(lái)看待社會(huì)生活。社會(huì)學(xué)是一門多研究范式的學(xué)科,以統(tǒng)計(jì)分析為特征的大數(shù)據(jù)方法,充其量只能作為社會(huì)學(xué)諸多研究范式中的一種,并不會(huì)帶來(lái)社會(huì)學(xué)的范式革命。
數(shù)據(jù),是世界通過(guò)我們的感覺(jué)和工具呈現(xiàn)給我們的東西,而知識(shí),是我們對(duì)數(shù)據(jù)的理解與詮釋。大數(shù)據(jù)不是“告訴”了我們世界如何運(yùn)作,而僅僅是呈現(xiàn)給我們需要解讀的材料,如何對(duì)數(shù)據(jù)進(jìn)行理解與詮釋,還需要具有一定知識(shí)結(jié)構(gòu)和理論背景的研究者發(fā)揮社會(huì)學(xué)的想象力。大數(shù)據(jù)是我們認(rèn)識(shí)世界的工具,并不能代替研究者的理性思考,也不會(huì)帶來(lái)社會(huì)學(xué)研究范式的根本轉(zhuǎn)變,因此神化大數(shù)據(jù)的諸多論斷,在本文看來(lái)都是不可取的。
來(lái)源:社會(huì)學(xué)吧
作者:鮑宇,江蘇省社會(huì)科學(xué)院社會(huì)學(xué)所助理研究員,社會(huì)學(xué)博士