大數(shù)據(jù)不僅是一種龐大數(shù)據(jù)資料的稱謂,也是一種獲取和分析資料的方法。在社會(huì)學(xué)研究領(lǐng)域,大數(shù)據(jù)的引入被認(rèn)為是定量研究的范式下所做出的收集和分析資料方法的創(chuàng)新。但是大數(shù)據(jù)在多大程度上反映人群的狀況、能否解決被研究者的主觀性問(wèn)題、如何洞悉變量間關(guān)系的真?zhèn)巍⑷绾谓鉀Q數(shù)據(jù)缺失問(wèn)題等方面,還存在一定程度的方法論困境。這就要求研究者在使用大數(shù)據(jù)進(jìn)行研究時(shí),能夠在研究對(duì)象與問(wèn)題的選擇、變量的選取、數(shù)據(jù)的清理等一系列工作中更加謹(jǐn)慎,切勿犯簡(jiǎn)化社會(huì)生活、盲目推廣分析結(jié)果的錯(cuò)誤。
1.引言
近年來(lái),“大數(shù)據(jù)”(big data)作為一個(gè)熱門(mén)話題在社會(huì)各領(lǐng)域被廣泛討論。一般認(rèn)為擁有“4V”的特征的數(shù)據(jù)集合是大數(shù)據(jù):
規(guī)模(Volume),數(shù)據(jù)的體積巨大
高速性(V e l o c i t y),數(shù)據(jù)產(chǎn)生、處理和分析的速度快,數(shù)據(jù)具有實(shí)時(shí)性,且數(shù)據(jù)流量大
多樣性(Va r i e t y),大數(shù)據(jù)的類(lèi)型復(fù)雜,除傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)之外,還包括大量非結(jié)構(gòu)化數(shù)據(jù)
價(jià)值性(V a l u e),數(shù)據(jù)的整體價(jià)值及商業(yè)利潤(rùn)高,潛力巨大
李天柱等在大數(shù)據(jù)的“4V”特征的基礎(chǔ)上進(jìn)一步指出:“假設(shè)存在規(guī)模龐大、類(lèi)型多樣、動(dòng)態(tài)產(chǎn)生且價(jià)值巨大的‘特殊數(shù)據(jù)’集合,那么大數(shù)據(jù)可以定義為,在此‘特殊數(shù)據(jù)’集合的基礎(chǔ)上,借助計(jì)算科學(xué)及其它新興技術(shù)來(lái)實(shí)現(xiàn)特定功能的整體架構(gòu)。” 大數(shù)據(jù)的魅力除了“大”,更在于它將多學(xué)科、跨領(lǐng)域的數(shù)據(jù)結(jié)合在一起,開(kāi)辟了傳統(tǒng)方法所不能實(shí)現(xiàn)的、更為創(chuàng)新的研究路徑。
需要注意的是,大數(shù)據(jù)不僅是用于研究的經(jīng)驗(yàn)材料,也是一種獲取材料的方式和運(yùn)用材料的方法,具有獨(dú)特的方法論邏輯。從已有的文獻(xiàn)來(lái)看,大部分是對(duì)大數(shù)據(jù)的贊揚(yáng)之聲,一些學(xué)者甚至斷言大數(shù)據(jù)帶來(lái)了社會(huì)科學(xué)范式的革命,超越了定量與定性研究的對(duì)立,少數(shù)對(duì)大數(shù)據(jù)方法的質(zhì)疑也僅僅停留在數(shù)據(jù)獲取的倫理問(wèn)題上。然而,大數(shù)據(jù)作為一種收集和分析資料的方法,能不能用于社會(huì)學(xué)研究之中,它在方法論上的基礎(chǔ)是什么,其適用性和邊界又在哪里,這些問(wèn)題依然沒(méi)有得到充分探討和回答。本文正是以此為起點(diǎn),試圖在梳理社會(huì)科學(xué)領(lǐng)域大數(shù)據(jù)研究的基礎(chǔ)之上,闡述大數(shù)據(jù)在社會(huì)學(xué)研究中的方法論邏輯,并說(shuō)明大數(shù)據(jù)在應(yīng)用過(guò)程中的方法論困境。
2.大數(shù)據(jù)的方法論邏輯
大數(shù)據(jù)是將社會(huì)生活數(shù)字化、數(shù)據(jù)化、變量化,再通過(guò)測(cè)量這些變量,提取量化信息,得到關(guān)于這個(gè)變量的描述以及多變量關(guān)系的分析。大數(shù)據(jù)方法與定量研究范式有著共同的認(rèn)識(shí)論基礎(chǔ),但又有其特有的方法論特征。
(一)樣本趨近總體
社會(huì)學(xué)定量研究為調(diào)查某一社會(huì)現(xiàn)象在總體中的情況,在抽樣框中隨機(jī)抽取一定比例的樣本,通過(guò)描述和統(tǒng)計(jì)等一系列方法,得到樣本之中不同變量間的關(guān)系,并以此為依據(jù)推論總體之中這些變量之間的狀況。而以大數(shù)據(jù)為經(jīng)驗(yàn)材料的研究不涉及隨機(jī)抽樣的問(wèn)題,而是將全部總體納入到分析的框架內(nèi),得出的變量之間的關(guān)系也無(wú)需參數(shù)檢驗(yàn),而直接用于反映總體趨勢(shì)。例如,2015 年12 月淘寶聯(lián)合第一財(cái)經(jīng)商業(yè)數(shù)據(jù)中心推出的《淘寶大數(shù)據(jù)解讀中國(guó)消費(fèi)趨勢(shì)》的系列報(bào)告, 并不是將用戶做隨機(jī)抽樣形成樣本,然后調(diào)查他們的性別、地理位置、購(gòu)物傾向等,而是直接將3.86 億淘寶用戶這一總體作為分析的對(duì)象,描述總體的消費(fèi)狀況并預(yù)測(cè)未來(lái)消費(fèi)趨勢(shì)。
(二)利用非傳統(tǒng)方式獲取數(shù)據(jù)
一方面,大數(shù)據(jù)不同于傳統(tǒng)問(wèn)卷調(diào)查依靠被研究者的主訴來(lái)獲得資料,而是直接利用技術(shù)手段對(duì)被研究者的行為進(jìn)行檢測(cè)。另一方面,大數(shù)據(jù)的獲取不依賴傳統(tǒng)的社會(huì)統(tǒng)計(jì)部門(mén)。例如,全國(guó)性人口普查是關(guān)于人口的最“大”的數(shù)據(jù),理論上涵蓋每一個(gè)個(gè)人的信息,體量巨大,卻不能被稱為“大數(shù)據(jù)”,因?yàn)槿丝谄詹閿?shù)據(jù)通過(guò)接觸被調(diào)查者直接獲取,并依賴傳統(tǒng)的社會(huì)統(tǒng)計(jì)部門(mén)逐級(jí)上報(bào)。大數(shù)據(jù)往往基于現(xiàn)代科技手段,采取實(shí)時(shí)監(jiān)控、測(cè)量、存儲(chǔ)的方式整合海量信息,例如交通流量監(jiān)控、氣象水文監(jiān)測(cè)數(shù)據(jù)、環(huán)境監(jiān)測(cè)數(shù)據(jù)、商業(yè)物流的數(shù)據(jù)記錄,尤其是近年來(lái)基于互聯(lián)網(wǎng)的瀏覽、搜索引擎、上傳下載等行為的大數(shù)據(jù),更是成為了大數(shù)據(jù)的主流——甚至幾乎成為了“大數(shù)據(jù)”的同義詞。
(三)通過(guò)歸納建立模型
傳統(tǒng)的定量研究先提出假設(shè),并設(shè)計(jì)基于假設(shè)的待檢驗(yàn)?zāi)P停M(jìn)而通過(guò)分析數(shù)據(jù)證明或證偽假設(shè)及相關(guān)統(tǒng)計(jì)模型。而大數(shù)據(jù)方法是通過(guò)對(duì)海量的數(shù)據(jù)進(jìn)行分析,尋找變量之間的關(guān)系,而后建立模型。正如張曉強(qiáng)等所說(shuō):“數(shù)據(jù)科學(xué)以海量的數(shù)據(jù)為研究對(duì)象,通過(guò)數(shù)據(jù)挖掘等手段來(lái)尋找海量數(shù)據(jù)中潛在的規(guī)律。它研究各個(gè)科學(xué)領(lǐng)域所遇到的具有共性的數(shù)據(jù)問(wèn)題,通過(guò)對(duì)數(shù)據(jù)的規(guī)律的研究來(lái)實(shí)現(xiàn)對(duì)科學(xué)問(wèn)題的解答。”這也就意味著通過(guò)大數(shù)據(jù)方法建立的模型并不反應(yīng)必然規(guī)律,而是在非實(shí)驗(yàn)控制的條件下,一系列影響因素綜合作用的結(jié)果。雖然這種模型具有模糊性與偶然性,卻可以在一定程度上預(yù)測(cè)現(xiàn)象發(fā)展的趨勢(shì)。
(四)呈現(xiàn)相關(guān)關(guān)系而非因果關(guān)系
舍恩伯格等認(rèn)為,大數(shù)據(jù)“不是因果關(guān)系,而是相關(guān)關(guān)系”。定量研究目的是為變量的變異性提供因果解釋,用其他變量解釋所要研究的變量的變異性。而應(yīng)用大數(shù)據(jù),尤其在商業(yè)領(lǐng)域,其目的是銷(xiāo)售商品,這種情況下商家只需要了解用戶的行為與銷(xiāo)售額的相關(guān)關(guān)系為何,并以此作為決策依據(jù),向用戶推薦可能需要的商品,指導(dǎo)商業(yè)活動(dòng),而不需要為這種相關(guān)性做出解釋。例如,在美國(guó)沃爾瑪在季節(jié)性風(fēng)暴到來(lái)時(shí),將蛋撻和颶風(fēng)用品擺放在一起,以增加蛋撻的銷(xiāo)售量。分析兩個(gè)變量關(guān)系時(shí),僅僅止步于相關(guān)關(guān)系,即使這個(gè)相關(guān)關(guān)系是虛假關(guān)系,或者通過(guò)其他變量相互關(guān)聯(lián)。這并不是說(shuō)大數(shù)據(jù)不能為因果解釋提供數(shù)據(jù)基礎(chǔ),而是說(shuō)因?yàn)樵谝恍┐髷?shù)據(jù)廣泛應(yīng)用的領(lǐng)域,人們并不探究因果,而是利用大數(shù)據(jù)呈現(xiàn)現(xiàn)象,預(yù)測(cè)現(xiàn)象發(fā)展的趨勢(shì),為決策提供依據(jù)。
3.大數(shù)據(jù)的方法論困境
大數(shù)據(jù)的使用雖然也建立在統(tǒng)計(jì)與計(jì)算的基礎(chǔ)之上,但是卻有著不同于傳統(tǒng)定量研究范式的方法論特征,這些特征使得研究者在運(yùn)用大數(shù)據(jù)的過(guò)程中不可避免地遇到一些方法論困境,這就要求研究者在分析和結(jié)論推演時(shí)謹(jǐn)慎行事。
(一)被研究者的主觀性問(wèn)題
大數(shù)據(jù)更多強(qiáng)調(diào)對(duì)個(gè)體活動(dòng)的監(jiān)測(cè)來(lái)獲取數(shù)據(jù),而非如傳統(tǒng)的定量調(diào)查采取問(wèn)卷的方式。其中隱含的預(yù)設(shè)是,個(gè)體的主訴是含混不清的,被研究者有意隱瞞或是無(wú)意遺忘都可能會(huì)影響到數(shù)據(jù)的信度與效度,而對(duì)個(gè)體活動(dòng)監(jiān)測(cè)得來(lái)的數(shù)據(jù)就可以避免被研究者主觀意向的介入對(duì)數(shù)據(jù)質(zhì)量的影響,例如我們?cè)谡{(diào)查被研究者的收入情況時(shí),如果采用問(wèn)卷調(diào)查的方法,由被研究者自主填寫(xiě),可能會(huì)出現(xiàn)由于記憶不準(zhǔn)導(dǎo)致誤報(bào)或者故意瞞報(bào)的情況,而如果有技術(shù)可以做到對(duì)被研究者銀行賬戶收支的數(shù)據(jù)進(jìn)行監(jiān)測(cè),那么后者將最為接近被研究者收入的“真實(shí)”情況。
但是在研究之中,排除被研究者的主觀參與而對(duì)其行為的監(jiān)測(cè)存在很多問(wèn)題。首先,社會(huì)學(xué)的研究對(duì)象是社會(huì)現(xiàn)象,社會(huì)現(xiàn)象需要人的參與,但是個(gè)人的行為與社會(huì)現(xiàn)象是兩個(gè)不同的概念。行為必須與外部世界中的他人發(fā)生聯(lián)系并主觀指向他人才能被稱為社會(huì)現(xiàn)象,所以任何社會(huì)現(xiàn)象都有作為主體的人的主觀參與,僅僅依靠觀察個(gè)人的活動(dòng)軌跡并不能說(shuō)明發(fā)生了某種社會(huì)現(xiàn)象。例如,我們可以利用視頻監(jiān)控觀察一定時(shí)間地點(diǎn)內(nèi)的人群流動(dòng)狀況,但是我們無(wú)法區(qū)分人群是隨機(jī)地在該地出現(xiàn),還是發(fā)生了集會(huì)、游行等社會(huì)運(yùn)動(dòng)。所以用行動(dòng)代替社會(huì)現(xiàn)象是一種概念的偷換。
其次,當(dāng)我們利用行為監(jiān)測(cè)來(lái)獲得可供研究的經(jīng)驗(yàn)數(shù)據(jù)時(shí),數(shù)據(jù)的完整性依靠于我們監(jiān)測(cè)的手段和方法的可及性與適用性。以調(diào)查收入為例,如果要完整地掌握一個(gè)人的收入狀況,我們不僅需要將他名下的賬戶收支都調(diào)查清楚,還要考慮到他日常生活中的現(xiàn)金流動(dòng)狀況,即便我們可以使用銀行的數(shù)據(jù),但是還是難以監(jiān)測(cè)他在日常生活中的收支狀況,也就是說(shuō)僅利用銀行大數(shù)據(jù)也無(wú)法監(jiān)測(cè)到此人的完整收入信息。所以在現(xiàn)有手段和技術(shù)的條件下,直接向被研究者詢問(wèn)的問(wèn)卷法,依然是最有效的調(diào)查方法。
再次,雖然大數(shù)據(jù)的使用者聲稱用監(jiān)測(cè)其行為的方式替代了被研究者的自我敘述,避免了其主觀意志的干擾,但是在互聯(lián)網(wǎng)的虛擬環(huán)境下,數(shù)據(jù)化的信息有很大一部分來(lái)自于被研究者的鍵入。例如社交網(wǎng)站上的性別、地點(diǎn)、愛(ài)好等信息,依然主要依賴被研究者的自我鍵入,他們有可能會(huì)胡亂填寫(xiě)一些錯(cuò)誤信息,那么這種利用互聯(lián)網(wǎng)大數(shù)據(jù)的調(diào)查方法比面對(duì)面的問(wèn)卷調(diào)查更加難以保證材料的真實(shí)性。
(二)研究對(duì)象的局限性
大數(shù)據(jù)方法把總體作為分析的樣本,直接分析總體的情況并建立模型,免去了隨機(jī)抽樣的過(guò)程。這種方法認(rèn)為將總體作為樣本避免了隨機(jī)抽樣過(guò)程中的抽樣誤差的產(chǎn)生,能夠精確地反映總體的變化趨勢(shì)。但是大數(shù)據(jù)方法能夠獲取的“總體”本身是存在偏差的。
首先,由于大數(shù)據(jù)抓取方式的特殊性,研究者的分析可能產(chǎn)生系統(tǒng)性偏誤。也就是說(shuō),研究者僅能獲得“能夠被抓取”的信息,而大量不能被抓取的信息則被排除在了總體之外。到2016 年初,中國(guó)有6.88 億網(wǎng)民,而中國(guó)總?cè)丝?3.68 億,那么通過(guò)網(wǎng)絡(luò)抓取個(gè)人信息的方式來(lái)獲得的大數(shù)據(jù)依然無(wú)法涵蓋不會(huì)在網(wǎng)上留下痕跡的6.8 億非網(wǎng)民。在實(shí)際的研究中,研究者往往僅依靠一個(gè)或幾個(gè)網(wǎng)站的后臺(tái)數(shù)據(jù)作為分析資料,那么這種大數(shù)據(jù)僅是使用該網(wǎng)站的用戶的數(shù)據(jù),不能將分析結(jié)果推論到其他網(wǎng)民,更不能推論到全體國(guó)民。因此,研究者必須注意,大數(shù)據(jù)中所謂的總體是有限的總體,大部分難以通過(guò)大數(shù)據(jù)方法抓取的個(gè)體并不被作為研究對(duì)象包含在總體中。
第二,即使在同一數(shù)據(jù)收集平臺(tái)上,由于不同的個(gè)人活躍性不同,其信息被抓取的概率也不同,因此這些大數(shù)據(jù)的形成既不是抽樣,也遠(yuǎn)非隨機(jī),而是具有極大的偶然性。英國(guó)廣播公司在2011 年通過(guò)互聯(lián)網(wǎng)上自助填寫(xiě)問(wèn)卷的形式進(jìn)行了一項(xiàng)英國(guó)階層調(diào)查,并以此為根據(jù)將英國(guó)社會(huì)分為7 個(gè)階層。該調(diào)查共有161458 人參加,樣本規(guī)模遠(yuǎn)超傳統(tǒng)的問(wèn)卷調(diào)查,有的學(xué)者將該調(diào)查所獲得的數(shù)據(jù)界定為大數(shù)據(jù),并認(rèn)為該調(diào)查由被研究者填寫(xiě),可以擺脫以往的大數(shù)據(jù)方法多是對(duì)行為進(jìn)行觀察而忽視個(gè)人主觀性的方法論困境。然而網(wǎng)絡(luò)調(diào)查的樣本僅僅是在問(wèn)卷投放網(wǎng)絡(luò)的一段時(shí)間內(nèi)發(fā)現(xiàn)并有意愿填寫(xiě)問(wèn)卷的網(wǎng)民,如果一個(gè)網(wǎng)民在這一時(shí)間并不活躍,那么他將不被納入調(diào)查的樣本之中,因此通過(guò)該網(wǎng)絡(luò)調(diào)查得出的結(jié)果只是一種偶然關(guān)聯(lián),一種統(tǒng)計(jì)學(xué)上的相關(guān),而不具有任何推論價(jià)值。
(三)變量關(guān)系的真?zhèn)螁?wèn)題
如前所述,一般情況下人們?cè)谑褂么髷?shù)據(jù)時(shí)僅僅關(guān)注兩個(gè)事件的相關(guān)關(guān)系。而對(duì)社會(huì)學(xué)研究來(lái)說(shuō),研究者需要描述特定社會(huì)現(xiàn)象的變異,再通過(guò)了解該社會(huì)想象與其他社會(huì)現(xiàn)象(變量)的因果關(guān)系,為該現(xiàn)象的變異提供解釋依據(jù)。所以當(dāng)我們?cè)噲D用大數(shù)據(jù)作為材料來(lái)進(jìn)行解釋社會(huì)現(xiàn)象時(shí)需要非常謹(jǐn)慎,可能兩個(gè)具有高度統(tǒng)計(jì)相關(guān)的變量并不具有社會(huì)學(xué)意義上的因果關(guān)系。
第一,在一些領(lǐng)域應(yīng)用的大數(shù)據(jù)變量間的關(guān)系為虛假關(guān)系。例如颶風(fēng)用品的銷(xiāo)售量和蛋撻的銷(xiāo)售量呈現(xiàn)成比例相關(guān),但是二者并不具有因果關(guān)系,而是共同的受到另一變量即颶風(fēng)天氣因素的影響,控制天氣因素則二者相關(guān)關(guān)系自動(dòng)解除。所以在使用大數(shù)據(jù)分析兩個(gè)變量關(guān)系時(shí)往往需要控制其他變量,以達(dá)到辨別相關(guān)關(guān)系真?zhèn)危M(jìn)而對(duì)社會(huì)現(xiàn)象進(jìn)行因果解釋的目的。
第二,由于大數(shù)據(jù)旨在一個(gè)較大的數(shù)量級(jí)上關(guān)注兩個(gè)變量變異的總體趨勢(shì)預(yù)測(cè),所以往往忽視樣本內(nèi)部個(gè)體之間的差異,試圖用一個(gè)變量完全解釋另一個(gè)變量的變異,導(dǎo)致層次謬誤。Ar tés 對(duì)西班牙選舉日的天氣和投票大數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)如果天氣狀況不佳,則保守政黨得票比例將增高。如果分析止步于此,就會(huì)得到結(jié)論:天氣狀況影響保守派的得票率。但是作者將投票者的社會(huì)經(jīng)濟(jì)地位作為變量帶入分析之中,進(jìn)而論述天氣不佳會(huì)影響較低階層的人們出行,而較低階層的人群更多地將選票投給左翼政黨,所以天氣不佳,較低階層的投票者數(shù)量減少,左翼政黨得票比例下降,保守政黨得票比例上升。控制社會(huì)經(jīng)濟(jì)地位這一變量,則可以看到天氣僅對(duì)低階層人群的投票率產(chǎn)生影響,所以僅關(guān)注數(shù)據(jù)的整體趨勢(shì)則可能導(dǎo)致層次謬誤的出現(xiàn)。
第三,利用大數(shù)據(jù)方法獲取資料是否要進(jìn)行顯著性檢驗(yàn)、應(yīng)該如何進(jìn)行相關(guān)檢驗(yàn),依然存疑。一方面,大數(shù)據(jù)方法聲稱其樣本即總體,那么既然直接分析總體趨勢(shì)的變化則可以免去顯著性檢驗(yàn)的過(guò)程。然而如前所述,大數(shù)據(jù)方法能夠獲取到的“總體”和作為研究對(duì)象的“總體”總是存在著錯(cuò)位,大數(shù)據(jù)“總體”(樣本)的獲取也并不是采用概率抽樣,所以該不該進(jìn)行顯著性檢驗(yàn)的問(wèn)題就擺在了研究者面前。另一方面,即使暫且認(rèn)為大數(shù)據(jù)需要進(jìn)行顯著性檢驗(yàn),通常顯著性檢驗(yàn)是針對(duì)正態(tài)分布的較小樣本而進(jìn)行的,樣本規(guī)模會(huì)對(duì)顯著性檢驗(yàn)的結(jié)果產(chǎn)生影響,而大數(shù)據(jù)由于樣本規(guī)模龐大,所以在分析的過(guò)程中很容易發(fā)現(xiàn)統(tǒng)計(jì)顯著性,那么就有可能導(dǎo)致這樣一種錯(cuò)誤:被發(fā)現(xiàn)變量之間的關(guān)系是偶然出現(xiàn)的而并不具有任何規(guī)律性,卻僅僅由于龐大的樣本量而被證明具有顯著性。
(四)數(shù)據(jù)缺失問(wèn)題
不管是辨別相關(guān)關(guān)系的真?zhèn)危€是避免層次謬誤,都離不開(kāi)數(shù)據(jù)本身包含的變量的規(guī)模,只有在數(shù)據(jù)包括足夠豐富的其他變量時(shí),我們才能夠引入或者控制這些變量,已達(dá)到解釋因變量變異的目的。舉例說(shuō)明,當(dāng)研究者對(duì)人群的收入進(jìn)行研究時(shí),不僅僅要看作為整體的收入變量如何分布,還需要收集人群的其他變量,例如性別、年齡、收入、職業(yè)等,分別分析收入在不同人群之中的變異情況,從而對(duì)收入不平等進(jìn)行解釋。也就是說(shuō),社會(huì)學(xué)研究需要的是多變量的數(shù)據(jù)矩陣,而不是樣本龐大但變量單一的大數(shù)據(jù)。然而做到這一點(diǎn)并不容易。
第一,如果一個(gè)大數(shù)據(jù)樣本量巨大,但只包括單一的變量,那么只能對(duì)這個(gè)大數(shù)據(jù)中的這個(gè)變量進(jìn)行描述統(tǒng)計(jì),則這個(gè)大數(shù)據(jù)不能作為社會(huì)學(xué)分析的材料,例如單一的地區(qū)人均收入數(shù)據(jù)、流行病死亡率數(shù)據(jù)等。如果研究者想要使用這些數(shù)據(jù),必須將時(shí)間、地點(diǎn)等內(nèi)容作為中間變量,將該大數(shù)據(jù)與其他數(shù)據(jù)庫(kù)進(jìn)行對(duì)接,以此獲得較多的分析所需的變量。
第二,一些網(wǎng)絡(luò)大數(shù)據(jù)由于其獲取形式的非常規(guī)問(wèn)題,導(dǎo)致數(shù)據(jù)本身的模糊性和混雜性,致使不可避免地出現(xiàn)數(shù)據(jù)缺失的情況。假設(shè)要對(duì)一個(gè)匿名的不需要身份驗(yàn)證的社交網(wǎng)站上的內(nèi)容做分析,我們難以保證所有用戶都鍵入了研究所要分析的社會(huì)特征信息,例如性別、畢業(yè)學(xué)校、薪資等內(nèi)容,這就必然導(dǎo)致大量的數(shù)據(jù)缺失,面對(duì)海量的缺失數(shù)據(jù),任何刪除和填補(bǔ)的補(bǔ)救措施都會(huì)對(duì)分析的結(jié)果產(chǎn)生影響,因此關(guān)鍵變量的大量數(shù)據(jù)缺失使得任何統(tǒng)計(jì)分析的結(jié)果都存在偏誤。
4.結(jié)語(yǔ)
大數(shù)據(jù)近年來(lái)的廣泛應(yīng)用,大大拓展了社會(huì)學(xué)的理論視野。然而,任何單一范式中的理論與方法都有其適用性和解釋邊界。大數(shù)據(jù)將社會(huì)生活數(shù)字化、數(shù)據(jù)化、定量化,認(rèn)為社會(huì)生活的本質(zhì)是由信息構(gòu)成的,主張測(cè)量一切,實(shí)質(zhì)上是用一種科學(xué)主義簡(jiǎn)化論的世界觀來(lái)看待社會(huì)生活。社會(huì)學(xué)是一門(mén)多研究范式的學(xué)科,以統(tǒng)計(jì)分析為特征的大數(shù)據(jù)方法,充其量只能作為社會(huì)學(xué)諸多研究范式中的一種,并不會(huì)帶來(lái)社會(huì)學(xué)的范式革命。
數(shù)據(jù),是世界通過(guò)我們的感覺(jué)和工具呈現(xiàn)給我們的東西,而知識(shí),是我們對(duì)數(shù)據(jù)的理解與詮釋。大數(shù)據(jù)不是“告訴”了我們世界如何運(yùn)作,而僅僅是呈現(xiàn)給我們需要解讀的材料,如何對(duì)數(shù)據(jù)進(jìn)行理解與詮釋,還需要具有一定知識(shí)結(jié)構(gòu)和理論背景的研究者發(fā)揮社會(huì)學(xué)的想象力。大數(shù)據(jù)是我們認(rèn)識(shí)世界的工具,并不能代替研究者的理性思考,也不會(huì)帶來(lái)社會(huì)學(xué)研究范式的根本轉(zhuǎn)變,因此神化大數(shù)據(jù)的諸多論斷,在本文看來(lái)都是不可取的。
物聯(lián)網(wǎng)有助于降低成本,為消費(fèi)者提供新的體驗(yàn)。但它仍然需要一定的時(shí)間來(lái)完善,才能為公司提供持續(xù)性的價(jià)值。
物聯(lián)網(wǎng)的時(shí)代已經(jīng)到來(lái),但物聯(lián)網(wǎng)技術(shù)的發(fā)展卻沒(méi)有想象中理想。物聯(lián)網(wǎng)的現(xiàn)實(shí)和愿景之間還存在著一定的差距。
嘗試物聯(lián)網(wǎng)(IoT)的公司都會(huì)理解這種矛盾。以Hexagon Manufacturing Intelligence為例,在2014年10月,Milan Kocic和他的團(tuán)隊(duì)曾經(jīng)下大力氣創(chuàng)建MMS Pulse——一個(gè)物聯(lián)網(wǎng)互聯(lián)的機(jī)器人,他們要在Dreamforce——Salesforce的年度會(huì)議上進(jìn)行演示。
機(jī)器人負(fù)責(zé)收集崩潰數(shù)據(jù)以及機(jī)械上對(duì)環(huán)境敏感的信息,如溫度、濕度和振動(dòng),確保機(jī)器零件根據(jù)設(shè)計(jì)規(guī)格運(yùn)轉(zhuǎn)。它將收集到的數(shù)據(jù)傳送到Salesforce應(yīng)用,以便人類(lèi)可以采取相應(yīng)的行動(dòng)。Milan Kocic團(tuán)隊(duì)的演示展示了一個(gè)典型的物聯(lián)網(wǎng)應(yīng)用——從傳感器或其他網(wǎng)絡(luò)設(shè)備上獲取信息,對(duì)這些信息進(jìn)行實(shí)時(shí)分析,幫助企業(yè)根據(jù)數(shù)據(jù)做出決定。
Dreamforce上示范展示了物聯(lián)網(wǎng)技術(shù)解決實(shí)際問(wèn)題的愿景,但同時(shí)也顯示了物聯(lián)網(wǎng)技術(shù)的不成熟。“這與黑客的工作類(lèi)似,“Hexagon負(fù)責(zé)用戶體驗(yàn)和創(chuàng)新業(yè)務(wù)發(fā)展的經(jīng)理Kocic回憶道,“我們將用電線來(lái)懸掛東西。我們經(jīng)常開(kāi)玩笑說(shuō),人們都會(huì)認(rèn)為這是一個(gè)3D打印機(jī),但其實(shí)它和打印機(jī)一點(diǎn)關(guān)系都沒(méi)有。”
Kocic指出,互聯(lián)機(jī)器人仍然會(huì)被認(rèn)為是一項(xiàng)科學(xué)展覽項(xiàng)目,它引起了大量的關(guān)注,但它仍然是一個(gè)實(shí)驗(yàn)。“它并不是一個(gè)沒(méi)有實(shí)際用處的東西,”他補(bǔ)充說(shuō),“很多東西仍在處于類(lèi)似于玩具的階段,但MMS Pulse(代表)了物聯(lián)網(wǎng)在制造業(yè)的應(yīng)用前景。”
物聯(lián)網(wǎng)技術(shù)為人們提供了收集和分析大量數(shù)據(jù)的機(jī)會(huì),企業(yè)可以使用物聯(lián)網(wǎng)來(lái)降低成本,提高運(yùn)營(yíng)效率和開(kāi)發(fā)新產(chǎn)品。但物聯(lián)網(wǎng)正在經(jīng)歷尷尬的漸變,缺乏行業(yè)標(biāo)準(zhǔn),對(duì)數(shù)據(jù)安全性的擔(dān)憂都阻礙著物聯(lián)網(wǎng)的發(fā)展,此外,企業(yè)在收集數(shù)據(jù)方面同樣存在著困惑,他們并不十分清楚對(duì)哪些數(shù)據(jù)進(jìn)行收集將更有價(jià)值。因此,許多企業(yè)選擇謹(jǐn)慎地開(kāi)展物聯(lián)網(wǎng)相關(guān)的項(xiàng)目,即使開(kāi)展,這些項(xiàng)目也僅僅限制在試點(diǎn)層次。
企業(yè)對(duì)IoT的接受進(jìn)度十分緩慢
即使是試點(diǎn)項(xiàng)目,物聯(lián)網(wǎng)技術(shù)所產(chǎn)生的數(shù)據(jù)量也是巨大的。IDC和EMC的2014 Digital Universe研究中估計(jì),到2020年,物聯(lián)網(wǎng)技術(shù)產(chǎn)生的信息量將占嵌入式系統(tǒng)生成的數(shù)據(jù)總額的10%。這樣的體積使得全面觀察客戶變得不那么容易。“仍然只能讓你管中窺豹,” Forrester Research的分析師Michelle Goetz說(shuō)道,“你迷失在數(shù)據(jù)的體量中,更不用說(shuō)試圖把所有的信息融合在一起,真正了解你的客戶是誰(shuí)了。”
Kocic解釋說(shuō):“時(shí)間都耗費(fèi)在部署上,并且我們會(huì)得到過(guò)多的數(shù)據(jù),這超過(guò)了我們的能力范圍,我們可能會(huì)陷入惡性循環(huán),為客戶提供不恰當(dāng)?shù)姆?wù)。”
盡管有很多這樣的警示故事,行業(yè)分析師依然預(yù)測(cè),物聯(lián)網(wǎng)市場(chǎng)即將產(chǎn)生爆炸性的發(fā)展。Gartner預(yù)測(cè)到2020年將會(huì)有135億物聯(lián)網(wǎng)互聯(lián)設(shè)備。2016年2月Gartner的一份報(bào)告指出,目前只有29%的受訪企業(yè)正在使用物聯(lián)網(wǎng)技術(shù),而14%的人說(shuō)他們計(jì)劃今年實(shí)現(xiàn)物聯(lián)網(wǎng)相關(guān)應(yīng)用,21%的人表示會(huì)在2016年后嘗試物聯(lián)網(wǎng)。
但這些企業(yè),尤其是那些依賴于客戶數(shù)據(jù)的企業(yè),仍受困于數(shù)據(jù)隱私以及如何深入了解信息等問(wèn)題。“這是一個(gè)巨大的趨勢(shì),”West Monroe Partners咨詢技術(shù)服務(wù)的主管Erik Brown表示,“但每個(gè)人都在努力嘗試,想要找到其真正需要關(guān)心的數(shù)據(jù)所在。”
數(shù)據(jù)治理十分關(guān)鍵
如果對(duì)于操作相關(guān)問(wèn)題存在疑問(wèn),那么處理和保護(hù)客戶數(shù)據(jù)也同樣存在問(wèn)題。eBay,Home Depot,JPMorgan Chase和Target這些的公司泄露了用戶的數(shù)據(jù),直接導(dǎo)致其公眾信任的削弱。在多個(gè)公司進(jìn)行數(shù)據(jù)共享,進(jìn)行入侵時(shí)營(yíng)銷(xiāo),同樣打擾到公司客戶,導(dǎo)致他們與客戶的關(guān)系日漸疏遠(yuǎn)。公司需要認(rèn)識(shí)到,利用物聯(lián)網(wǎng)技術(shù)需要完備的數(shù)據(jù)安全政策和良好的客戶數(shù)據(jù)管理策略。
“如果你無(wú)力保護(hù)數(shù)據(jù),那么就不要收集數(shù)據(jù),” CGI Group負(fù)責(zé)全球網(wǎng)絡(luò)安全的副總裁John Proctor在一次由Economic Club of Canada舉辦的互聯(lián)網(wǎng)治理和安全的會(huì)談中說(shuō)道,“如果你失去所有的客戶數(shù)據(jù),誰(shuí)知道會(huì)發(fā)生什么可怕的事情。”
總部設(shè)在加州的ChargePoint 公司,收集物聯(lián)網(wǎng)客戶數(shù)據(jù)時(shí)遇到了類(lèi)似的問(wèn)題。該公司處于環(huán)保運(yùn)輸業(yè)的最前沿,它生產(chǎn)電動(dòng)汽車(chē)(EV)充電站,賣(mài)給零售商和雇主,安裝在停車(chē)場(chǎng)和其他地方。成為ChargePoint網(wǎng)絡(luò)項(xiàng)目一員的消費(fèi)者可以通過(guò)無(wú)線電頻率識(shí)別信用卡或一個(gè)移動(dòng)應(yīng)用程序訪問(wèn)一個(gè)充電站。服務(wù)對(duì)于項(xiàng)目成員是免費(fèi)的,另一方面,充電站提供者向司機(jī)收取使用費(fèi)用。
通過(guò)物聯(lián)網(wǎng)互聯(lián)的充電站收集大量的數(shù)據(jù)。當(dāng)電動(dòng)車(chē)車(chē)主在Target, Walgreens 或者Whole Foods的充電站給汽車(chē)充電時(shí),ChargePoint能夠知道客戶在這個(gè)位置待了多久,開(kāi)什么樣的車(chē)。ChargePoint商業(yè)拓展部的高級(jí)主管Tavis Szeto表示,第三方對(duì)于訪問(wèn)這些信息很感興趣。“公用事業(yè)公司,大學(xué)和研究公司都向我們索取數(shù)據(jù),”我們并沒(méi)有分享這些數(shù)據(jù)的打算,因?yàn)槲覀冞€要分析它們。“
雖然ChargePoint 沒(méi)有激活數(shù)據(jù)伙伴關(guān)系,但交換客戶數(shù)據(jù),交叉銷(xiāo)售的可能性依然存在。例如,一個(gè)持有Target RedCard的顧客是ChargePoint的成員,使用一個(gè)毗鄰Target的充電站后,可以享受商店給予的折扣。數(shù)據(jù)可以從ChargePoint發(fā)送的Target的系統(tǒng)中,后者可以在客戶每天完成五筆消費(fèi)后,贈(zèng)送客戶兩個(gè)免費(fèi)DVD,這不會(huì)使用到個(gè)人身份信息,如信用卡或社會(huì)保險(xiǎn)信息等。
與Hexagon類(lèi)似,ChargePoint謹(jǐn)慎地處理物聯(lián)網(wǎng)收集的數(shù)據(jù),以確保其交付積極的客戶體驗(yàn)。許多公司共享數(shù)據(jù)和使用數(shù)據(jù)增加用戶粘度,非常容易濫用數(shù)據(jù),他們可能發(fā)送很多電子郵件給客戶或者使用盲目的“個(gè)性化”通知策略。ChargePoint擔(dān)心客戶對(duì)自己產(chǎn)生偏見(jiàn),覺(jué)得他們沒(méi)有充分保護(hù)客戶的信息。
“我們所做的一切都是為了司機(jī)能夠有更好的體驗(yàn),”Szeto說(shuō),“我們不想事與愿違。關(guān)掉驅(qū)動(dòng)程序,然后保存數(shù)據(jù),直到時(shí)機(jī)正確時(shí)再使用。”
從數(shù)據(jù)中挖掘價(jià)值
但一些業(yè)內(nèi)專家表示,年輕消費(fèi)者愿意放棄個(gè)人數(shù)據(jù),他們希望通過(guò)這些數(shù)據(jù)得到相關(guān)信息。“如果你提供一些相關(guān)信息給他們,他們會(huì)做出回應(yīng),這些關(guān)聯(lián)性的東西彌補(bǔ)了信息泄露帶給人的恐慌感。”West Monroe Partners的Brown 說(shuō)道。
加州25歲的ChargePoint會(huì)員Jonathan Precopio是一名學(xué)生,同時(shí)也是環(huán)球影城的兼職員工,他還擁有一輛Nissan Leaf EV。Precopio表示,他歡迎ChargePoint和其合作伙伴之間共享數(shù)據(jù)享,這樣可以讓自己獲得一些額外的補(bǔ)貼。“這將鼓勵(lì)我在類(lèi)似Target的商店購(gòu)買(mǎi)更多東西,”他補(bǔ)充道,“這將是一個(gè)很好的工具,它帶來(lái)更多的客戶,尤其是電動(dòng)汽車(chē)司機(jī)。”
分析師承認(rèn),數(shù)據(jù)安全并不一定是物聯(lián)網(wǎng)的一個(gè)累贅。例如Forrester的Goetz指出,公司現(xiàn)在可以聚合數(shù)據(jù),將數(shù)據(jù)匿名化并用來(lái)獲得客戶更多的個(gè)人信息,而且還不危害到數(shù)據(jù)安全。她說(shuō),“你不需要維護(hù)大量的個(gè)人信息來(lái)創(chuàng)建良好的體驗(yàn)。你可以把數(shù)據(jù)扔掉,除非客戶明確說(shuō)你可以持有這些數(shù)據(jù)。你也不需要知道我是Forrester的Michelle ,我已經(jīng)留下足夠的碎片化信息。”
物聯(lián)網(wǎng)缺乏標(biāo)準(zhǔn)
標(biāo)準(zhǔn)缺乏也在物聯(lián)網(wǎng)的癥結(jié)之一。不同種類(lèi)的互聯(lián)設(shè)備相互通信,他們必須使用同樣的語(yǔ)言。但很多行業(yè)開(kāi)發(fā)了他們自己的協(xié)議。標(biāo)準(zhǔn)組織大量出現(xiàn),包括Industrial Internet Consortium,AllSeen Alliance和 Thread Group。大多數(shù)公司認(rèn)為物聯(lián)網(wǎng)技術(shù)想要日趨成熟,必須制定相應(yīng)的標(biāo)準(zhǔn)。
Hexagon的Kocic表示:“將會(huì)有某種形式的整合出現(xiàn),當(dāng)設(shè)備都各自為政時(shí),他們無(wú)法互相通信。在某種程度上,這是不能接受的。”
ChargePoint的Szeto認(rèn)為,市場(chǎng)將最終決定實(shí)際的標(biāo)準(zhǔn)。“多種標(biāo)準(zhǔn)目前也有著其存在的理由。我們還不知道哪一個(gè)會(huì)是最好的,”他說(shuō)。
未來(lái)的物聯(lián)網(wǎng)應(yīng)用
最終,物聯(lián)網(wǎng)將度過(guò)其漸變階段,變得更為成熟,但數(shù)據(jù)安全,客戶個(gè)性化,如何說(shuō)服客戶認(rèn)清物聯(lián)網(wǎng)價(jià)值等仍然是物聯(lián)網(wǎng)技術(shù)發(fā)展的阻礙。
盡管全球客戶使用了其成千上萬(wàn)的機(jī)器,Hexagon目前只有四個(gè)物聯(lián)網(wǎng)互聯(lián)的機(jī)器。該公司正在慢慢將MMS Pulse轉(zhuǎn)化為一個(gè)商業(yè)產(chǎn)品。首先,它想要知道更多關(guān)于客戶需求的數(shù)據(jù)。“物聯(lián)網(wǎng)發(fā)展的下一步是變得善于知道你想收集什么,”Kocic說(shuō),“我們想要確保在兩到三年內(nèi),在我們不指明的情況下,Pulse能夠知道我們想要什么。我們做了一個(gè)很好的嘗試,但我們迷路了。從小事做起更有意義。”
Hexagon計(jì)劃將MMS Pulse推銷(xiāo)給客戶,作為一個(gè)基于訂閱的服務(wù),提供實(shí)時(shí)數(shù)據(jù),顯示機(jī)器如何運(yùn)行并在機(jī)器需要維護(hù)時(shí)主動(dòng)提示。“我們不再被動(dòng)的響應(yīng),我們可以打電話給一個(gè)客戶說(shuō),‘我們發(fā)現(xiàn)你的機(jī)器有問(wèn)題,我們明天就過(guò)來(lái)幫你解決問(wèn)題,’”Kocic說(shuō),“過(guò)去,我們派服務(wù)人員單獨(dú)訪問(wèn)客戶,找出問(wèn)題所在,現(xiàn)在只需要一次,就可以定位需要修復(fù)的部分。這一過(guò)程可能需要一個(gè)星期。”
ChargePoint的Szeto還透露了其公司對(duì)未來(lái)的設(shè)想。比如在充電站安裝監(jiān)控?cái)z像頭,以確保公共安全,或使用物聯(lián)網(wǎng)技術(shù)幫助汽車(chē)實(shí)現(xiàn)自動(dòng)駕駛。像UberEats模型一樣,ChargePoint 設(shè)想一個(gè)場(chǎng)景,在該場(chǎng)景中,一輛無(wú)人駕駛汽車(chē)收到請(qǐng)求,開(kāi)車(chē)載她去開(kāi)會(huì),在自動(dòng)充電站充電,替時(shí)間不夠充裕的客戶拿午餐,并快速載她到達(dá)下一個(gè)目的地。
Forrester的Goetz解釋說(shuō),這是一個(gè)趨勢(shì),包括互聯(lián)體驗(yàn)和虛擬現(xiàn)實(shí),例如,對(duì)度假地點(diǎn)虛擬預(yù)覽等。“這樣的場(chǎng)景離我們不遠(yuǎn)了。”
此外,還要將這些未來(lái)的前景與當(dāng)今現(xiàn)實(shí)相結(jié)合。電動(dòng)汽車(chē)行業(yè)的專家Szeto表示,他最近開(kāi)著妻子的Toyota Sienna休旅車(chē)進(jìn)行了一次家庭旅行,這不是電動(dòng)車(chē)。事實(shí)上,市場(chǎng)上還沒(méi)有電動(dòng)休旅車(chē)。“我過(guò)去開(kāi)一輛Nissan Leaf,是一輛電動(dòng)汽車(chē),”Szeto說(shuō),“但我現(xiàn)在有三個(gè)孩子,電動(dòng)車(chē)無(wú)法容納全部的人。”