我準備與大家討論三個問題:第一,什么是大數據。關于大數據大家說的很多,但是其中錯誤概念也非常多,我想從我的角度來給澄清一下大數據是什么。第二,大數據和社會學研究到底有沒有關系。相信這也是大家比較關心的議題。第三個,大數據對社會學研究帶來了什么挑戰。大數據給當今社會帶來的挑戰非常多,但對社會學研究而言,到底有什么樣的挑戰呢?我自己有三點看法與各位分享。首先,我們來看一下什么是大數據。
1.什么是大數據?
大數據是痕跡數據匯集的并行化、在線化、生活化和社會化。
對社會學研究,我們最熟悉的是社會活動,我稱其為人類活動。其實今天,不僅僅社會活動,你的私密活動也在數據之中,我沒有加“社會”兩個字,道理就在于人類的活動都在慢慢地數據化。在人類活動中,有一個概念叫做造痕,考古挖掘的,就是人類社會生活留下的痕跡。過去,我們通常拿這些痕跡做證據,比如考古學、歷史學和社會學的許多研究活動。這些證據有一些會被數據化,數據化了的證據就叫做數據。
既然很早以前就有“數據”,今天怎么就出來一個大數據呢?一個非常重要的因素,就是網絡化匯集和網絡化存儲,把過去的數據集中起來,這才構成了大家討論的大數據。
那么,什么叫大數據?麥肯錫從行業和業務價值鏈的角度給了一個定義:數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘與運用,預示著新一波生產率增長和消費者盈余浪潮的到來。麥肯錫認為,大數據將是一個生產力的來源。今天,我們在講“互聯網+”,背后有一個非常重要的概念,叫數據驅動。過去,我們的研究活動叫理論驅動,今天,數據驅動已經變成了人類社會研究中非常重要的概念。
“大數據”概念最早從哪里來呢?沒有確切的證據,但是IBM很早就開始談大數據了。IBM給大數據的定義是“4個V”:數量(Volume)、形態(Variety)、價值(Value)、速度(Velocity)。這是從數據本身做的定義。
沿著IBM提出的“4個V”,先做一個簡單的說明和解釋。首先,從數量來看,大數據的數據量已經超出了任何個人在可接受時間范圍內搜集、利用、管理和處理數據的能力了。2012年,對數據的計量已經從MB級躍升到TB級了?,F在講大數據,基本都是在PB級及以上。這個量級,超出任何單部計算機乃至大型機的處理能力。
其次,從數據形態來看,傳統的數據,通常是結構化數據,大數據則是混合形態的數據。在大數據中,有一部分是結構化的數據,如SQL(結構化查詢語言)數據,更多的則是非結構化的數據,如日志、音頻、視頻、圖片和地理位置等數據,大都是非結構化的。
第三,從商業領域來看,大數據的價值密度比較低。傳統的數據,通常是目標導向數據,有非常明確的價值,比如說CFPS(中國家庭動態跟蹤調查)。大數據則是記錄導向的,是為了記錄數據而不是為了得到某個特定事件的數據,不是為了解釋某個事件而記錄數據。這是數據獲取方式上非常重要的變化。
大數據第四個重要特征是速度。傳統的數據,從測量到可用,需要相當長的時間,赫爾曼 霍爾瑞斯在統計1890年人口普查數據時,發明了讀卡機,用1年的時間完成了原本耗時8年的人口普查活動;CFPS從調查結束到數據可用,也需要1-2年的時間。大數據 ,幾乎隨時可用,每時每刻都在記錄數據,每時每刻這些數據也可用;不過,可用,也有一定的約束性。對研究而言,不是針對一個具體研究問題可用,而是說,如果你想研究某個尚未模型化的問題,可以隨時截一段數據來,進行數據清理的可用。
從社會研究的視角,我自己給大數據一個定義——大數據是痕跡數據匯集的并行化、在線化、生活化、社會化。
數據匯集的并行化是一個計算機科學概念。并行,指可以同時運行很多個線程。在線化,就是數據本身在線上,不在你的桌面計算機或移動硬盤中。社會化,指每個人都有可能是數據的提供者。在過去,大多數都是由機構或者個人找“樣本”提供數據;但是今天,每個人,只要接觸傳感器,甚至走在大街上,都是數據的提供者,同時,也是數據的使用者。生活化,則指數據的無處不在,無論是工作中還是生活中,數據始終伴隨著人們。
簡單地說,大數據,就是形態數字化、非結構化、在線流動著的數據,容量至少在PB級或以上,與社會行為相伴生、通過設備和網絡匯集的數據。大數據是完整的,卻不一定是系統的,它無時無刻都在記錄著人類的行為。
因此,對社會學研究而言,大數據是一種新的研究數據來源,一種永不停息的、流動的研究資源,不一定是對其他來源數據的全面替代。
2.大數據和社會學研究有關系嗎?
大數據和社會學研究關系密切,對其應用,目前,看起來似乎沒那么緊迫,且主要對實證社會學產生較大的影響,逐漸地就會影響到社會學,甚至整個社會科學。
在社會學想象力的前提下,我把社會學的研究分為三大類。
第一類——思辨的社會學,社會學的鼻祖們,基本上都采用了思辨的方法在研究社會學。后來的,比如說帕森斯、???、吉登斯等也是。思辯的社會學,主要采用“概念”工具,而不講求對概念工具的測量,這些社會學家們,基本不用數據。
第二類——詮釋的社會學,從胡塞爾以降到舒茨式的現象學社會學等。這些學者,主要是圍繞“意義”進行研究。對他們來說,現象的代表性或許是沒有意義的,現象本身卻具有意義。他們的任務,就是闡釋現象的意義。這一類社會學研究,或許也不用數據。
第三類——實證的社會學,主要源于年鑒學派,也是社會學研究中作品量比較大的一類。如果把這一類社會學與前兩類社會學做一個簡單的區分,就在于是否使用假設檢驗和經驗檢驗。
目前,數據與社會學研究關系最密切的,是第三類——實證的社會學,實證社會學研究離不開數據。
實證社會學有一個發展的過程。1998年,Platt對美國社會學研究做了一個長時段的回顧,發現:1915年-1924年,35%的社會學研究文章中用的是個案,53%用的是統計;到1964年使用統計方法的研究上升到了76%,尤其是ASR(American Sociological Review)和AJS(American Journal of Sociolog)兩個主流的刊物。在今天,除非做純粹的社會理論研究,只要涉及到社會事實的文章,似乎都需要用數據進行檢驗。在中國也一樣,王文韜在 2000年的研究,也證明了中國社會學研究實證化的趨勢在迅速加強。
過去,實證社會學研究的數據主要來自于調查活動。二戰以后,從密西根大學建立ISR(Institute for Social Research)開始,數據科學開始慢慢興起。在大數據到來之前,主要有三個數據來源,分別代表了三種資源來源和三個群體的權力。第一,行政數據,各國政府、各級政府,掌握的各種ID、身份、流動、登記、就業、生產、消費等信息;第二,商業數據,比如說過去近三百年的金融數據、生產交易數據、勞動工資數據等,都在商業機構手里。直到1930s開始,社會科學家逐步認識到數據的重要性,開始尋找數據。二戰以后,ISR逐步發展了一整套依靠學術力量獲取數據的方法,并建立了覆蓋人類社會、經濟、教育、健康生活的各類調查數據。在一定意義上,調查數據,成為學者手中一項資源,也是學者在社會中發出聲音的一種依據。
由此看來,從社會學研究發展的視角來看,大數據和社會學有密切關系,只是,目前看起來沖擊似乎并不大,也主要是針對實證社會學的沖擊。在將來可能就不是這樣了,對大數據的應用不僅對社會學而言會變得十分緊迫,甚至對所有社會科學而言都將如此。
3.大數據給社會學帶來了什么挑戰?
今天,社會研究依然需要通過調查獲取數據?;蛟S大數據研究的范式重在發現,而不是重在推論。社會研究的基本目標還是要把握事物之間的關系模式,不過,在大數據中,這種把握的技術變了,需要運用數據挖掘技術。不僅如此,大數據給帶來的更大挑戰,在于對整個教育體制的挑戰。
在大數據應用日益廣泛的現代社會中,進行社會研究依然需要調查數據。的確,對于大數據而言,無需調查,只需選擇。調查數據,是有目的、有假設地去搜集數據。對于大數據而言,沒有任何人可以做某個單一的研究假設,也沒有任何人有能力做普適的研究假設。正是在這個意義上,對大數據的分析,重在發現。而且目前主要是機構性的應用,尤其是商業機構,比如阿里巴巴對大數據的應用,在世界范圍內名列前茅。
如今的學術研究,還沒有運用到PB級數據。社會學的研究,運用的基本上是大數據中的數據,訪員不再向調查對象去搜集數據,而是向數據(機器)搜集數據。
2013年,哈佛大學的G. King教授做了一項研究,從社交媒體獲得數據來看中國沉默的表達,他從1382個社交媒體網上,運用網絡爬蟲獲取數據,是大數據中的數據。
2012年我做的“誰在開網店?”用的是淘寶600萬個店家數據中的1%店家數據,也是大數據中的數據。
那么,大數據來自于哪里呢?
大數據的第一個來源,是傳感器。人類社會的對傳感器的運用,2005年只有1.3億個,到2010年就發展到了30億個,今天,大概有45億個。什么叫傳感器呢?廣義地碩,任何可以監測、數據化、傳輸的工具,都是傳感器,手機、手環、大街上的探頭等,都是傳感器。
大數據的第二個來源,是互聯網。谷歌每天要處理大約24PB的數據,百度每天大概新增10TB的數據。
大數據的第三個來源,是社交網絡。像Facebook每天要處理23TB的數據,Twitter每天處理7TB ,騰訊每日新增加200-300TB的數據,中國電信大概每天也有10TB的話單,30個TB的上網日制和100TB的信令數據。
還有,如金融、零售、科研以及政府等部門的數據。譬如,每個交易周期,紐約證券交易所要捕獲1TB的交易信息。淘寶每日訂單超過1000萬,阿里巴巴已經積累的數據量超過100個PB。
大數據給社會學研究帶來的挑戰到底在哪里呢?
大數據帶來的第一個挑戰就是還要不要調查數據。事實上,對調查數據的挑戰,取決于對調查數據的替代程度和擴大程度。相對于大數據而言,調查數據,就是小數據。大數據與小數據有一個交集,兩種數據交集重疊的部分會怎么樣增長,取決于兩個因素,一個是傳感器技術的發展,一是數據挖掘的算法技術的發展,這兩項技術未來的發展,直接影響到社會科學未來發展的走向。
對于調查數據來說,比如說人口普查,健康調查之類的,這些調查到底干什么呢?對個體研究而言,他研究人的行為、健康、教育、成就、幸福;對于群體而言,研究群體的行動,結構和動態;對于社會而言,研究社會的狀態和動態,這些研究未來有沒有可能用大數據來替代?完全有可能,如果數據整合能夠實現,替代的速度可能還很快!
比如,微信社交網,就是人的人情網絡或人際網絡;淘寶就是生活網;還有交通網,工作網,健康網。大家手腕上戴的智能手環、手機、電腦、家用電器等,這些設備如果互聯互通,也會形成巨量的數據。用《信息簡史》一書中的一句話來概括:萬物皆比特。
數據就在那兒,問題是怎么用。未來,社會學研究對數據的利用,取決于數據化覆蓋的范圍。第一個覆蓋的是教育,在線教育;第二個是健康,未來的健康將是完全數據化的健康;第三個是物聯網,所有的器物之間連通、數據化;還有硬件、工程、制造、農業、金融等等領域,都將被數據化。既然各行各業都被數據化了,那么,大數據給社會學研究帶來的第一個挑戰就是:“社會研究還需要調查嗎?”
對這個問題,我認為有兩個點值得探討——轉換和替代。第一個是轉換數據,第二個轉換思維。數據的來源已經完全變了,需要調查的東西越來越少。替代,未來也有可能完全不需要做大規模調查,調查的重要性會越來越低,這是一個大趨勢。
第二個挑戰,社會學研究范式還有用嗎?在《大數據時代》中,作者提到過去的研究范式是抽樣、精確、因果。作者說,這三個過去我們為之努力奮斗的范式可能面臨著革命性的轉變。事實是否如此,現在依然有爭論,至少這是一個值得認真思考的信號。
我自己有一個看法,運用調查數據做研究,是假設檢驗進行推論;運用大數據做研究,顯然是通過數據進行總體歸納;方法上的確是一個本質的轉換。我們知道自然科學用重復檢驗,社會科學沒有重復檢驗的條件,只能做假設檢驗。如果數據歸納在迭代中能夠滿足重復檢驗的條件,是不是就會真正地“科學化”呢?目前,至少有一點是可以肯定的,那就是大數據研究的范式重在發現,而不是重在推論,社會研究的基本目的沒有變,還是要把握事物之間的關系模式。
大數據的分析是從數據挖掘開始的,運用的是數據挖掘技術。數據挖掘,就是發現有意義的模式和規則。挖掘,是大數據分析的基本策略,不是具體方法。
大數據挖掘有一些基本步驟。首先是屬性歸類。歸類之后再降維、降低容量。降維、降容之后,就是結構化的數據了,跟調查數據差不多,接下來,就是從數據中發現模式。
如此,大數據分析至少有4個步驟:第一,拿到數據使用權,;第二,在高性能計算系統中降維降容;第三,獲取可分析數據;第四,進行分析(模式發現)。
對社會學研究而言,這也是大數據分析的基本步驟。