不同于自然科學,社會科學以人類社會現象為研究對象,其傳統研究范式在認知準確性方面飽受爭議。然而,大數據時代的到來為彌補這一缺陷提供了潛在的解決方案。隨著全球新一輪科技革命與產業變革的加速演進,數據來源、數據處理以及數據分析等數據相關技術發展迅速,特別是以統計學習、機器學習、深度學習乃至更為廣泛意義的人工智能為代表的數據分析手段,正在帶來新的認知方式,為形成數據驅動的社會科學研究新范式提供有力支撐。
大數據概念特征及內涵
大數據(Big Data)最早出現于2010年2月英國《經濟學人》雜志有關信息管理的一篇專題報道。2011年5月,麥肯錫環球研究院在一份題為“大數據:下一個創新、競爭和生產力前沿”的報告中,將大數據定義為“大小超出常規數據庫工具獲取、存儲、管理和分析能力的數據集”。時下較流行的大數據定義是,需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。在維克托·邁爾·舍恩伯格的《大數據時代》一書中,大數據技術被描述為:不再基于傳統隨機分析法,而采用所有數據進行分析的處理模式。海量性(Volume)、實時性(Velocity)、多樣性(Variety)和有效性(Volatility)成為大數據的典型特征。這也是大數據定義中被廣為接受的3V、4V或nV。此外,大數據技術還包括數據收集(生產)、數據存儲、數據處理、數據分析及展示等各環節所需的專業知識和技能。這些多學科、跨學科交叉的知識技能集成在一起,共同構成大數據技術體系(或“數據科學”)。
自大數據概念被首次提出后,這一技術已在精準營銷、信息安全、智能制造、語義識別、文本分析等眾多領域的應用中取得豐碩成果。然而,社會科學領域的大數據應用更多停留在概念和模式復制階段。即便如此,學者們普遍認為,大數據的興起為社會科學學科體系的重構和研究范式的改變帶來新機遇。
有效應對人類社會復雜適應性
事實上,大數據及圍繞大數據利用形成的大數據技術體系,為有效應對人類社會活動的復雜適應性特征提供了技術可行性,從而為推動社會科學借鑒自然科學成果、形成基于數據驅動的社會科學研究新范式提供有力支撐。
其一,大數據技術有助于對社會科學現象進行系統性掃描。傳統社會科學研究受限于資料收集、信息傳遞以及知識獲取的技術性因素,往往不可能對社會現象的全貌進行系統性定位和描述。其二,大數據技術有助于對社會問題進行動態跟蹤。社會科學問題往往具有實時性和演化性特征,傳統研究方法難以對促使事物轉化的諸多內外因素進行實時跟蹤和反饋,在時間上滯后于事件的衍生和發展進程。其三,大數據技術有助于對事物發生發展的本質動因和多元影響因素進行系統解析。基于顯著性變量設定的傳統研究方法,在技術上無法對影響社會現象的全體要素進行資料收集和計算處理,被忽略要素的顯著影響、顯性突變或累積躍遷效應,可能導致研究結果的重大偏差。其四,大數據技術有助于趨近總體數據。傳統研究方法往往通過主觀判斷或科學抽樣對資料的代表性和誤差因素進行控制,在此基礎上構建量化描述、假設檢驗、參數估計等一系列方法體系。而大數據的總體逼近特征不僅是對數據資源的擴展,其理論基礎和技術構架更為社會科學發展提供了結構性變革的可能性。
扭轉對于大數據的認知偏差
當前的大數據理論和大數據技術與為社會科學復雜適應性提供解決方案的目標仍有較大距離,具體存在以下主要障礙。第一,大數據名稱本身具有一定的誤導性。強調數據之“大”是大數據技術的首要內涵。然而,由于存儲和計算能力的大幅提升,數據收集已成為無明確目標的被動過程。這使得資料的價值密度呈指數化衰減,冗余數據的處理成本不斷飆升,客觀上形成重數量、輕質量的現實缺陷。第二,大數據的有偏性和非一致性。大數據技術針對特定目標被收集起來的“一手”資料,仍然存在“選擇性偏差”。被動性收集的數據資料使得大數據技術僅能觀測和收集行為發生者的信息。因此,無法保證數據的無偏性和一致性。第三,重技術開發輕問題解決的傾向。大數據技術始于資料的收集、存儲、傳輸和計算,目前的應用也多在這些領域,更多集中于大數據技術開發,而非真正應用大數據解決實際問題。社會科學研究的本質是以問題為導向,應基于現實問題選擇恰當的數據和方法,而非生搬硬套大數據解決方案。第四,重微觀層面的精準定位,輕宏觀層面的總量。大數據在商業營銷領域的成果,使得人們更多地利用大數據對微觀個體進行精準定位、狀態識別和行為預測,而社會科學的核心仍是對社會現象的解析,必須打通微觀基礎與宏觀現實之間的邏輯關聯和傳導機制。第五,過分強調關系發現,輕視因果分析。這也是制約大數據技術發揮有效作用的關鍵問題。這一技術極大提升了收集資料的維度和深度,使得人們可以真正從全局和動態演化的視角審視社會現象和社會問題。但它排斥傳統研究基于因果關系建立的研究體系,試圖越過事物的作用機理而尋求社會現象認知的解決方案。因此,如果大數據技術不能扭轉偏差的認知模式,就很難在社會科學領域取得突破性進展。
推動社會科學研究智能化
總體而言,大數據時代的到來為社會科學發展提供了一個重要契機。社會科學研究有望突破傳統社會調查方法以及數理模型、推論統計和計量建模等傳統量化技術的限制。然而,社會科學發展不應該也不會完全局限于當前大數據概念的界定和技術限定。基于社會理論與社會現實問題,主動挖掘多元基礎數據,搭建社會主體間的聯系網絡,充分利用人機結合的綜合集成模式,溯源社會現象的本源和邏輯傳導機制,從而對社會科學研究對象進行精準量化的結構解析和預測推演,使之成為社會科學未來發展的重要途徑之一,即數據驅動的社會科學研究新范式。
新范式為突破傳統社會科學研究被動尋找經驗證據的實證方法、建立搭載在數據資源基礎上的主動量化提供新的途徑。問題導向、數據出發、機制溯源、綜合集成、量化計算將是數據驅動的社會科學研究范式的基礎特征。未來,社會科學研究范式將面臨重大變革,但并不會違背自身的學術本源;更多地應用大數據技術,但不會摒棄建立在定量統計方法上的經驗研究基礎;不斷深入而精準地刻畫微觀個體的行為和狀態,但不會忽略宏觀總量特征和微觀—宏觀一體化的研究途徑;主要采用數據計算和模擬實驗的科學方法,但仍以人類智慧和專業經驗為指導。在上述基礎上,社會科學將從數據實證應用的研究范式逐步向數據驅動的研究范式轉變。
數據作為現代社會科學研究的基礎性支撐,不論是多源非結構化大數據還是統計抽樣數據,其核心都是解決與社會發展要求相匹配的現實問題。因此,未來有必要重點關注以下問題。
首先,建立科學的數據資源評估體系。大數據收集模式的創新并不能完全消除數據樣本的有偏或非一致。建立在大數定律和中心極限定理之上的科學抽樣方法,未來仍有著無可替代的適用性。因此,當前的首要任務應以社會問題為導向,建立較為系統的數據資源(質量)評價理論和評價方法,針對全域、多元、實時的非結構數據提出有效性判定標準,同時關注數據科學的倫理問題研究。
其次,解決大數據級別的總量累積問題。將微觀非結構數據科學系統地提煉匯總為不同層級的總量信息,是基于微觀大數據解構宏觀社會現象的基礎。數據信息的有效提煉在某種程度上也決定著大數據技術能否真正融入社會科學的研究體系。
再次,在數據分析基礎上提出解決方案。未來社會科學的發展應以多源數據為基礎,通過智能計算和專家智慧的結合,對社會現象進行量化解析,對社會問題提出科學治理體系和模式,最終建立社會科學“類工程化處置”的研究機制和范式。
最后,注重邏輯因果機制和機理的發現。大數據研究不能片面地關注相關性,更應注重對社會現象的本質動因進行發掘,科學回答“是什么”“為什么”的基本命題。因此,有必要利用多元化實時數據的關聯性優勢,準確厘清社會現象的因果機制,挖掘社會問題的邏輯機理,形成真正科學有效的治理方法和途徑,進而形成智能化的社會科學研究工具和平臺。