精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

“大數據”是“大趨勢”嗎:基于關鍵詞共現方法的反事實分析

責任編輯:editor005

作者:王程韡

2015-01-26 13:44:49

摘自:科學網博客

摘要:如何身處在科學的洪流當中,判斷其范式的形成和發展的狀況是庫恩給我們留下的歷史性難題。在學術論文的全部內容當中

完全是開腦洞的一個作品。當時正值清某大學和青某市要聯合建立大數據研究中心,我作為有理工科背景的社科學術農民工被拉進來貢獻一份力量。竊以為“公公知識分子”那么多,也不缺我一個,就大膽地站在了批判的立場上,試著用“反事實”的方法來扒開大數據這個皇帝的新衣,看看里面都有啥。其實非常慚愧的是,這里所應用的“反事實”方法并不是經濟學意義上的“反事實”,倒是在復雜性網絡中(包括后來有朋友告訴我在電力系統網絡的穩健性求解中)常用的一種方法。沒想到《科學學與科學技術管理》雜志給放到了2015年的首篇,再次在博客中貼出,供各位看官批判。

摘要:如何身處在科學的洪流當中,判斷其范式的形成和發展的狀況是庫恩給我們留下的歷史性難題。時下“大數據”概念在政策界和學術界的火熱,使得這一需求更加迫切。突破了此前科學計量學靜態拍照式的關鍵詞共現分析方法,本文通過引入反事實思想實驗發現,“大數據”的國內外發表物關鍵詞共現網絡表現出了較低的網絡穩定性。因此暫不能判斷“大數據”是引領新范式的“大趨勢”,甚至有必要在“學術看門人”和打造硬核方面進一步做文章。相比之下,同樣產生于特定歷史時期的著作《小的是美好的》卻可以通過反事實的穩健性檢驗,反過來驗證了“大數據”目前“虛熱”的判斷。

1. 問題的提出

庫恩(ThomasKuhn)曾在《科學革命的結構》中歷史性地指出,科學的演進并不如教科書中的描述那樣線性。相反,類似于生物界的一種“間斷-平衡”是范式變換的主要特征[1]。然而問題的癥結卻在于,我們始終無法先驗地得知范式的革命何時才會發生——特別是身處在科學技術急速發展的“前范式”階段,一方面我們對科學技術的認識也必然受到了社會語境和社會結構的約束,另一方面又必須從海量和生命短暫的信息流里尋找出發現、解讀和批判的可能性[2]。于是在很多情況下,一些學術概念的大量涌現并不是緣于學術界自發的認識上的共識,而更多是同構(isomorphy)[①]作用下的某種“花車效應”(bandwagon effect)。如果又以此錯誤地分配了學術資源,勢必會對國家甚至整個社會造成巨大的損失。事實上近年來迅速興起的“大數據”概念,就值得我們深思。

就學術界而言,《自然》(Nature)雜志早在2008年就推出了大數據專刊。《科學》(Science)雜志也在2011年2月推出了專刊。相比之下大數據組作為一個典型的外來概念,在我國興起的時間較短。如從CNKI數據庫的情況來看,2012年才開始有大量以“大數據”為主題或關鍵詞的文章出現。2012年1月,《自然物理雜志》(Nature Physics)上出版“復雜性”專刊,特別指出大數據為科學研究,特別是復雜性科學的研究提供了史無前例的機遇。但在政策界,處于我國信息社會建設的特別考量,大數據的相關項目卻一直緊跟國際前沿。如繼2012年3月奧巴馬政府發布《大數據研究和發展倡議》(Big Data Research and Development Initiative)[②]后,我國也依托973項目、863項目和國家自然科學基金重點項目等平臺加強了對“大數據”的支持力度[③]。甚至有地方政府直接將大數據產業列為重點發展的產業[④]。那么,“大數據”究竟是有如圖靈獎得主、數據庫技術奠基人格雷(Jim Gray)所說的那樣,是代表著一種“大趨勢”的科學研究的“第四范式”[⑤],還是必然在歷史的洪流中只會曇花一下的“小波瀾”呢?

2. 一般的“大數據”關鍵詞共現方法

雖然庫恩在范式這個詞的使用上也經常被人詬病過于隨意,但范式的核心內容是“共同體共同的約定和共同的重要約定”卻是一定意義上的學界共識。因此從理論上講,只要我們能夠找到某一學科/領域“共同”的研究內容,就可能厘清其范式發展的脈絡[3]。

在學術論文的全部內容當中,關鍵詞是反映期刊論文研究內容的,由論文作者自行選擇的自然語言[4](因此也更好地吻合了范式所強調的“共同體”概念)。詞與詞之間可進行各種組配,如種屬、限定、交叉等以表達學科內容各方面的復雜概念[5]。關鍵詞作為文獻核心內容的集中概括,能夠較好地反映某一研究領域的主題分布與特點——如一般而言,在學科萌芽階段,新的關鍵詞不斷涌現;但隨著學科的逐漸發展,核心關鍵詞的數量會逐漸趨于穩定并成為該領域的核心。從這個意義上講,我們就可以通過關鍵詞的穩定性情況來判定一個學科/領域是處于魚龍混雜的“前范式”還是可以“解難題”的“后革命”狀態。

在文獻計量學中,關鍵詞的共詞方法常用來確定該文獻集所代表學科中各主題之間的關系[6]。共詞分析方法廣義上屬于內容分析方法的一種。其原理主要是對一組詞兩兩統計它們在同一篇文獻中出現的次數,對這些詞進行聚類分析,從而達到挖掘隱含信息的目的,進而反映這些詞所代表的學科和主題的結構變化[7, 8]。共詞分析方法最早在20世紀70年代中后期由法國文獻計量學家提出[6]。早在上世紀90年代末,我國學者就也已經關注到了共詞分析方法對于研究文獻主體和科學結構的重要作用[9, 10]。如醫學領域也較早地利用了聚類方法,探究各類高頻主題詞之間的內在關系,并開發出BICOMB(書目共現分析系統)等相應的分析軟件[11-13]。注意到關鍵詞的共現如同作者合作、文獻共被引等情況一樣,某一主題領域內的關鍵詞共現,實際上會形成一個虛擬的關鍵詞網絡。因而從社會網絡的視角看,關鍵詞是網絡中的一個個節點,而它們的共現則體現為節點之間有直接的聯系。在虛擬的關鍵詞網絡中,由于是否共現和共現頻次的不同,每個節點在網絡中具有不同的地位,承擔不同的角色。在一定的時間范圍內,有些關鍵詞反映的是該主題的研究熱點;有些詞表示的內容處于不成熟的狀態;有些詞之間的聯系非常緊密,有些詞會在網絡中顯得比較孤立。通過對關鍵詞網絡的分析,可以發現隱藏在真實關系網背后的關系網絡,它對于了解一個研究主題的成熟度、知識結構、研究的規模等狀況具有非常重要的意義[14]。

考慮到學術期刊是科技論文的重要載體,具有創新性、時效性和互動性等特點。CNKI數據庫涵蓋范圍和引文數據較全面,包含人文、社會和自然科學的論文及引文,已成為中文文獻計量研究的重要基礎數據源之一。作為中國最大的發表和引文數據庫,利用CNKI進行科學文獻的相關分析已經成為學界的一個共識[15-17]。因此在共詞分析中,本文選擇了CNKI數據庫搜集了2013年12月31日前以“大數據”或“BigData”為關鍵詞的全部期刊文章[⑥]。除蟲并利用SATI(文獻題錄信息統計分析工具)對該領域內出現頻次前100的關鍵詞進行元數據抽取,進而在UCINET平臺上實現共現分析,取共現次數≥2(即認為至少高頻關鍵詞至少兩次同時出現在一篇文章當中才認為有“共識”)為二值化條件,得到知識圖譜如下(可視化工具NetDraw,節點大小代表度數中心度,下同):

圖1CNKI期刊數據庫中“大數據”相關的知識圖譜

根據度數中心度的定義,在一個社會網絡中,如果一個行為者與其他行為者存在越多的直接聯系,那么該行為者就居于中心地位。不難發現,“大數據”概念本身處于決定的中心地位。整個網絡也呈現出“星型網絡”的特征。從表面上看,已有的研究圍繞著“大數據”的核心概念實現了研究領域本身的成長。

3. 反事實社會網絡分析的思想實驗

“反事實”思維,即對過去替代性選擇的想象是人類日常生活中非常常見的一種思維方式。它幫助人們從經驗中學習,也影響著從創造性到概率判斷的多樣化認知行為[18, 19]。然而這樣一種理念真正地應用于學術界還是相對晚近的事情。由于歷史的本意就是確定性發生的事件,因而不管是在學術界還是生活世界當中,人們都“從來不去關心什么事情必然發生或什么事情原本可能會發生,而只是關心那些有事實證據證明的確發生了的事情”[20]。在“事實”優位的情況下,實驗和統計等研究方法通常假定總體中有兩組或多組群體,能夠在兩期或多期觀測到其中的個體數據,并且在某些時期某些個體受到了一項或幾項“干預”(treatment)。在分析中,通常把接受干預的樣本稱為實驗組,把未受干預的樣本稱為控制組。要估計干預所產生的效應,一個簡單的邏輯就是對兩個組間的個體進行比較。研究者們也相信,只要實驗組和控制組是隨機選擇的,對干預效應的估計就是“科學”的。

20世紀初,量子力學的發展突破了人類對于確定性的認識。比如在著名的“薛定諤的貓”的橋段中,沒有揭開黑布之前的貓就既可能是死的又可能是活的——換言之,“事實”和“反事實”是在一定概率下共存的。于是,開始有學者思考“如果(不是這樣)”(what if)的又具有怎樣的意義。在歷史學方面,羅伯特·福格爾(RobertW. Fogel)于1964年發表了著作《鐵路與美國的經濟增長:計量經濟史學論文集》。在書中,他運用“反事實”的方法假定“如果在1890年美國沒有鐵路,美國經濟會如何發展?”。根據他的計算,在1890年,如果美國全國的馬車和帆船運輸完全讓位于鐵路,所能增加的國民收入只相當于當時美國年國民產值的4%-5%,對美國此后的經濟增長,只有很小影響[21]。他也因這項開拓性的工作,開創了新經濟史學派,并獲得了1993年的諾貝爾經濟學獎。從本質上講,“反事實”并不是一個無聊的思維游戲。而是在承認復線的、多樣化之歷史可能性的方式,通過“平行世界”般的合理想象去探究特定的干預對歷史本身所造成的影響[⑦]。事實上,實驗、統計等相關學科也逐漸意識到了“反事實”對于因果推斷的重要性——因為實驗組和控制組的隨機分配在現實中是很難達到的,從而內生性偏誤和異質性偏誤的問題始終無法避免[⑧]。畢竟對效應本身的衡量,應該聚焦在被試或樣本在受到干預之后和如果他們沒有受到干預的情況差值[22, 23]。綜上我們可以認為,“反事實”分析能夠使得我們借助邏輯的方式考察某一因素在復雜社會系統中的作用[24, 25]——對此甚至亦有學者相信,因果理論是以反事實推理為基礎的,各種歸因理論都可以看成是反事實思維的一個特例,反事實思維可以作為歸因推理理論的一種框架[26]。

  圖2“大數據”關鍵詞共現網絡的反事實思想實驗(N-1)

注:左圖為CNKI期刊數據庫,右圖為WebofScience數據庫。由于WebofScience數據庫不提供關鍵詞的直接檢索,故采用先用主題搜索大數據再進一步提純的方式。并去掉聯結數(即度數中心度)為0的節點,其他條件均不變。下同。

應用反事實的思想,我們可以嘗試將CNKI期刊數據庫中“大數據”這一關鍵詞去掉,再取共現次數≥2為二值化條件得到新的知識圖譜(如圖2左所示)[⑨]。可以看出,“大數據”網絡的規模和復雜程度急劇減弱(印證了“大數據”本身處于星型網絡結構洞的位置),其次中心是“云計算”,又進而分為理論和應用兩個部分。在理論板塊中,Hadoop是目前最為流行的大數據處理平臺和事實標準(defactostandard)[⑩]。學界自身也一般將Hadoop改進并將其應用于各種場景看作是新的研究熱點——如主要的研究成果集中在對Hadoop平臺性能的改進、高效的查詢處理、索引構建和使用、在Hadoop之上構建數據倉庫、Hadoop和數據庫系統的連接、數據挖掘、推薦系統等。應用方面主要表現為通過數據挖掘、分析和處理,實現對政府部門(電子政務)以及圖書館等單位的知識和信息服務,亦和智慧城市、物聯網等時代概念聯系起來(背后共同的推手是工業和信息化部)。若以同樣的方法去對中國人發表在Web of Science平臺上的“大數據”相關文章進行反事實思想試驗,則會發現網絡同樣崩裂為一些相對較小的子網絡。但與CNKI期刊數據庫的情況不同,Web of Science“大數據”網絡在去掉“大數據”這個結構洞后,依然表現出了較強的理論性而非應用性[11]。

仍需指出的是,已經有研究發現在恐怖基地的秘密網絡中,有肯能會因為一關鍵人物被抓或被殺而陷入癱瘓狀態[27]。也有學者從理論上給出證明,可以通過干擾或刪除網絡中部分節點的方式識別關鍵行動者[28, 29]。考慮到人際的社會網絡和學術“共同體”關鍵詞的共現網絡可能有本質性的差別,如果我們能證明進入到“常規科學”階段的網絡對“反事實”擾動具有更強的穩健性,就可以再一定程度上說明“大數據”尚沒有超越前范式階段的混亂局面[30]。為了便于控制,這里選取了同樣時代性較強但學術性偏弱的英國經濟學家舒馬赫(E. F. Schumacher)所撰寫的《小的是美好的》(SmallisBeautiful)一書作為對照。《小的是美好的》撰寫于20世紀70年代[12],當時正值第一次石油危機,學術界和政策界紛紛開始對無限增長的進步幻覺進行了積極反思。在著作中,舒馬赫提出了“中間技術”的概念作為應對于“大生產消費”的解決方案。所謂“中間技術”,是指耗用不高,不過度的耗費資源和環境的技術。舒馬赫強調,技術并非越進步越好,對技術進步必須作一番價值判斷;而且絕不能盲信技術,認為它無所不能。比如對于核能技術,舒馬赫認為,“實際上,我們是明知故犯地在積累有毒物質,寄萬一的希望于將來有可能清除它們。我們正在把一個我們不知如何處理的問題責成后代解決。……許多有責任感的人會想得更遠,他們認為既然還不知道如何控制廢料,那么就不應再建反應堆。”相反他認為:發展不由物質而始,它始于人以及人的教育、組織和紀律。少了這三樣,所有資源都仍然只是潛在的、有待開發的、中間技術的發展[31]。然而正如后來許多學者所批評的那樣,舒馬赫(起碼從這本書的表現來看)并不是一個嚴格的學院派,其核心概念“中間技術”在內涵與外延的使用上均比較模糊——事實上《小的是美好的》更多被定義為暢銷書。但無論如何,《小的是美好的》這本被認為學術性并不是非常強的著作,還是在學術共同體中有著一批持續的追隨者——如后人起碼認同其所發現的問題是重要的,中間技術等概念也還是常用來被分析一系列相關問題。

需要指出的是,一方面由于“小的是美好的”(或簡稱“小即美”)本身并不構成一個關鍵詞或者主題,因此這里選取了CNKI期刊數據庫中引用該核心文獻的(中英文)文獻所建構起來網絡作為分析對象,和作為樣本的“大數據”直接使用關鍵詞檢索得到共現網絡的方式有所不同。另一方面,由于該網絡沒有從一開始就呈現出單中心的星型模式,因而也引入了比“大數據”網絡更加嚴苛的反事實條件——即去掉“中間技術”和“舒馬赫”兩個核心關鍵詞(N-2)來考察網絡的結構穩定性。結果顯示,去掉結構洞后的關鍵詞共現網絡進行可視化(如圖3所示),發現網絡并未發生塌陷。也就是說即便不存在核心概念和作者的整合作用,網絡依然可以圍繞企業規模、經濟發展和生態文明等次核心穩固地建構起來。

  圖3“小即美”關鍵詞共現網絡的反事實思想實驗(N-2)

且為了綜合比較幾個反事實思想實驗的效果,這里還對幾個網絡的節點數量、網絡密度、聯結數等網絡特征值和度數、鄰近、中間幾個中心度的平均值和標準差進行了比較[13](如表1所示)。可以發現,“大數據”關鍵詞網絡在去掉“大數據”這個關鍵詞以后,網絡的節點和聯結數量急劇減少,網絡密度不降反升——甚至在中國作者在WebofScience數據庫中發表的“大數據”的共現網絡中,去掉結構洞后網絡密度有著兩個數量級的提升。這也在一定程度上說明,“大數據”和其他關鍵詞之間的學術聯系并不是非常緊密。CNKI期刊數據庫“大數據”關鍵詞共現網絡在去掉“大數據”這個主要結構洞后,由于依然存在著“云計算”等次級結構洞,同時又有著大量應用型概念的耦合出現,一定程度地拉低了網絡密度。這一情況同樣也可以從中心度的數據中得出:比如WebofScience數據庫原始網絡的度數中心度和中間中心度的標準差都相對較小,說明更加偏向“多中心”結構。去掉結構洞后,其鄰近中心度的平均值更是有大幅度上升,說明網絡更加不容易受到其他核心概念的控制。總體上講在去掉結構洞后,CNKI期刊數據庫“小即美”網絡節點和聯結數量并沒有太大程度的縮減。最為關鍵的是,網絡密度也隨著網絡規模的縮小而降低,幾個中心度情況也保持著相對穩定的水平——說明即便在去掉兩個主要關鍵詞的嚴苛條件下,網絡結構依然可以保持相對穩定。

表1幾個反事實思想實驗的綜合比較

網絡節點網絡密度聯結數度數中心度鄰近中心度中間中心度

平均值標準差平均值標準差平均值標準差

CNKI大數據1000.027268.0002.7079.22710.1120.1070.8358.150

CNKI大數據’360.06886.0006.8258.4196.8052.4562.1767.150

WoS大數據1000.005352.00000.5251.7051.1420.0780.0260.225

WoS大數據’140.120922.000012.0885.6038.4560.6620.3660.897

CNKI小即美1000.0301298.00003.0103.4612.5060.4901.0022.090

CNKI小即美’680.0261248.00002.6092.9352.3720.4531.0402.246

注:1. 標“'”的為“反事實”網絡,即為去掉部分節點后由其他高頻關鍵詞所構成的網絡:對于“大數據”網絡,去掉的節點為“大數據”及其聯結;對于“小即美”(小的是美好的)網絡,去掉的節點為“中間技術”和“舒馬赫”及其聯結。2. 所有矩陣截斷條件均為>=2進行二值化,網絡節點數量為去除單獨節點(即度數中心度為0)后的節點數量。

4. 反思“大數據”的幻象與亂象

通過上面的分析,本文的結論似乎是明顯的。第一,尚沒有證據清晰地表明是昭示著“第四范式”的“大趨勢”。對此,我國計算領域的權威李國杰院士也曾指出[14], “表面上看‘大數據熱’受到美國計劃的影響,但不完全是這樣。過去美國副總統戈爾呼吁的數字地球,中國也在跟進,但經濟上并未成氣候;有些是美國不太熱,中國反而進行得有聲有色,比如物聯網,這可能與中國政府對物聯網的大力扶持有關。所以層出不窮的新技術,有時候是真熱,有時候是虛熱”[32]。第二,雖然國內和國際都一定程度地存在“虛熱”的現象,但Web of Science數據庫中“大數據”的相關發表物還是相對“實”一些。當然這并不意味暗示著“南橘北枳”的某種決定論,值得我們警醒的是學術界自身要做好共同體的“看門人” 的工作,以一種“獨立之精神”去發展科學。第三,且不論政府意志的推動作用,“大數據”本身缺乏一個“內核”可能是造成其“虛熱”的根本原因。如果用拉卡托斯(Imre Lakatos)的話講,《小的是美好的》同樣產生于特殊的歷史時期,昭示著一種理念的變化,但卻由于其能形成“中間技術”的“內核”及一系列保護帶而基業長青[33]。因此“大數據”若想變成一種“大趨勢”,還需要“練內功”。

無論如何,不同于此前科學計量學“靜態拍照”似的關鍵詞共現研究,本文試圖以反事實思想實驗的方式去探尋其中的因果機制,從而回答STS領域一個非常古老卻依然有待解決的問題。這一舉措不能不說是大膽的。必經和以恐怖主義組織為代表的人際網絡不同,移除“關鍵行動者”的做法不可能是事實的。而且通過“大數據”和“小即美”兩個網絡的比較也說明,學術共同體中的關鍵詞共現應該有著更強的穩健性。誠然本文所踐行的反事實相較于經濟學中復雜的模型方法[15],略顯簡單。甚至亦沒能達到公共政策分析中,將證據豐富的真實世界置為分析基礎——即在分析過程中,要依靠這些真實的信息來完成反事實推演過程,這樣才能確保結果是科學的、可靠的;反事實的推演過程必須基于一套系統的、合理的邏輯框架,必須符合相關行為主體的一般行為原則,并反映行為主體間關系和其所面對的社會情境[34, 35]——的基本要求。從這個意義上講,本文所做的還只是一個非常初步的探索。但正如著名歷史學家尼爾·弗格森所言(Niall Ferguson),“我們(作者們)企圖弄清過去的‘實際情況’,是一種歷史的必要,因為我們必須同樣地重視當時人們在事實發生前考慮過的各種可能性,而且對它們的重視應當超過當時的人未曾想過會出現的那個結果”。事實上整個社會科學界已經開始越發認識到,由于反事實問題的存在,單一個案不能確定因果關系的簡單道理[36]。而反事實問題的重要性,就恰在于能夠提供新的研究視野[20]——這樣一種嘗試可能正如量子力學中的“棗糕模型”一樣,可以開啟更多的探究社會“本質”和“規律”的可能。“時間永遠不停地在分岔,指向無數個未來”[16]。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 长岛县| 新兴县| 呼玛县| 台北县| 榆中县| 商水县| 昂仁县| 深州市| 景德镇市| 凤冈县| 柳州市| 噶尔县| 韶山市| 无为县| 平罗县| 襄樊市| 侯马市| 扶风县| 晋江市| 乐陵市| 宁南县| 沧州市| 泰顺县| 泾阳县| 渭源县| 新和县| 高陵县| 泽普县| 巧家县| 乐昌市| 遵义县| 云梦县| 象山县| 高尔夫| 宝鸡市| 宁波市| 南靖县| 贵港市| 南江县| 黄平县| 连南|