“無論什么歷史年代里,科學(xué)的走向取決于我們?nèi)绾卫斫饪茖W(xué)” — Sandra Harding,《誰的科學(xué)?誰的知識?》(1991)
一直以來,對于知識的不安全感和其急切想要掌握終極理論而因自身認識論只能導(dǎo)致對世界認識越發(fā)缺乏的破滅感,深深困擾甚至定義了現(xiàn)代性。新知識和 新認知方法在出現(xiàn)的同時也帶來了新的非知識(nonknowledge),新的不確定因素和謎團?;谕蒲莺涂勺C偽性的科學(xué)方法實際上更適合產(chǎn)生問題而不 是解決它們。比如說,愛因斯坦關(guān)于空間曲率和量子力學(xué)下運動的理論既帶來了新知識,也讓前所未有的新非知識進入我們的想象范圍。
因為理論對于我們世界觀的破壞力和它鞏固這個世界觀的力量一樣大,對于產(chǎn)生知識的集體狂熱同時創(chuàng)造了和這種狂熱程度一般的徒勞感,我們需要在這緊張的氣氛里宣泄——哪怕僅僅只是一個瞬間,我們也希望體驗?zāi)欠N對于某種事物確切把握的感覺。在現(xiàn)代社會里, 大數(shù)據(jù)的出現(xiàn)滿足了大家需要宣泄的心理 。
如名字所示,大數(shù)據(jù)是關(guān)于“大”的理論。很多大數(shù)據(jù)的支持者聲稱利用大規(guī)模數(shù)據(jù)庫前所未有的海量信息可以揭示全新的真理。而且大數(shù)據(jù)之“大”也暗示著質(zhì)的不同: 當(dāng)數(shù)據(jù)累積到一定數(shù)量時,數(shù)據(jù)變成了大數(shù)據(jù),很多新興的公司和關(guān)于大眾市場的社會科學(xué)書籍將之稱為“知識的革命” 。因為其不同于一般科學(xué)對于信息的簡單收集,大數(shù)據(jù)被吹捧為全新的知識,是社會生活的新啟蒙運動。當(dāng)然這一切都是因為“大”。
就像其他類似的推理性科學(xué)(inferential sciences ),比如演化心理學(xué)(evolutionary psychology)和流行神經(jīng)科學(xué)(pop-neuroscience),大數(shù)據(jù)可以被用于給任何猜想涂上科學(xué)的外衣,并給出一些看似權(quán)威的數(shù)字—— 大到可以讓任何說法都像真的一樣。因此, 大數(shù)據(jù)不但在整個工業(yè)界非常流行(它的名字就是“預(yù)測性分析”),并且在學(xué)術(shù)界、企業(yè)或者政府研究里也有大量的擁躉。 大數(shù)據(jù)也促進了“數(shù)據(jù)新聞業(yè)”(data journalism)的崛起, 比如FiveThirtyEight、Vox和其他越來越多的分析網(wǎng)站(explainer sites)的出現(xiàn)。它還轉(zhuǎn)移了這些行業(yè)的重心,這一切不但是因為它宏偉的認識論斷言,也要歸功于大數(shù)據(jù)研究充足的資金。像 推特(Twitter)最近就公布,它將投資1000萬美金在“社交機器”大數(shù)據(jù)實驗室上。
用“正確的”方法收集足夠的數(shù)據(jù)就可以提供一個客觀的、公正的現(xiàn)實圖景,這種理性主義空想其實是一個我們熟悉的老舊概念: 實證主義 。這種方法是如此理解世界的:只要我們保持價值中立,特別是超然的不帶任何立場,我們就可以認識和解釋這個社會。這個術(shù)語來自于奧古斯·孔德 (August Comte)的《實證哲學(xué)(Positive Philosophy)》(1830-1842)。在實證主義的意義下,他也重新創(chuàng)造了“社會學(xué)”這個詞。當(dāng)西方社會學(xué)開始變成一門學(xué)科時(這意味著它擁 有系所,能提供就業(yè)崗位,有很多定期刊物,舉辦學(xué)術(shù)會議),Emile Durkheim,這個學(xué)科的另一個創(chuàng)建者,相信它將可以起到“社會物理學(xué)”的功能,為我們描繪一種“社會事實”(social facts)——就像我們進行物理實驗測量一樣。從現(xiàn)在看來,這是一個非常自大的觀點——這門學(xué)科目標是為我們的社會生活提供一個宏觀的、普遍的理論;隨 著社會學(xué)越來越致力于經(jīng)驗性的數(shù)據(jù)收集,這個觀點也越來越根深蒂固。
一個世紀之后,大部分社會學(xué)家重新將這門學(xué)科定位于認識社會的復(fù)雜性,而不是去探尋一種普世的人類社會解釋。隨著思想的轉(zhuǎn)變,社會學(xué)實證主義也就 被拋棄了。但是大數(shù)據(jù)的到來卻復(fù)活了這種社會物理學(xué)幻想——一種全新的數(shù)據(jù)驅(qū)動技術(shù)將用純粹的算術(shù)處理能力去描繪這種“社會事實”。
因為實證主義許諾的回報太過于誘人了,所以即使其流行度時高時低,但卻從未絕跡。這個簡單道理幻想的魔力——我們將可以站在超越各種可能將社會撕 裂的權(quán)力和議程分歧之上看這個世界——實在是太強大,太有“錢途”了。其實如何令人信服地宣傳自己構(gòu)建的社會模型是準確的,和如何成功推銷任何東西(從一 個政治立場,一個產(chǎn)品,到自己的權(quán)威性)是一樣的。雖然大數(shù)據(jù)被包裝成一種等價于權(quán)力的知識,實際上,卻依賴于早已存在的力量將其數(shù)據(jù)等同化為知識。
并非所有的數(shù)據(jù)科學(xué)都是關(guān)于大數(shù)據(jù)的 。如同其他研究領(lǐng)域一樣,數(shù)據(jù)科學(xué)實踐者們的道德高低、意圖、謙遜程度,以及對于自身方法論局限性的認識程度是千差萬別的。在此批評“大數(shù)據(jù)”(的所謂客 觀性、公正性)對于主流文化思想的滲透,并不是說所有的數(shù)據(jù)研究都是沒有價值的。(比如說,新的數(shù)據(jù)與社會研究所( Data & Society Research Institute)采取新的測量方法于大數(shù)據(jù)組研究上。這是可取的。)但是數(shù)據(jù)科學(xué)的實證主義傾向——它的客觀性傳說和政治中立性——比其他研究都更加 明顯。這些趨勢很有可能將數(shù)據(jù)科學(xué)轉(zhuǎn)變成為一種合理化技術(shù)工業(yè)方法在生產(chǎn)設(shè)計和數(shù)據(jù)收集上的意識形態(tài)工具。
我們 不能脫離數(shù)據(jù)科學(xué)和大眾媒體公司之間強大的紐帶關(guān)系來理解大數(shù)據(jù)研究 。這是 大數(shù)據(jù)那居高臨下的無處視角意識形態(tài)(view-from-nowhere ideology)最為清晰的地方;也是算法,數(shù)據(jù)庫,和風(fēng)險資本相結(jié)合的地方?!acebook研究組是現(xiàn)在聲名狼藉的情緒操縱研究(這個研究因其過于寬松的倫理標準和智力上的傲慢而廣受譴責(zé))的幕后黑手,絕非偶然。(其中一個研究者認為大數(shù)據(jù)的潛能和顯微鏡的發(fā)明相當(dāng)。)
同樣浸淫著大數(shù)據(jù)幻想的還有一本叫做《數(shù)據(jù)災(zāi)難》(Dataclysm)的書。這本書集合了OkCupid主席Christian Rudder早先在博客上發(fā)表的對于他的服務(wù)器所記錄的各種異常數(shù)據(jù)的觀察。Rudder由此宣稱“我們將要步入人類溝通研究的重大變革”。他的字里行間 里同樣充滿了Facebook研究組那種傲慢。《數(shù)據(jù)災(zāi)難》的副標題是“我們是誰(當(dāng)我們認為沒有人在注意我們的時候)”。自鳴得意地認為當(dāng)收集到足夠的 數(shù)據(jù),我們將可以見到超越研究人員甚至是研究對象主觀性的不為人知的(丑惡)事實—— 大數(shù)據(jù)可以揭示即使是親身體驗的人也不知道的人類社交性和欲望。
因為像在OkCupid這種平臺上收集數(shù)字數(shù)據(jù)——所有界面被動地記錄各種關(guān)于用戶行為的信息——是自動進行的。按照復(fù)雜的先驗理論來說,這似乎 是不偏不倚的。數(shù)字,就像Rudder在書里不斷提到的,不會跑掉,就在原處等著大家去使用它們得到自己想要的結(jié)論。的確,因為數(shù)據(jù)數(shù)量很大,它們反映了 很多“事實”。根據(jù)OkCupid上所有關(guān)于用戶愛情,性和美的數(shù)據(jù),Rudder聲稱他可以“道破現(xiàn)在仍不為人知的空虛與脆弱”。
對于Rudder和其他科技公司的新實證主義者來說, 大數(shù)據(jù)總是站在更大數(shù)據(jù)的陰影之下。 他們總是假設(shè)因為人們可以在今天收集到比昨天更多的數(shù)據(jù),那么明天必然收集到比今天更多的數(shù)據(jù)。這是一種會將我們推向無限接近于“純粹”數(shù)據(jù)形式的擴張: 終有一天,我們每天的活動將以數(shù)據(jù)的形式被記錄;由此,我們可以從中得到一種是我們能掌握一切事情因果的方法。在Rudder的書里,他不厭其煩地指出他 所擁有的數(shù)據(jù)的規(guī)模,力量和無限潛能,讓讀者們深深明白這些數(shù)據(jù)是如何越來越“大”的。這種根深蒂固的實證主義幻想——我們將會在不久的將來完全解釋這個 宇宙——使得采取侵犯隱私式的數(shù)據(jù)收集方式變成一種道德權(quán)利。
但是為什么Rudder會如此深信他擁有的數(shù)據(jù)會有探究事實的能力,并且認為他無視現(xiàn)有的研究者倫理準則是正當(dāng)?shù)?,關(guān)鍵還在于他相信通過被動收集 得到的數(shù)據(jù)完全排除了研究者偏見。在Rudder和其他認為可以在沒得到對方許可的情況下對其進行人數(shù)字化人體實驗的新實證主義者看來,輪詢 (polling)和其他現(xiàn)有的收集大規(guī)模數(shù)據(jù)的方法的問題在于,它們是產(chǎn)生測量誤差的來源。任何受到過足夠訓(xùn)練的社會科學(xué)家都會承認,一個問題如何措 詞,由誰提問,都會影響整個調(diào)查問卷的效果。Rudder相信,利用大數(shù)據(jù)我們可以將數(shù)據(jù)收集過程中遇到的種種問題通通解決而得到更加真實的結(jié)果。例如, 現(xiàn)在只要從Google搜索里收集數(shù)據(jù)就可以得到想要的結(jié)果,再也不需要研究者對研究對象進行任何形式的詢問了。Rudder是這么形容的“不需要問題, 也不需要開口問,答案自然就有”。
這是為什么Rudder相信他不需要提前得到他網(wǎng)站用戶的許可,就可以人為地操縱用戶的配對比例,又或者是從某些網(wǎng)絡(luò)互動中移除用戶的照片。為了盡可能獲得不受“污染的”數(shù)據(jù),用戶是不能被詢問是否同意授權(quán)的,因為他們不能知道自己身處在實驗室之中。
當(dāng)調(diào)查研究領(lǐng)域幾乎將重點放在對自身方法局限性的理解和表達時,Rudder卻選擇忽略它們來應(yīng)對大數(shù)據(jù)工作過程中可能(這種可能性是非常大的, 甚至大于常規(guī)方法)遇到的系統(tǒng)性測量錯誤。他辯解到“有些時候,計算機運用盲算法(blind algorithm)去觀察數(shù)據(jù)。”然而OkCupid收集數(shù)據(jù)的方法卻讓Rudder的說法大打折扣:OkCupid的政策和程序員們對于特定的文化理 解決定了如何收集數(shù)據(jù)。大數(shù)據(jù)實證主義短視地認為只要是計算機被動收到的數(shù)據(jù)就是客觀的。但是計算機自己是記不住任何東西的,記住的是人。
這種對計算機如何工作的幼稚觀點和人們早期對攝影的觀點差不多;當(dāng)時人們認為這種新技術(shù)預(yù)示著我們?nèi)祟愐曈X將會被我們創(chuàng)造的可以觀察到我們自身觀 察不到的照相機所取代。這其中最出名的例子是Eadweard Muybridge的“飛奔的馬”攝影系列展覽。但是與此同時,Shawn Michelle Smith在他的《在視線的邊緣:攝影與不可見》(At the Edge of Sight: Photography and the Unseen)里解釋到,在早期攝影里,攝影師常常將自己對種族、性別和性特定的和不為人知的理解添加進自己的照片里。這所謂的超越人類視覺的視覺實際上 不過充滿了各種文化上的有色眼鏡——而這正是人們宣稱通過攝影可以避免的。
其他社交媒體平臺也同樣充斥著這些東西 :如何設(shè)計這些網(wǎng)站,收集什么樣的數(shù)據(jù),如何收集這些數(shù)據(jù),如何整理和儲存數(shù)據(jù),如何查詢數(shù)據(jù),為什么這些數(shù)據(jù)充斥著政治、利益和不安全感。社會科學(xué)研究 人員從他們學(xué)生時期開始就一直受到這樣的訓(xùn)練:如何辨認使用什么方法,并采用相應(yīng)的技巧降低或者至少是表達出結(jié)果中存在的偏差。與此同時,Rudder卻 對這些方法指導(dǎo)新手們(first-year methods instructor)一個驚天的消息,“只要你使用正確的分析方法使手頭上數(shù)據(jù)組的魯棒性足夠大,你根本不需要對數(shù)據(jù)提出問題,數(shù)據(jù)就會告訴你任何東 西”。
Evelyn Fox Keller在《反思性別與科學(xué)》(Reflections on Gender and Science)書中描述實證主義如何通過將研究人員與數(shù)據(jù)區(qū)分開來實現(xiàn)客觀性和中立性。大數(shù)據(jù),正如Rudder一直急切主張的,包含了這種區(qū)分。這也 引向了或許是大數(shù)據(jù)隱含的意識形態(tài)里最危險的后果:研究對文化中種族、性別、性有重大影響的研究者們將會拒絕承認他們是如何將未闡明甚至是無意識的理論, 自己特定的社會立場來夾雜進自己研究里。這重蹈了它們之前存在的偏見,并且同時用這些數(shù)據(jù)是客觀性正確的說法隱藏了起來。
通過將探究真理的能力從研究人員身上轉(zhuǎn)移到不言而喻的數(shù)據(jù)上,大數(shù)據(jù)含蓄地鼓勵研究人員無視概念性框架,諸如交集性 (intersectionality)或者關(guān)于社會分類這樣的概念可能會不利于而不是加強我們的理解的討論。并且我們沒有理由相信那些掌握著大數(shù)據(jù)的人 們(通常是科技公司里的人員和他們所附屬的研究人員)完全不受偏見影響。他們,像其他人一樣,有著對這個社會特定的偏好——知道什么樣的數(shù)據(jù)可以解釋什么 樣的現(xiàn)象,也知道數(shù)據(jù)應(yīng)該如何被使用去解釋。正如Danah Boyd 和Kate Crawford在《大數(shù)據(jù)的關(guān)鍵問題》(Critical Questions for Big Data)里指出的“不管數(shù)據(jù)的規(guī)模如何,大數(shù)據(jù)總會受制于其自身局限性和人的偏見。如果沒有正確理解并且總結(jié)這些偏見和局限性,我們得到的只能是某種曲 解”。
這種短視使得Rudder寫下這樣的東西,“對于性別差異研究最理想的數(shù)據(jù)來源不是那些表面上用戶性別不相干的地方,而是在那些用戶性別是男是女 無所謂的地方。我選推特(Twitter)做為最理想的試驗地。”,完全無視不同性別在推特(Twitter)使用上的差異??v觀《數(shù)據(jù)災(zāi)難》 (Dataclysm)全書,盡管Rudder的態(tài)度是他的工作完全與自己的數(shù)據(jù)分開的,他的政策卻是一直在干預(yù)它們:不但在他自己提及大腦科學(xué)和演化心 理學(xué)的解說里,也體現(xiàn)在他如何挑選測量變量和如何將它們安排在自己的分析上。
在一個因為種族、階級、性別和其他重要因素而分化的社會里,知識怎么可能是中立客觀的?正當(dāng)前《連線》雜志主編Chris Anderson在文章里宣告感謝大數(shù)據(jù)“終結(jié)了理論”的時候,Kate Crawford、Kate Miltner和Mary Gray就在開始糾正大家的觀點了——大數(shù)據(jù)本身就是理論!大數(shù)據(jù)的支持者只是沒有意識到而已!
實證主義已經(jīng)出現(xiàn)很長一段時間了,對它的批評從一開始就存在。一些研究方法論者認為Sandra Harding的《誰的科學(xué)?誰的知識?》主張一種新的“強有力的”客觀性。這種客觀性將包括研究者的社會立場在內(nèi)的因素看做一種特色,而非是一種缺陷; 這樣就允許了觀點多樣性的存在,而不是一味地追求那種錯誤的自認為中立的觀點(false view from nowhere)。Patricia Hill Collins在《黑人女性思想》里提到,“偏袒和非普世性是一種需要被傾聽的狀態(tài)”。
大數(shù)據(jù)卻采取了另一種方法。非但不承認方法論中的偏袒性,它的辯護者還使用了一些新的伎倆去粉飾傳說中的普世客觀性。為了逃避對于立場的追問,他 們靠犧牲研究人員來吹捧大數(shù)據(jù)。通過對測量者和研究者專業(yè)水平的貶低(Rudder在書中不斷提及自己低劣的統(tǒng)計學(xué)水平),大數(shù)據(jù)的支持者狡猾地將權(quán)威性 的來源轉(zhuǎn)移到大數(shù)據(jù)身上。如此,探討真理的能力再也不與分析方法相關(guān),而單純地取決于接觸到數(shù)據(jù)的數(shù)量和質(zhì)量。
實證主義幻想有賴于接觸數(shù)據(jù)的機會的不公平性。為什么科學(xué)可以如此長久以來將自己標榜為道德的和政治中立的?因為擁有看穿它本質(zhì)能力的人在人群中 的比例分配得太不合理了。隨著越來越多人從不同文化觀點進行科學(xué)實踐,先前科學(xué)內(nèi)在的政治偏見就不斷被暴露出來?,F(xiàn)在越來越多人接受了優(yōu)質(zhì)的教育,研究人 員也采納了更加先進的研究方法,實證主義者已經(jīng)不能再為他們的實證主義幻想編造依據(jù)了。
然而,大數(shù)據(jù)的文化意識形態(tài)嘗試逆轉(zhuǎn)這個形勢:將權(quán)威性(或多或少地)從大眾化研究專業(yè)知識轉(zhuǎn)移到只有少數(shù)人可以獲得的專有的、受到控制的數(shù)據(jù) 上。(Molly Osberg在她為The Verge網(wǎng)絡(luò)媒體所寫的《數(shù)據(jù)災(zāi)難》的書評里指出,Rudder是如何解釋他如何通過個人關(guān)系從其他技術(shù)公司的行政人員身上獲取大部分信息的)當(dāng)數(shù)據(jù)被 稱贊它可以自然而然地反映事實,研究人員應(yīng)該降低他們自己的方法在研究中的重要性的時候,我們應(yīng)該這么理解:這是一種使接觸數(shù)據(jù)的權(quán)限變得更加值錢,更加 稀罕的努力。當(dāng)然,宣傳這些數(shù)據(jù)是如此有價值,如此有權(quán)威性的人,通常也是擁有這些數(shù)據(jù)并且靠販賣獲取數(shù)據(jù)權(quán)限賺錢的人。
數(shù)據(jù)科學(xué)不一定要成一種精英式的實踐。我們應(yīng)該尋找一種更好理解的并且可以忍受大數(shù)據(jù)的“小”(因為這強調(diào)了我們瞬息萬變的社會生活中有很多錯綜 復(fù)雜的事物是沒有辦法反應(yīng)在數(shù)據(jù)庫的數(shù)據(jù)里的)的大眾化方式處理大數(shù)據(jù)組。我們不能讓實證主義加在大數(shù)據(jù)上的外飾讓我們忽略了它真正有價值的研究潛能。
但是對于大數(shù)據(jù)來說,想要被用于真正改善我們的社會和這個世界,研究者們?nèi)孕枰c上文所說的那種使我們過度投資、高估大數(shù)據(jù)的文化意識形態(tài)相斗 爭。像《數(shù)據(jù)災(zāi)難》(Dataclysm)和其他大公司,或者是商業(yè)數(shù)據(jù)科學(xué)里的無處視角(view from nowhere),必須脫下它的偽裝,因為那不過是我們所熟悉的一種有缺陷的不公正的立場而已。