大數據,這個原本屬于專業人員的詞匯,近年來走進了大眾的視野,對我們的工作、生活和思維產生了巨大的影響。[1]大數據技術不但掀起了一場新技術革命,讓我們的時代迅速進入信息時代,而且對傳統的科學方法論帶來了巨大的挑戰,給我們帶來了許多新的科學方法和技術手段,因此我們有必要從科學方法論的角度反思這場新技術革命的意義和影響。
一、大數據技術的興起
2013年被稱為中國大數據時代的元年。從這一年開始,大數據(Big data)這個詞鋪天蓋地出現在各種媒體;有關大數據的圖書迅速出版且發行量巨大,而大數據的富豪們,如百度的李彥宏、騰訊的馬化騰、阿里的馬云等,更是成了家喻戶曉的神話般的數字財富人物。
如今,大數據徹底地改變了我們的工作和生活方式。對一般老百姓來說,大數據的最大影響莫過于網購。曾幾何時,我們購物就必須上百貨大樓,但是現在許多人都喜歡網上淘寶購物,讀書人不逛書店逛網店,因此造就了淘寶、亞馬遜、當當等著名的購物網站,帶來了實體店的迅速衰亡。印象最深刻的莫過于近兩年的11月11日所謂“光棍節”,網民們個個瘋狂購物,一天網購數百億元,真正達到瘋狂的程度。對有一點年紀的讀書人來說印象深刻的是文獻資料搜索查詢的艱難。當時全靠手工查卡片等原始方式來尋找自己所需的文獻資料,雖然歷盡艱難仍然掛一漏萬。但如今的Google、百度等網絡搜索工具讓我們在數秒鐘之內將世界上所有相關文獻一網打盡。對現在的讀書人來說,我們不缺少文獻資料,只怕缺少獨到的思想。此外,只是一兩年的功夫,智能手機就迅速取代以往只能打電話發短信的傳統手機,手機迅速變成了無所不能的智能工具,成了我們不可或缺的隨身伴侶。從這些事例中,我們不難感受到無孔不入的網絡以及背后的大數據技術對我們的影響。我們可以毫不夸張地說,大數據時代正以迅雷不及掩耳之勢來到了我們的面前。不管是否情愿,我們都已經迅速地跨入了大數據時代。
大數據時代似乎來得特別迅猛,以至于我們似乎毫無思想準備。其實,大數據時代的征兆早已經有了諸多的表現。1980年代初,美國未來學家阿爾文·托夫勒在《第三次浪潮》,丹尼爾·貝爾在《后工業社會的來臨》中宣布人類即將從工業社會進入信息社會。[2]1990年代,微軟總裁比爾·蓋茨在《未來之路》詳細描述了信息社會的藍圖,尼葛洛龐帝則在其《數字化生存》中描繪了信息時代的生活方式,當時的美國總統比爾·克林頓則提出了《信息高速公路》計劃,將學者們的設想變成了國家政策。興起于20世紀末的復雜性科學則從科學思維和方法上為目前大數據時代的來臨奠定了堅實的科學基礎。進入21世紀互聯網的普及和智能設備的風行為大數據時代的來臨準備了物質基礎,而電子商務的興起則為大數據時代的來臨進行了前期的嘗試。因此,人類如今進入大數據時代是一種必然。當全球知名的咨詢公司麥肯錫于2012年初正式提出大數據的概念和框架時,立即得到了世界各國的響應,并由此掀起了一場大數據風暴。
究竟什么是大數據?目前國內外都還沒有統一的定義或認識。從狹義的字面來理解的話,它應該與小數據相對應,意指數據量特別巨大,超出了我們常規的處理能力,必須引入新的科學工具和技術手段才能夠進行處理的數據集合。[3]所謂的小數據指的是數據規模比較小,用我們的傳統工具和方法足以進行處理的數據集合。比如牛頓時代的各門自然科學,其數據量都不大,第谷觀測了20年的天文數據,開普勒很快用手工就處理完畢,并從中發現了開普勒定律。后來,隨著科學的發展,數據量有了比較大的增加,為了處理這些當時看來的“大數據”,統計學家創造了抽樣方法,由此解決了數據處理難題。現在的大數據卻是所謂的海量數據,各種數據的差別又特別巨大,用抽樣方法也難于處理,只能用現在的數據挖掘和云計算、云存儲等新技術才能解決。從廣義來說,大數據指的是一種新的數據世界觀,它將世界上的一切事物都看作是由數據構成的,一切皆可“量化”,都可以用編碼數據來表示。這就是舍恩伯格所說的:“大數據是人們獲得新認知、創造新價值的源泉;大數據還是改變市場、組織機構,以及政府與公民關系的方法。”
大數據的特點被人總結為4個“V”:[5]第一,Volume(大量),即數據數量巨大。從TB級別,躍升到PB級別。第二,Variety(多樣),即數據類型繁多。除了標準化的結構化編碼數據之外,還包括網絡日志、視頻、圖片、地理位置信息等等非結構化或無結構數據。第三,Value(價值),即商業價值高,但價值密度低。在數據的海洋中不斷尋找,才能掏出一些有價值的東西,可謂“沙里淘金”。第四,Velocity(高速),即處理速度快,實時在線。各種數據基本上實時、在線,并能夠進行快速的處理、傳送和存儲,以便全面反映對象的當下狀況。
大數據技術與傳統的小數據技術有著本質的差別,它是一場新的技術革命,是上世紀末所說的信息革命的真正來臨,也是上世紀末復雜性科學革命的技術實現。科學革命更多地局限于思想界、學術界,而技術革命則更加深入和具體,影響范圍幾乎遍及社會的每個神經末梢。因此這次大數據技術革命比以前信息革命的鼓動宣傳以及復雜性科學革命對我們的工作、生活和思維產生的影響會更廣泛、更深入。大數據技術革命還將為科學研究提供新的思維方式和新的科學方法,因此大數據技術必然會對傳統的科學方法論產生巨大的挑戰,帶來科學方法論的革命。大數據權威舍恩伯格論述了大數據帶來的三大思維變革,即要全體不要抽樣,要效率不要絕對精確,要相關不要因果。這三大思維變革如果更具體化地落實到科學方法論上,必然會對傳統的科學方法論產生革命性的轉變。
二、走向分析的整體性,實現了還原論與整體論的融貫
科學方法論從宏觀來說主要由整體論和還原論兩種方法論體系構成。整體論把研究對象當作一個完整的黑箱來看待,它不打開作為黑箱的研究對象,不破壞對象的完整性,主要從系統的輸入輸出中猜測黑箱內部的結構和內部機制。還原論也叫機械還原論,是一種與整體論相對立的一種科學方法論,它主張把研究對象盡可能打開,盡量還原到某個邏輯基點,找出系統的構成要素及其內部機制,以解釋系統的行為和功能。
整體論由來已久,應該說它比還原論更久遠得多,因為在人類的早期,由于科學技術手段的落后,先人們根本沒法打開作為研究對象,只能把它作為一個整體來進行研究。無論是西方還是東方都是如此。例如中醫把人體作為一個完整的研究對象,通過把脈、看舌等所謂的“望聞問切”等手段來診斷人體內部的運作狀況,從而達到診治疾病的目的。由于只從整體、宏觀層面來考察對象,缺乏微觀、深入的研究,只能依靠黑箱透露出來的少量信息猜測內部的結構和機制,難于對研究對象進行科學表述。因此隨著西方科學的進步,特別是分析、還原科學的興起,作為早期重要科學方法論的整體論慢慢走向衰落。
西方的分析、還原思想出現得比較早,當古希臘第一個哲學家、科學家泰勒斯提出水是萬物的本源之時,還原論的思想就凸顯出來。古希臘哲學家的所謂本原問題,其實就是試圖將研究對象還原為其構成要素的基本成分,并試圖為萬事萬物尋找到邏輯的出發點,也就是“始基”。亞里士多德的演繹方法就是還原論的哲學總結和邏輯表述。隨著牛頓力學的巨大成功,還原論被當作一種萬能的科學方法論運用于分析世間萬物,而且一路高歌,紛紛取得輝煌成就。也就是說,萬物都按照牛頓力學的隔離、分解的原則,打開黑箱,條分縷析,尋找著其基本的構成要素及其運作機制。在還原論的幫助下,近代科學的各門學科先后從哲學中獨立出來,成為現代科學的基礎。物理學是所有其他學科的楷模,機器是當時各門學科的共同模型。通過解剖刀的逐一分解,人體也像機器一樣不斷被拆卸,所以拉美特里才會將人比擬成機器,因此機械自然觀和分析還原論成了近現代科學取得巨大成就的重要哲學基礎。還原論曾經為科學的發展立下了汗馬功勞,也正因如此才成為近現代科學方法論的主流,而早期的整體論在還原論面前幾乎沒有還手之力。
隨著科學問題的越來越復雜,特別是面對有機世界的各種生命現象,還原論顯得越來越力不從心,各種問題和矛盾越發突出。因此,1980年代末,美國的三位諾貝爾獎獲得者才會帶頭“老帥倒戈”,起來造還原論的反,正式提出超越還原論的口號,并成立從事整體、綜合研究的圣菲研究所。1990年代,基于超越還原論的復雜性科學逐漸興起,并很快被稱為“21世紀的科學”,而將以前的所有基于還原論的科學都被稱為“簡單性科學”。由此,沉寂千年的整體論隨著復雜性科學而逐漸復興,還原論被批得體無完膚,甚至大有用整體論來徹底取代還原論之勢。[6]不過復雜性科學興起近30年來,雖然取得了不少成績,甚至曾形成復雜性科學運動,各門學科都試圖用復雜性科學方法來突破原來的學科瓶頸。但因整體方法沒有得到具體的落實,所以目前復雜性科學并沒有因此取得真正革命性的成果
在小數據時代,由于采集數據和處理數據的能力都極其有限,因此我們就盡量減少數據量,例如試圖通過還原來找到撬動整體的杠桿,只要幾個數據便可知曉研究對象的一切。后來隨著數據量的增加,例如人口統計數據,社會經濟調查等,需要處理的數據量急劇增加,但由于處理能力有限,我們必須進行簡化,以便有能力處理。于是統計學發明了抽樣統計方法,通過對抽樣出來的少量數據能夠反映出研究對象的全貌。這些數據并沒有“全息”功能,不一定能夠完全反映對象的真實情況,因此帶來了現代科學的種種問題。從本質上來說,這兩種方法雖然有所不同,但其本質是相通的,都是還原論思想的體現,都是我們企圖以少御多的反映,也是簡單性科學思想的體現。
隨著計算技術和網絡技術的發展,采集、存儲、傳輸和處理數據都已經成了易如反掌的事情。面對復雜對象,我們再沒有必要做過多的還原和精簡,而是可以通過大量數據甚至是海量數據來全面、完整地刻畫對象,通過處理海量數據來找到研究對象的規律或本質。正如舍恩伯格所說:“當數據處理技術已經發生翻天覆地的變化時,在大數據時代進行抽樣分析就像在汽車時代騎馬一樣。一切都改變了,我們需要的是所有數據,‘樣本=總體’”。[4]27在大數據中,這個“總體”正好刻畫了整體論中的所謂“整體”,但這個整體是由科學、具體的全部數據集合構成的,而每個具體的數據正是數據集合的部分,也就是對象系統的部分。在大數據中,整體和部分都有了科學、具體的所指,整體和部分的關系是一個具體、實在的關系。這樣,在大數據技術中,由于處理了所涉問題的全部數據,這就讓整體論中所說的全面、完整把握對象就有了科學的表述并落實到了具體的數據。而這全部數據是由一個個具體的數據構成的,因此還原論中的要素、部分也得到了科學的表述。因此,大數據方法論通過處理所涉問題的全部數據實現了科學、具體的整體論和還原論,實現了還原論與整體論的貫通和辯證統一。總之,大數據技術給科學方法論帶來的第一個革命就是為實現復雜性科學的還原、整體辯證統一的融貫方法論提供了具體的技術實現途徑。
三、承認復雜的多樣性,地方性知識獲得了科學地位
由于西方近代科學的飛速發展及其對社會的巨大影響,西方近現代科學成了科學的“標桿”和代名詞,以至于我們在說到科學之時基本上指的都是西方近現代科學,而與西方近現代科學不一致的其他知識,例如中醫藥知識,都被排斥在科學的大門之外。
西方科學哲學從邏輯實證主義起就有一個重要議題,那就是科學與非科學的劃界問題。所謂科學的劃界問題就是試圖用某種標準將科學和非科學區分開來,并且將非科學或偽科學趕出科學的陣營。此外,科學被當作一切學科的標桿和榜樣,凡是要加入科學陣營的知識,必須具備西方近代科學所具有的特征,否則不但會被拒斥,而且有可能被貼上非科學或偽科學的標簽。
那么,西方近現代科學最根本的特征究竟是什么?西方科學哲學一直沒有統一的意見,邏輯實證主義認為是理論的邏輯表述與結果的經驗證實,波普爾則認為是理論的邏輯表述與結果的經驗證偽。庫恩則認為一門學科是否是科學要看這個學科是不是有了成熟的學科范式,而費耶爾阿本德則認為根本不存在這樣一條明確的分界線。不過不管各家觀點怎么樣,但基本上都認為科學必須建立在理性與邏輯的基礎上,特別是各門學科必須找到自身的邏輯基點。
從科學方法論上來說,西方科學強調還原論,除了任何理論,不管有多復雜,都必須能夠還原到邏輯原點之外,各門學科還存在還原關系。物理學是各門學科的基礎,其他學科都最后可以還原到物理學。通過還原,整個西方科學的大廈都可以建立在統一的基礎之上。例如愛因斯坦畢其一生追求著統一場理論,法國著名的布爾巴基學派試圖將整座數學大廈建立在統一的基礎上。有了統一性,科學就具有了可重復性和可檢驗性。這也就是說,任何科學理論,最終都可以而且必須具有統一的理論表述,而且可以在世界不同的場合用相關設備進行重復實驗,以便檢驗科學理論的真與假。
但是,科學哲學家費耶爾阿本德以及后來的后現代主義者卻不太認可上述觀點,認為科學并沒有一個統一的基礎和標準,任何知識和經驗都有其存在的理由。復雜性科學更是從科學視野強調了知識的多樣性、語境性和多樣性。不過,以往的科學和哲學批判都還停留在理論層面,缺少了技術層面的具體操作。直到大數據技術的興起才為打破統一性,提倡多樣性找到了具體的方法和實現途徑,從而真正實現了科學方法論的革命。
追求統一性、標準化是小數據時代的標志。過去為什么要還原、統一?因為過去我們沒有有效的科學手段來處理復雜、多樣、多變的海量數據。為了能夠用簡單手段和設備能夠處理,便首先在理論上進行簡化,把復雜、多樣的東西首先通過還原論還原到一個基點,而且按照統一標準來進行統一,這樣數據便簡單方便,容易處理。在計算機發展的早期,所有數據都要用統一的數據格式,即按照標準化的數據結構對所有要處理的數據首先進行標準化、格式化處理,這就是所謂的結構化數據,以便達到更加精確無誤的目的。例如在人口統計中,每個人都必須按照標準格式進行填表登記,凡是不符合統一標準的都被當作無效或不精確的數據而被廢棄。“對‘小數據’而言,最基本、最重要的要求是減少錯誤、保證質量。”
在大數據時代,時時處處都在實時地產生各種數據,這些數據沒有按照某種標準或某種指令而產生,之后也沒法進行標準化處理,各種數據類型都同時存在,例如除了標準化的結構化編碼數據之外,微博、聊天記錄、網絡日志、視頻、圖片、地理位置信息等等非結構化或無結構數據都成了大數據這個大家庭的成員。隨著網絡技術的發展,個性化成了潮流,因此結構化、標準化數據所占比例越來越少,非結構化或無結構數據越來越多。大數據技術不要求數據的標準化和結構化,真正體現了兼容并包的原則,用費耶爾阿本德來說就是“怎么都行”。一切都有其存在的理由,存在的就是合理的,因此再也不像小數據時代按照統一標準對數據的精挑細選,而是容納了多樣性的存在,并能夠從沙里淘金。
復雜性哲學和科學實踐主義哲學都提出了知識的多樣性和地方性的主張,認為知識的形式和內容都允許不同的存在,除了全世界都統一的標準化科學知識外,還存在地方性知識。例如中醫藥、藏醫藥、伊斯蘭醫藥等不同地方的醫藥知識都有著悠久的歷史,并為當地不同民族的人民健康做出過巨大的貢獻,因此其形式和方法都與西醫有很大的不同,但都有存在的必要。[7]另外,有些實踐性知識有時候就是一次性的經驗知識,不具備可重復性和可檢驗性,但不能因此就否認這種知識的存在及其價值。復雜性哲學與科學實踐主義哲學的這些主張都是革命性的,但這些主張并不那么容易實現,因此在實踐中往往仍然按照理性主義的主張來判斷知識的科學性
大數據技術的興起,為復雜性哲學和科學實踐主義哲學的主張得到了真正的落實。大數據方法論認為:“執迷于精確性是信息缺乏時代和模擬時代的產物。只有5%的數據是結構化且能適用于傳統數據庫的。如果不接受混亂,剩下95%的非結構化數據都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界之窗。”[4]45所以大數據技術把語境性知識、地方性知識、多樣性知識統統納入知識的范圍,科學不再挑三揀四,不再排斥異己,而是體現了更多包容心。“要想獲得大數據帶來的好處,混亂應該是一種標準途徑,而不應該竭力避免的。”[4]60因此,舍恩伯格得出結論說:“相比依賴于小數據和精確性的時代,大數據因為更強調數據的完整性和混雜性,幫助我們進一步接近事實的真相”。[4]46總之,大數據技術給科學方法論帶來的第二個革命是復雜性、多樣性得到了承認,多樣性、地方性知識獲得了科學的地位。
四、突出事物的關聯性,非線性問題有了解決捷徑
我們說過,按照西方科學的還原方法論傳統,理性、邏輯和因果性是科學的基本特征,也是科學的核心問題及基本追求。從古希臘開始,西方科學與哲學就一直苦苦追尋著事物間的因果關系,試圖從事物間的因果關系中捕捉到事物間的基本規律。例如古希臘自然哲學家都熱衷于尋找世界的本源,這就涉及因果性的問題,因為他們就是循著因果鏈條去尋找世界的“始基”,也就是找到因果鏈的起點。歐幾里得幾何學從五條公理出發,循著因果鏈推演出整個幾何世界。科學之所以能夠存在而且最令人信服,就是因為科學中的所有理論都有其因果推演。所謂的邏輯、理性其實最終都可以歸結為因果性的問題,沒有因果性就沒有了科學存在的基礎。
文藝復興之后,西方哲學遵循兩條發展路徑,即唯理論與經驗論,而且相互爭論了數百年。唯理論認為知識的出發點是更普遍的正確理論作推演前提,從正確的前提中推出正確的結論。經驗論則認為知識的出發點是人類的各種經驗事實,我們可以從經驗中歸納出具有普遍必然性的知識。就出發點來說,它們是有分歧的,但承認事物之間的因果性這一點上,這兩派是完全一致的。后來英國經驗論哲學家休謨由于將經驗推到極致最后導致了因果性危機并引發人們對科學信念的動搖。德國哲學家康德的名著《純粹理性批判》之所以出名就是因為他試圖通過對因果性的辯護來挽救科學信仰的危機。后來邏輯實證主義以及波普爾的證偽主義都建立在因果性的基礎上,從而強化了科學的標桿地位。
因果性問題其實就是我們平時所說的“為什么”的問題。人類天生有一種追根究底的好奇心,萬事都要問個為什么。我們也已經習以為常,覺得只有追問為什么才能掌握事物的規律。但是,隨著大數據技術的興起,這條天經地義的方法論原則被動搖了。大數據學者認為,追求因果性是小數據時代的標志,而在大數據時代,知道“是什么”就夠了,沒必要知道“為什么”。我們不必非得知道現象背后的原因,而是要讓數據自己“發聲”。
什么叫事物的相關性呢?所謂相關性就是一種現象的變化有可能會引起另一種現象產生相應的變化。當然,這里只能說“有可能”,如果是“一定”、“必然”的話,那就變成了因果性了。從這里可以看出,相關性是一種比因果性更弱的事物間的關系,也許兩現象間根本沒有必然的聯系,只是偶然巧合罷了。是必然還是巧合?大數據技術根本不想去追究,只要會引起變化就認為有相關關系。“相關關系的核心是量化兩個數據之間的數理關系”。
小數據時代為什么更關心因果關系,而大數據時代更關注相關關系呢?在小數據時代,可獲得的數據比較少,每個數據都比較珍貴,基本上不會有冗余的數據,而且數據結構和類型單一,數據之間一般都是呈線性因果關系,因此我們可以詳細地研究每個數據之間的細節,并從中找出它們之間的因果關系和微觀規律。但是,在大數據時代,數據量特別巨大,冗余數據也特別多,數據結構不同、類型不一,可謂紛繁復雜。要從微觀上從大數據中找出它們數據之間的所有因果關系幾乎是不可能的,因此我們退而求其次,把所有相關數據當作一個黑箱。通過黑箱的輸入輸出,我們從宏觀上去尋找有關聯的數據,即找出有顯著變化的關聯關系,以便找到海量數據間的宏觀規律。這也是大數據學者強調在大數據中關聯關系比因果關系更重要的原因。
在小數據時代,我們面對的線性因果關系是比較容易處理的問題,例如通過解線性方程可以找到問題的答案。但是,大數據的海量數據之間往往都是非線性關系。我們知道,非線性方程目前來說很難得到通用解,一般只能通過數值方法來得到一些特殊解。大數據技術通過尋找相關數據之間的關系,從而忽略中間過程,忽略其中的因果細節,只管最后的宏觀關系。“相關關系很有用,不僅僅是因為它能為我們提供新的視角,而且提供的視角都很清晰。而我們一旦把因果關系考慮進來,這些視角就有可能被蒙蔽。”[4]88這樣我們又找到了解決非線性問題的一種比較便捷的科學方法
解釋和預測是科學理論的兩項基本功能。所謂解釋就是對已經發生的現象找出因果或相關關系來說明現象之間的規律或關系。所謂預測就是已知一些現象,通過因果或相關關系來預見未來即將發生的現象。對于小數據及其線性因果來說,解釋和預測都比較簡單。但面對大數據,解釋和預測都比較復雜。在大數據方法之前,我們往往無能為力,但大數據方法為我們找到了具體實現的技術途徑。在大數據時代,新的技術分析工具和思路為我們提供了一系列新的視野和有用的預測,“我們看到了很多以前不曾注意到的聯系,還掌握了以前無法理解的復雜技術和社會動態”。更重要的是,“通過探求‘是什么’而不是‘為什么’,相關關系幫助我們更好地了解這個世界”
大數據時代更重視相關關系,而對因果關系有所忽視,那么有了相關關系是不是就不要因果關系了呢?或者說,相關關系是不是否定了因果關系呢?答案是否定的。大數據技術并不像哲學家休謨一樣懷疑或否定事物之間的因果關系。相反,它充分肯定事物之間的因果關系。只是因為太多數據,我們無法一一找出它們之間的微觀因果聯系,只好忽略中間的因果關系過程,從宏觀、從最后結果來把握它們的相關關系。或者說,相關性并沒有否定因果性,只是忽略了其細節。舍恩伯格也承認這一點,他說:“因果關系還是很有用的,但是它將不再被看成是意義來源的基礎。”[4]83總之,大數據技術帶來的第三個方法論革命就是凸顯事物間的相關關系和非線性特征,而不再特別關注其因果關系
結語
大數據時代的來臨給我們帶來了許多觀念的變革,更帶來了許多科學新方法、新工具,從而改變了人類探索世界的方法。復雜性科學為我們提供了科學的新思維和新方法論,但缺少具體的實現途徑。大數據技術的興起彌補了復雜性科學的不足,使得復雜性科學方法論變成了可以具體操作的方法工具,從而帶來了科學方法論的真正革命。“大數據時代將要釋放出來的巨大價值使得我們選擇大數據的理念和方法不再是一種權衡,而是通往未來的必然改變。”