用大數(shù)據(jù)為那些絕世天才們重新洗牌
——讀《文明的解析》
在人類文明的歷史星空,每個(gè)時(shí)代都有一些閃亮的名字。通過(guò)解析“天才”們的作為來(lái)解析文明進(jìn)程,不算是新鮮的做法。不過(guò),到底哪些人是真正的天才?他們?cè)诤畏N程度上推動(dòng)了所處的時(shí)代,或給后世帶來(lái)深遠(yuǎn)的影響?人們對(duì)“天才”的認(rèn)識(shí)其實(shí)一直都很模糊。
美國(guó)歷史學(xué)家、思想家查爾斯·默里獨(dú)辟蹊徑,找到了一種判斷杰出人物成就高低的科學(xué)方法。他的著作《文明的解析》聚焦科學(xué)和藝術(shù)領(lǐng)域,借助統(tǒng)計(jì)學(xué)搭建了一個(gè)豐富的思考框架,當(dāng)他給歷史上公認(rèn)的“天才”們重新洗牌時(shí),也在我們的認(rèn)知領(lǐng)域掀起了一場(chǎng)思維革命。
研究誰(shuí),研究什么
統(tǒng)計(jì)學(xué)很古老,一般認(rèn)為其學(xué)理研究始于亞里斯多德時(shí)代,不過(guò)現(xiàn)代意義上的統(tǒng)計(jì)學(xué)通常指“統(tǒng)計(jì)分析科學(xué)”,其理論基礎(chǔ)概率論始于15世紀(jì),源于研究賭博的幾率。在概率論進(jìn)一步發(fā)展的基礎(chǔ)上,數(shù)學(xué)家們?cè)?9世紀(jì)初逐漸建立了觀察誤差理論、正態(tài)分布理論和最小平方法則。于是,現(xiàn)代統(tǒng)計(jì)方法有了比較堅(jiān)實(shí)的理論基礎(chǔ)。這種處理統(tǒng)計(jì)數(shù)據(jù)的新思想、新方法,把概率論的直覺(jué)思想轉(zhuǎn)變成指導(dǎo)人的行動(dòng)的極其有用的工具。它出奇地準(zhǔn)確、有效,但前提是樣本選擇,它的實(shí)證研究對(duì)象事先預(yù)定必須是科學(xué)的。這也是默里在《文明的解析》中首先要解決的問(wèn)題。
仿佛時(shí)鐘飛速倒轉(zhuǎn),默里以四百年為一個(gè)單位,追溯一萬(wàn)年的人類歷史。倒回到第8個(gè)單位,即公元前1200年,這是一個(gè)時(shí)間臨界點(diǎn),道路早已不存,事件模糊,可供資鑒的材料難以足信。所以,默里規(guī)定了本書只講述有把握的公元前800年以后的事。然后,默里確立了三個(gè)參照點(diǎn):安東尼王朝時(shí)代的羅馬,公元138至180年;宋朝時(shí)的杭州,公元960至1279年;塞繆爾·約翰遜時(shí)期的倫敦,1737至1784年。目的是讓讀者感受一下,生活在三個(gè)極為不同的人類成就環(huán)境中會(huì)是什么樣,所挑選的地點(diǎn)和時(shí)期則是為該書稍后出現(xiàn)的主題鋪墊,或者說(shuō)讓讀者明了整個(gè)理論體系的背景,避免以今非古的錯(cuò)誤。
《文明的解析》其余章節(jié)里的圖表和統(tǒng)計(jì)數(shù)據(jù)代表了有血有肉的人的杰出成就。默里分別為文學(xué)、視覺(jué)藝術(shù)(限于雕刻和繪畫)、音樂(lè)、天文、生物、化學(xué)、地球科學(xué)、物理、數(shù)學(xué)、醫(yī)學(xué)、技術(shù)和哲學(xué)這12門類建立了數(shù)據(jù)庫(kù)。他在篩選對(duì)象時(shí)以50%為界,盡量在抽樣調(diào)查的廣泛性與穩(wěn)定性這兩個(gè)相互矛盾的目標(biāo)中間求得平衡,凡被50%的合格參考書提到過(guò)的人即“重量級(jí)人物”,一共4002人,他們成為本書的分析對(duì)象。不過(guò),默里所參照的其他著述主要是經(jīng)典名作,那么,這是否意味著“意識(shí)先行”的名人傾向呢?會(huì)不會(huì)導(dǎo)致數(shù)據(jù)的不公正?
洛特卡曲線是怎么回事
默里用“洛特卡曲線”告訴我們:如果編寫一份人類履歷表,僅有數(shù)千人超群絕倫;而講述人類成就故事時(shí)不可不提的人物,僅有數(shù)百人;他們中間的寥寥幾人又顯著超拔他人。歷史如此漫長(zhǎng),但巨星卻寥若晨星。
人的才華的分布情況表現(xiàn)為鐘狀曲線,兩極分別是才華橫溢的人和庸碌無(wú)為的人,越接近兩極,人數(shù)越少。由此,《文明的解析》的考察對(duì)象就都處于鐘狀曲線右側(cè)的某個(gè)點(diǎn)上。計(jì)算指數(shù)分?jǐn)?shù)的方法決定了知名人物在曲線上的位置。本書指數(shù)分?jǐn)?shù)的根據(jù),是科學(xué)家、藝術(shù)家在書里所占的篇幅,包括他們的相關(guān)介紹文字總量和其成果在書里的插圖數(shù)量。默里試著變更了幾次條件,比如把“入選的藝術(shù)家至少要有一項(xiàng)作品被原始資料選用”變成“選用某位藝術(shù)家不同的作品”,或者擴(kuò)大參考書的范圍,或者換一批參考資料。實(shí)驗(yàn)結(jié)果是:無(wú)論怎么做,都不可能找到一種衡量方法,既可以反映不同藝術(shù)家所受重視的程度,又可以避免高度傾斜的分布結(jié)果。
這就是美國(guó)人口學(xué)家洛特卡在20世紀(jì)20年代中期的發(fā)現(xiàn),后來(lái)又經(jīng)過(guò)科學(xué)史學(xué)家普賴斯、心理學(xué)家馬丁代爾等人的補(bǔ)充研究,無(wú)論是藝術(shù)還是科學(xué),任何已知的衡量人類成就的綜合辦法始終呈現(xiàn)為嚴(yán)重傾斜的洛特卡曲線。這也回答了筆者在前面提出的異議。或許每個(gè)人對(duì)于“卓越”和“成就”的標(biāo)準(zhǔn)有所不同,但在識(shí)別卓越時(shí)必然需要一定的判斷力,因此各種標(biāo)準(zhǔn)得出的結(jié)果其實(shí)很小,默里所選擇的參照物只不過(guò)是朝著更精準(zhǔn)的方向邁出的一步。
為什么衡量成就和名人的結(jié)果會(huì)這樣分布呢?而且,洛特卡曲線雖然是由鐘狀曲線的右側(cè)圖形引出的,但鐘狀曲線右側(cè)的尾巴并不像洛特卡曲線那樣傾斜。那么,是不是還有其他原因在作怪?
衡量成就,而不是名氣
《馬太福音書》說(shuō):“因?yàn)榉灿械模€要加給他,叫他有余;沒(méi)有的,連他所有的也要奪過(guò)來(lái)。”這其實(shí)是一種“累積優(yōu)勢(shì)”的觀點(diǎn),也近似于我們通常所說(shuō)的“機(jī)遇”。一個(gè)機(jī)遇比較好的人,獲得了一定名氣,容易獲得更多資源,也容易取得更大的成就。
藝術(shù)和科學(xué)領(lǐng)域內(nèi)的洛特卡曲線到底反映了名氣,還是反映了才華?思考這一問(wèn)題時(shí),我們需要圍繞相關(guān)性、規(guī)律探索及客觀性開(kāi)展,使統(tǒng)計(jì)數(shù)據(jù)中某些含糊不清的內(nèi)容變得明晰起來(lái)。通過(guò)默里呈現(xiàn)的一系列一覽表,我們發(fā)現(xiàn),名列三甲的“天才”們的指數(shù)得分遠(yuǎn)遠(yuǎn)地把其他重要人物拋在了身后。而且這其中還有很多出人意料的排名,比如,赫歇爾在伽利略、開(kāi)普勒之后排在了天文學(xué)的第三名,拉馬克在達(dá)爾文、亞里士多德之后排在了生物學(xué)的第三名。其他一覽表都有類似的情況。這說(shuō)明,在公眾眼里名氣稍欠的這些人,他們的重要性超過(guò)了我們的想象,比如拉馬克,雖然他的進(jìn)化論是錯(cuò)誤的,但后世的進(jìn)化論研究都繞不開(kāi)拉馬克,他在促使其他人思考進(jìn)化論方面起到了重大作用。
這提醒我們必須重新思考“天才”的定義。默里說(shuō):“在藝術(shù)領(lǐng)域,一個(gè)人能否成名取決于一件作品所含的奇絕才華。在科學(xué)領(lǐng)域,一個(gè)人能否成名取決于一項(xiàng)科學(xué)發(fā)現(xiàn)本身的重要性。”藝術(shù)更能體現(xiàn)個(gè)人的才華,比如凡·高,雖然生前默默無(wú)聞,但他的才華終究沒(méi)有被掩蓋。而科學(xué)發(fā)現(xiàn)也許是天才的結(jié)果,也許不是。哥白尼的“日心說(shuō)”是他唯一的成就,他也因此項(xiàng)成就而“封神”。赫歇爾對(duì)天文學(xué)的貢獻(xiàn)極其廣泛,論成果,遠(yuǎn)遠(yuǎn)超過(guò)哥白尼,但他終究只能算是在哥白尼的地基上添磚加瓦,你說(shuō),他們的才華誰(shuí)更高呢?
科學(xué)上的創(chuàng)新突破往往不期而至。最典型的例子莫過(guò)于弗萊明發(fā)現(xiàn)青霉素。但這樣的靈光一閃并不是瞬間突然出現(xiàn)的。對(duì)天才的膜拜,往往導(dǎo)致人們忽視刻苦鉆研的重要性。在那之前的很長(zhǎng)時(shí)間里,他們也常常在思考這個(gè)問(wèn)題,已經(jīng)做好了足夠的思想準(zhǔn)備,所以終于在那一瞬間通關(guān)成功。更何況,科學(xué)發(fā)現(xiàn)往往是集體沉淀,站在“巨人肩膀”上的成果。說(shuō)他們是天才并沒(méi)有錯(cuò),但更正確的說(shuō)法是,他們?nèi)〉昧颂觳挪拍苋〉玫某删汀L觳挪⒉皇侵改撤N類型的人,而是指其取得的偉大成就。
默里并不是純技術(shù)的分析流,他的筆觸延宕開(kāi)來(lái),將天才們的成就放置于時(shí)代的背景中,從更大的范圍去思考“成就”的意義:“現(xiàn)在也是給予平等和卓越應(yīng)有的承認(rèn)的時(shí)候了。”比如,從所有的一覽表中可以歸納,絕大部分人是歐洲男子,那么,這是不是有歐洲中心論和歧視婦女之嫌?從實(shí)證角度看,歐洲中心是事實(shí)而不是偏見(jiàn),東方國(guó)家雖然在藝術(shù)、科學(xué)上也有很多成就,但在締造現(xiàn)代世界的程度上的確比不上歐洲。默里從進(jìn)化論解釋,男女認(rèn)知結(jié)構(gòu)以及社會(huì)文化習(xí)俗的影響等多角度,論述了影響婦女成就的各種因素,女性要追上男性的成就任重而道遠(yuǎn),付出的代價(jià)也更多。
從大數(shù)據(jù)中獲得更準(zhǔn)確的認(rèn)知
《文明的解析》是一部解析人類文明的創(chuàng)見(jiàn)性作品,同時(shí)也是數(shù)學(xué)魅力的一次精彩展示。人類的文明與進(jìn)步,從某種意義上講是通過(guò)收集、處理和總結(jié)數(shù)據(jù)而達(dá)成的。《文明的解析》之所以能成為出色的著作,恰恰也是得益于這些數(shù)據(jù),再加上作者的洞見(jiàn)和思考。
統(tǒng)計(jì)學(xué)除了要求數(shù)據(jù)量必須足夠多,還要求采樣的數(shù)據(jù)具有代表性,這些在以前難度很大,隨著互聯(lián)網(wǎng)的發(fā)展,特別是云計(jì)算的興起和逐漸普及,計(jì)量分析學(xué)所代表的實(shí)證科學(xué)研究越來(lái)越重要。數(shù)據(jù)不僅幫助研究者得到更準(zhǔn)確的認(rèn)知,而且將伴隨我們的一生,它應(yīng)該成為我們?nèi)粘Q策的依據(jù)。