導言:大數(shù)據越不可測,就越具備想象力,對互聯(lián)網金融而言,就越具解釋力。
對大數(shù)據我不是專家,但由于大數(shù)據也是開放性的命題,所以我也就自己的認知水平,談談我對大數(shù)據的看法,更多集中在數(shù)據的金融應用上。
第一節(jié) 什么是大數(shù)據
一、大數(shù)據并非新事物
早在1980 年,著名未來學家阿爾文· 托夫勒就在《第三次浪潮》一書中,將大數(shù)據熱情地贊頌為“第三次浪潮”。不過,直到2009 年前后,“大數(shù)據”才成為互聯(lián)網信息技術行業(yè)的流行詞匯。2013 年,隨著互聯(lián)網金融的空前熱門,也才真正意義上將“大數(shù)據”推到了高潮。
如果探究互聯(lián)網金融與大數(shù)據流行之間的關聯(lián),背后有一個很關鍵的因素,就是互聯(lián)網金融一直無法解答一個核心命題——風險控制。即互聯(lián)網沒有找到比傳統(tǒng)金融更具優(yōu)勢的風控方法,從而使得互聯(lián)網金融在興起的過程中飽受質疑。而橫空出世的大數(shù)據成為了互聯(lián)網金融支持者的一個重要精神支柱。大數(shù)據越不可測,就越具備想象力,對互聯(lián)網金融而言,就越具解釋力。
那么什么是大數(shù)據呢?我談談自己的看法。
大概四五年前,美國《商業(yè)周刊》資深作家約翰·伯恩一本暢銷書《藍血十杰》,對今天中國互聯(lián)網金融和大數(shù)據理論愛好者們產生了極大的影響。這本書講述了十個年輕人,出身名校哈佛,心懷理想,是天才中的天才。他們二戰(zhàn)期間成為了美國空軍的后勤英雄,卓有成效地將數(shù)字化管理模式應用于戰(zhàn)爭,為盟軍節(jié)約了十億美元的耗費,幫助盟軍取得了勝利。
這說明數(shù)據的分析和管理,很早就被用于國家戰(zhàn)爭和商業(yè)運營了,為什么現(xiàn)在非要在數(shù)據前面加個“大”字呢?
上次在鴻儒論道,聽社科院何帆教授的課程,他提到,從本質上講一切的社會現(xiàn)象都是統(tǒng)計現(xiàn)象,并不像實驗室里的試驗那樣有明確的因果關系。如經濟學的供求定理就是一個統(tǒng)計規(guī)律。但是人類認知能力中最差的也是統(tǒng)計思維。
諾貝爾獎得主、心理學家卡尼曼曾經講過,人類頭腦中有兩套思維。一套思維是本能的,比如我們的語言能力、模仿能力、第六感,等等,都是與生俱來的。如麻省理工學院的語言學家喬姆斯基指出,小孩子為什么到3 歲就能學會說話,而要到十幾歲才能學會微積分呢?語言學得這么快,不是小孩子自己能學會的,是他出生時大腦中就預裝了一套系統(tǒng)。此外,察言觀色的能力也不用特意學或教,小孩子就已經會了。所以這是人類的第一套系統(tǒng),也是能夠讓我們快速反應的系統(tǒng)。第二套系統(tǒng),是當我們做數(shù)學推理,尤其是統(tǒng)計分析時需要用到的。第二套系統(tǒng)運轉很慢,因為占的內存太大,往往我們犯錯誤就是因為決策太快,在統(tǒng)計判斷的方面出現(xiàn)問題。
所以,我們在談大數(shù)據的時候,都認為是個新潮的概念,但是作為方法論而言,大數(shù)據已經有很長的歷史了。那為什么現(xiàn)在大家突然講大數(shù)據了呢?主要是因為現(xiàn)在的數(shù)據越來越多,一方面隨著IT 革命,存儲和計算能力在不斷提高,未來可能會出現(xiàn)無限存儲、瞬間計算的新時代;另一方面,能夠被數(shù)據化的東西也越來越多,過去只有數(shù)字,而會計制度出來后,經濟活動開始可以通過記賬數(shù)據化。現(xiàn)在大家拿的pad 和電子閱讀器中的文字、圖像也是數(shù)字化的。隨著能夠變成數(shù)據的東西越來越多,計算和處理數(shù)據的能力越來越強,大家突然發(fā)現(xiàn)這個東西很有意思。一旦把統(tǒng)計學和現(xiàn)在大規(guī)模的數(shù)據融合在一起,就會顛覆很多我們原來的思維。
二、大數(shù)據就是非相關數(shù)據的相關性
現(xiàn)在大數(shù)據被說得神乎其神的一個重要原因,是普遍認為大數(shù)據可以有效推演和設定未來的走向,極為精準地推斷某些事件出現(xiàn)的概率,體現(xiàn)在金融業(yè)里,就是可以很好地控制風險。那么,真的如此嗎?
寫于1942 年的科幻小說《銀河帝國》,就講述了在銀河帝國最繁榮的時候,國內最有才華的數(shù)學家謝頓說他能夠預知未來歷史的變化以及潛在的危機,只要數(shù)據量足夠大。當時的人口已經是上萬億,足夠他準確預測未來的變化。所以謝頓悄悄建了一個“基地組織”,還有“第二基地組織”。當出現(xiàn)所謂的“謝頓危機”時候,大家就把他事先錄好的錄像調出來,他在錄像里會闡述已經預測到的此次危機及其99% 的可能性,并告知人們要怎么做。
書里的謝頓教授首先是個數(shù)學家,同時也是個心理學家。他從上千兆的社會民眾中進行行為心理學的樣本分析,來推斷社會的演變。他把各種偶發(fā)性因素都設立了變量的幅度范圍,一旦出現(xiàn)異變就予以撲殺,以使社會回歸到設定的進程去。他也做了一些基本的定義,這些定義都隱含了一個社會假設,那就是“作為研究對象的人類,總數(shù)必須達到足以用統(tǒng)計的方法來加以處理,還有一個必要的假設是群體中必須沒有人知道本身已是心理分析的樣本,如此才能確保所有的反應都是真正的隨機”。
可以看出,大數(shù)據的意義在于從海量的數(shù)據里尋找出一定的相關性,然后推演出行為方式的可能性。從這個角度來看,很多人所談的大數(shù)據是相關數(shù)據的優(yōu)化和整理概念,壓根不是一回事。
何謂非相關數(shù)據的相關性?比如說公共衛(wèi)生領域,研究傳染病是很難的,因為發(fā)病快,病人馬上就死了,很難像癌癥那樣去研究它的病理學是什么。那最后是怎么發(fā)現(xiàn)傳染方式的呢?以霍亂為例,實際上就是有兩張地圖,一張是得霍亂病人的分布圖,另外一張是倫敦市水井的分布圖,最后發(fā)現(xiàn)兩張圖之間有一些聯(lián)系規(guī)律,所以覺得可能跟飲水有關。
在科學不發(fā)達的過去,我們是通過水井跟霍亂這兩種非相關數(shù)據的分布尋找到了相關性,雖然不知道為什么,也無法解釋,但是卻能做出較好的防范。這種非相關數(shù)據的相關性是偶然發(fā)現(xiàn)的,并非刻意尋找的結果。原因在于過去沒有數(shù)據匯集技術,導致數(shù)據量太少,根本無法對非相關數(shù)據進行集中比對。另外一方面也是因為數(shù)據的處理能力有限,即使數(shù)據匯集了,也無法有效進行數(shù)據處理,要找出各種數(shù)據的相關性的手段極為有限。
所以,過去的數(shù)據挖掘也好,數(shù)據分析也罷,更多還是對帶有相關性的數(shù)據的整理和分析,事前都是有邏輯作為基礎的。包括《藍血十杰》里面的行為,也包括阿里金融的所謂大數(shù)據風控等,本身就是可推導的數(shù)據,在此之上進行概率計算。如果這些都定義為大數(shù)據,那么大數(shù)據就不是什么新概念。要講大數(shù)據,必然是海量的不同維度數(shù)據的相關性分析,對于本身具備相關性的數(shù)據,頂多稱為數(shù)據優(yōu)化罷了。
我自己覺得,大數(shù)據的出現(xiàn)更多是基于兩個方面:第一是互聯(lián)網使得數(shù)據產生量大大增加,有了現(xiàn)實的不同數(shù)據的比對和處理的可能性;第二是計算能力大幅度提高,原先單一的中央式計算方式變成了以云計算為特征的分布式計算方式,使得處理能力海量增加,最終可以把統(tǒng)計學和現(xiàn)在大規(guī)模的數(shù)據融合在一起,從而發(fā)現(xiàn)很多有意思的事情。一方面是發(fā)現(xiàn)了很多有相關性的事件,但是不知道為什么相關;另外一方面是發(fā)現(xiàn)很多原先認為是沒有關聯(lián)的事情,原來內在都是有聯(lián)系的。最終可以成為我們決策的依據,大大提升我們的管理效率或者處理事情的能力,也極大地顛覆我們原來的思維。
我曾開玩笑說,我們最早的大數(shù)據思維是什么呢?是周易衍生出來的命理學派,絕對是大數(shù)據的思維。你算個卦,然后說某個人晚上死,他就死了。兩者沒有任何的關系啊,但是從統(tǒng)計結果來看,往往就是準確率極高。是什么維持了兩者相關,很多時候有因果關系,很多時候無因果關系,當然也可能是還不知道的無法驗證的因果關系。
我在《支付革命》里提出過,少扯大數(shù)據,多談小數(shù)據。為什么呢?因為大數(shù)據要盡量收集更多的非相關數(shù)據,來計算其相關性,必然帶有極大的成本和結果的不確定性。成本大,是因為數(shù)據收集成本和整理成本都很高;結果不確定,是因為都是非相關數(shù)據,你之前是很難確定這些數(shù)據的相關性的,需要不斷碰撞和測試,不但耗費成本,而且很可能窮盡之后發(fā)現(xiàn),這些數(shù)據真的是不相關,所以投入和產出就經常極不對稱。
上次碰到惠普的副總裁提大數(shù)據的概念,他說,按照他們的理解,全球有能力進行所謂大數(shù)據應用的公司不會超過50 家,我自己的推測也差不多。很多公司即使可以用大數(shù)據,往往所獲得的收益也根本不足以覆蓋巨額的成本。我在一次峰會上聽到很多P2P 公司在說,它們可以通過業(yè)務沉淀出極大的數(shù)據,然后用大數(shù)據技術來提高風控質量。這叫啥?叫典型的無知者無畏。
第二節(jié) 大數(shù)據與“黑天鵝”事件
一、大數(shù)據的相關性基礎條件
“一句話,即便在大數(shù)據時代,種種‘黑天鵝’事件也仍然是沒有辦法被準確預測到的。因為所有根據過去的理論數(shù)據模型進行的假設都無法準確推演未來,它們不過是為了未來某個黑天鵝做著準備。”
大數(shù)據涉及海量非相關數(shù)據的相關性的統(tǒng)計,其相關性的存在基礎又是什么呢?非相關數(shù)據,很多時候兩者的相關性是真相關,也可能是偽相關。需要注意,這種相關性要成為可推演的行為邏輯,首要前提就是確保這種相關性的基礎是恒定不變的。
再以前文霍亂與水質關系為例,這里存在一個基礎前提,就是霍亂弧菌在水中存活時間較長,有些菌株還可以在水中越冬。所以一次污染后有可能使水體較長時間保持傳播能力。而且,當水棲動物被污染后,霍亂弧菌有可能在其體內存活較長的時間,繼續(xù)污染水體。所以,經水傳播的特點是呈現(xiàn)暴發(fā)狀態(tài)。如果這個霍亂弧菌不是通過水傳播了,那這種相關性就消失了。
因此,我們要注意和警惕的是,大數(shù)據并非是一個萬能的事物,它的缺陷在于立足于統(tǒng)計學基礎之上,必然是會因為統(tǒng)計樣本的變化而發(fā)生變化的。尤其在適用于人群分析的時候。
拿前面的《銀河帝國》來舉例,把社會公民作為樣本來進行分析,通過過去的樣本行為,得出未來的可能結論。這里的理論基礎是,在人群的社會性特征不發(fā)生改變的情況下,作為社會構成的絕大部分人,思考問題的方式不會有太大的差異,行為邏輯也是相對固定的。如果是將一個人特列出來,可能很有個性,但當人口樣本數(shù)量足夠大時,就會發(fā)現(xiàn)其實每個人都是一模一樣的。
但是要注意,這個理論成立的核心前提是,社會性特征要保持不變。因為只有在相對穩(wěn)定的基礎性環(huán)境里,被列為樣本分析的群體才會是一致行為邏輯。在基礎性環(huán)境發(fā)生變化的情況下,人的行為跟過去必然是不同的。一個簡單的推論是,如果一個人未來做的事情跟過去一致,那么這個社會必然是不發(fā)展的。因為即使有人做出了創(chuàng)新性突破,但是當社會多數(shù)群體都拒絕創(chuàng)新使用的話,社會還是停滯的。
因此,在一個發(fā)展的社會里,社會群體必然是不斷改變其行為模式的。而一旦行為模式改變,所有過去的數(shù)據積累所構建的相關性都會消失,因為人們不再按照過去的生活習慣進行生活了。當然很多人會說,社會前進,必然使得數(shù)據也是前進的,所以還是可以用新的數(shù)據來推斷未來。這里的悖論在于,由于大數(shù)據的核心是通過分析過去而判斷未來,隱含的前提條件必然是未來跟過去的基礎性特征一致。而且,數(shù)據由于需要海量積累,匹配處理后的推論結果永遠是慢于社會前進的步伐的。
二、過去能否決定未來
所以,問題的焦點在于,過去是否一定能決定未來?如果大數(shù)據無法解答這個命題,那么它必然在很多領域是失效的。
我們先看一個簡單的堆沙子的實驗。在海邊堆沙子,無論你怎么堆積,必然是要倒塌的,問題在于什么時候倒塌?通過數(shù)學模型一直無法測算出精確的結果,也就是無法計算出到第幾粒沙子的時候,沙堆就會倒。這里如果用過去決定未來的邏輯進行推演,第1 粒沙子沒倒,第2 粒沒倒,第3 粒沒倒……第1000 粒也沒倒,我們可否有效認定,第1001 粒就不會倒了呢?事實上,過去的每粒沙子的往上堆積,都是在為最后一粒沙子的倒塌做準備。
過去幾年的金融危機告訴我們,原來的經濟學、金融學理論都存在巨大缺陷。按照傳統(tǒng)的標準正態(tài)分布狀的金融學模型,2008 年的金融危機大概250 億年才會爆發(fā)一次,地球都沒有那么長的壽命,怎么就讓我們趕上了呢?為什么打開新聞,遇到了50年不遇的旱災,100 年不遇的水災,歷史上從來沒有過的霧霾天氣,等等,怎么都讓我們趕上了呢?這種黑天鵝事件即使在大數(shù)據時代,也仍然是沒有辦法預測的,因為這些數(shù)據都是為了未來某個黑天鵝事件做的準備。
在《黑天鵝》這本書里面,有一句非常好的話:“你不知道的事情比你知道的事情更重要。”在以前,很多東西我們沒有辦法把它數(shù)據化,也沒有辦法把它預測出來。但現(xiàn)在,數(shù)據足夠多,它會給你一種幻覺,讓人覺得能找到看得見、摸得著的規(guī)律,讓人們覺得有足夠的能力把握未來。但往往在人們過于自信的時候,會犯更大的錯誤。到目前為止,越是大的系統(tǒng)性危機,人們越束手無策。
美國金融危機爆發(fā)后,美聯(lián)儲前主席格林斯潘到美國國會去作證,他說,“我發(fā)現(xiàn)了一個缺陷,但我不知道它有多么嚴重,也不知道它會持續(xù)多久,這件事情使我深感苦惱。”有一個國會議員馬上打斷他,說:“格林斯潘先生,你的意思是不是說你根本不知道為什么會發(fā)生這次金融危機?”格林斯潘說:“是的,因為在過去40 多年甚至更長的時間里,我都有非常雄辯的證據證明我的做法會如愿以償。”這么大一場危機到來了,美聯(lián)儲的掌舵人卻不知道為什么會發(fā)生金融危機!
所以在未來,真正需要我們高度警惕的是,即使你有了大數(shù)據,也沒有辦法完全知道系統(tǒng)性的風險和危機,例如“黑天鵝”事件。
事實上,人類歷史的場合中,黑天鵝事件的層出不窮,已經是被驗證的定論,社會的每一次技術突破,其實就是黑天鵝事件。也就是說,黑天鵝事件,本來就是人類自我創(chuàng)造和努力的結果。牛頓莫名其妙地被蘋果砸了頭,創(chuàng)造引力理論,然后極大地改變了社會的發(fā)展邏輯,使得人類呈現(xiàn)不同的生活方式,從而使得過去所有既定的規(guī)則都發(fā)生了變化,而事實上,人類社會已經表現(xiàn)出了加速進化的趨勢,這個趨勢還在加速過程之中,技術的迭代更新更加迅猛,最終使得過去決定未來的可能性越來越小。
從秦朝到清朝的上千年時間里,事實上人類生活是沒有發(fā)生太大改變的,都是日出而作、日落而息的農耕主導型社會,而大工業(yè)革命之后的社會,以及電氣化時代的來臨,加速了社會進化過程,時代周期的縮短已然是個趨勢,幾千年的時代周期立刻壓縮為十年為單位的周期,甚至更短,因此使得人類的生活方式更呈現(xiàn)出差異化和偶然性。過去決定未來,是無法反映出時代進步和調整的可能性的。過去所做的推斷,永遠只代表了過去那個階段為止的最高極限,本身是不會自我演化和發(fā)展的。
很多年前,我寫人工智能的文章,就提出過一個假象的理論模型,倒是跟大數(shù)據有點類似。因為所有的前提都是建立在當時的極限值上,所有的推演變化其實都在過去的科技水平之上,所以,人工智能永遠只能達到生產者那個階段的智力水平,它本身無法改變這個局限而實現(xiàn)自我進化。這必然決定了它要依附在生產制造它的群體的進化之上,只有如此,它才可能繼續(xù)進化。
這里也可以提下,其實從人生歷史上看,還有一條進化之路,其實是通過相互對抗而不斷進化,對抗性的存在其實也是進化的基礎。人類的進化就是通過不斷消滅別的物種的過程來實現(xiàn)的,這就可以得出這樣一個結論,如果把競爭對手都搞死了,其實我們也失去了進化的可能性。
三、信號與噪音
一個數(shù)據分析師寫過一本書叫《信號與噪音》,其中講到真正的信號是有用的信息,還有很多沒用的信號是干擾決策的噪音。“我們總覺得信息量越大,能夠得到的真理就越多。其實不是的,信息增長的速度要遠遠快于真理增長的速度。”所以不要以為你的數(shù)據越多,就能離真理越近,有時候信息越多,噪音越多,反而干擾決策。換句話說,知識的邊際收益是遞減的。
因此,在“過去決定未來”的這個邏輯上,需要明確幾個方面:一、經濟生活加速,技術革命隨時到來的情況下,穩(wěn)定期限到底能維持多久;二、判斷主體的前提是主體不知道自己被作為樣本;三、社會生活中,穩(wěn)定的群體是誰?不穩(wěn)定的群體是誰?穩(wěn)定的群體更容易被樣本化而呈現(xiàn)可推演性。不穩(wěn)定的個人意志往往改變社會,腦殘和精英主導了社會的前進;四、人會因為未來而改變過去的可能性到底有多大?
在投資領域,我引用雪球網友給我的文章做的評論里的一段話做個附文,感覺寫得很不錯。
他將統(tǒng)計學運用到投資領域,大數(shù)據理論還延伸出不少著名的投資理論和投資實踐。
比如施洛斯的低估值投資方法,便是提高投資成功率的真知灼見之一。沃爾特· 施洛斯認為,投資是一件簡約的事情,長期投資= 正確決定( 低估值+ 成長性)+ 時間。總而言之,學會用概率統(tǒng)計思維和非線性復雜性思維進行思考,對投資是有好處的。有的行業(yè)更加穩(wěn)定,變化緩慢,投資預測時更容易有確定性,這也是傳統(tǒng)投資大師最喜歡的行業(yè)。而有些行業(yè)則更加不可預測,適用非線性物理學的能量法則,而非概率統(tǒng)計的正態(tài)分布。
《醉漢的腳步——隨機性如何主宰我們的生活》里提到:“如果電影票房按正態(tài)分布,那大多數(shù)電影賺到的錢都該落在某個平均值附近,有三分之二的電影票房,將落在這個平均值周圍一個標準差的范圍內。但在電影業(yè)中,20% 的電影帶來了80% 的票房收入。這類由熱點驅動的產業(yè),盡管完全無法預測,卻遵循了一個完全不同的分布,其中均值和標準差的概念毫無意義。” 這些對于我們的投資有哪些啟示呢?
1. 投資于變化緩慢或者容易預測的行業(yè),也就是更加符合正態(tài)分布的行業(yè),避開高科技、娛樂、文化等非正態(tài)分布的行業(yè)。《黑天鵝》一書提出的反脆弱性,是另外一種思路,也可以借鑒。
2. 即使是對于非正態(tài)分布的行業(yè),基于低估值的大數(shù)法則也有用武之地。例如獅門影業(yè)就是典型,它只專注于小成本的幾個細分市場,例如恐怖片、禁忌片等,每次電影制作成本都很低,虧了問題不大,但若有幾個成為blockbuster,它就賺大了。至于航運企業(yè),那些活得久的老家伙都很保守,只在低迷時期造船,也是類似的道理。
銀行業(yè)其實不是好行業(yè),不具備《黑天鵝》作者所述的反脆弱性。老巴投資的富國銀行是唯一的例外,它最保守。如果比爾·米勒明白這個道理,他就不會抄底雷曼了。在比爾·米勒看來,“護城河”最寬的地方就是20 世紀30 年代大蕭條,“難道我應該在假設中設置一項,‘假設有朝一日我們回到奴隸制’么?” 比爾·米勒如果真正明白了他號稱經常研究的混沌理論、非線性動力學、復雜性理論,他就應該對金融業(yè)的黑天鵝有深刻認識,從而遠遠避開這個行業(yè)的公司,除非是富國銀行這個少有的奇葩。但他貪圖便宜抄底雷曼,是典型的知行不一。
3. 即使有上述兩條,還是要明白,最關鍵的是運氣,大勢勝于一切。適者生存,適應的是環(huán)境,環(huán)境變了,勝者也會變化。所以,要時刻關注假設和前提的變化,關注規(guī)則的變化,關注邊緣地帶。因為創(chuàng)新都來自于邊緣地帶,要關注顛覆式創(chuàng)新。那么如何才能發(fā)現(xiàn)邊緣地帶?必須不斷學習,時刻否定自己,學會擁抱變化。
《周邊視野——探測引發(fā)公司成敗的弱信號》里提到,金寶湯公司(Campbell Soup)的前任營銷總監(jiān)梅爾基奧雷說:“我所見過的成功人士所做的最重要的一件事,就是他們把每一天都當作全新的一天去體驗和學習。我拋開所有以前的想法,當作自己一無所知地去體驗每一天。讓人們失敗的真正原因是,是他們確信自己已經知曉如何做事,每天只是花費時間來驗證他們的觀點而已。我從來不認為我已經掌握了全部答案。我經常會把人們的怪異想法作為參考,比如,如果我們使用卡車來運送玉米餅或者水果會怎么樣呢?如果你被困在原有的思維模式中,你就不會擁有廣闊的視野,你的視野就仿佛是坐井觀天,看到的是井口那么大的天地。”
亞馬遜創(chuàng)始人貝佐斯說:“聰明人會持續(xù)修改他們對特定事物的理解,重新考量先前已解決過的問題。聰明人也對新觀點、新資訊和挑戰(zhàn)他們既有思考模式的想法抱持著開放的態(tài)度。”貝佐斯鼓勵大家擁有暫時而不是永久的想法,保持彈性以作改變。他說:“想法錯誤或做錯決定的那些人,總是過度執(zhí)著于只能支持某一特定觀點的細節(jié)。而懂得思考的人會不斷地省思,并對其他觀點抱持開放的心胸。”
《創(chuàng)造性破壞》里指出,具備路易斯·巴斯德所謂“心理準備”的人,才會關注到異常現(xiàn)象的存在。“亞歷山大·弗萊明不是第一位發(fā)現(xiàn)細菌培養(yǎng)器皿受到霉菌孢子污染的人,卻是第一位注意到附著在那一層膠化物體上面,明顯的環(huán)狀絨毛斑點所具有的更深層意義的人”。
四、被移動互聯(lián)重構的社會
接下來,我們進一步來論證“過去是否能決定未來”這個簡單的命題。通常情況下,絕大多數(shù)人的行為其實都是按照某種規(guī)律進行的,也就是過去如何做,未來也一般會如何做。例如平時早晚會有出行高峰,周末CBD 的人很少等等,都反映了社會人群的行為邏輯是可推演、可預測的,只要數(shù)據量足夠大。但是這里有兩個非常重要的假設性前提:一是社會現(xiàn)實的基礎未發(fā)生大變化,另外一個是你所應用的群體,必須是樣本的主體。
先來看前提條件一,平時早晚會有出行高峰,是因為大多數(shù)人都是朝九晚五地上班,但是如果明天戰(zhàn)爭來了,還會是如此狀態(tài)么?必然不是,戰(zhàn)爭把原先的社會基礎給打破了,人的行為邏輯必然也就發(fā)生改變了。再按照過去的數(shù)據推演就無效。再來看前提條件二,更簡單,你如果用早晚出行高峰去預測我的行為,那就一點成功的可能性也沒有,因為我都是白天睡覺、晚上上班,我就屬于樣本分析群體里的異類,屬于那部分不呈現(xiàn)樣本分析的群體性特征的人。
我們從這兩個前提出發(fā),第一,那些打破基礎性環(huán)境的所謂黑天鵝事件,頻繁么?可測么?我自己感覺是不可測,并且會越來越頻繁。從而得出結論,未來社會中群體性可預測的事情會越來越少,尤其是移動互聯(lián)網興起之后。
在移動互聯(lián)網出現(xiàn)之前,人類社會骨子里還是個部落族長制社會,這種社會的特征是需要絕大多數(shù)人形成共同的價值觀,然后基于此來展開社會分工協(xié)作。即使你不認同這種共同的價值觀,一種被稱為法律或者道德的東西,也會迫使你按照這種規(guī)則做事情。總之,一旦形成了主流價值觀的趨勢,你只有接受和不接受的權利。由于這種價值觀在一定時期是固定的,這就使得社會整體的行為邏輯是可以很大程度上被推演和歸納的。所以,我們會發(fā)現(xiàn)在國家和民族內,都有共同的生活習慣,盡管很多生活習慣是被強加的,并不代表認同。
在過去的社會里,你如果是一個生活在群體性特征下的異類,你的前途基本上很渺茫,會被不斷地邊緣化,處于自生自滅的境地。當然這個還算好的,如果你要反對這個社會的主流價值觀,你的下場一般就是哥白尼之類的了。當然也有極個別的成功案例,就是被邊緣化和不認同后,通過他自己的努力或者是運氣,不但活下來了,還活得挺好。畢竟這樣的人真不多。
但是互聯(lián)網出現(xiàn)之后,情況有了很大的變化。一個被自己原先所在群體邊緣化的人,通過互聯(lián)網,往往能找到另外一些和他一樣被群體邊緣化的人,然后一拍即合,構建起一個新的群體。所以從這個角度來看,互聯(lián)網其實是極大地促進了社會群體的分化。社會更趨向多元化的分布,主流價值觀會被打破,越來越多的價值觀會涌現(xiàn)。這就使得對群體性行為的預測難度加大,就算每個群體的行為都可以被預測,但所有群體疊加之后整個社會行為的預測難度會很大。
互聯(lián)網時代,價值觀的對錯與否不再是唯一標準。個體對于所謂的價值認定也出現(xiàn)極大分化,一個人認為很沒價值的東西,就有人做出完全不同的判斷,主流價值觀不斷被分化。最典型的就是成功學,這個主流群體可能認為毫無價值的東西,其實受眾遠遠多于批判的人。以前我們的社會講究什么?講究規(guī)矩,例如播音員要字正腔圓,寫文章要條理清晰,邏輯分明。現(xiàn)在發(fā)現(xiàn)不是了,你普通話越不標準,得,觀眾還越喜歡;你文章沒人看得懂,得,無數(shù)少男少女為之瘋狂。這意味著社會舊有的運行秩序會被重構,背后所反映的是樣本分析、群體分析的難度在加大。
任何一個偶發(fā)性的東西都會因為這些群體行為的不可測而變得難以捉摸,例如有段時間很流行的“賈君鵬,你媽媽喊你回家吃飯”“元芳,你怎么看?”都莫名其妙地流行起來,呈現(xiàn)無目的性,無意識的偶然性因素極大增加。你去豆瓣看,有個“打死不穿秋褲組”,幾十萬粉絲,還有個群“打死也要穿秋褲組”,也幾十萬粉絲,就是這個特征。
由此判斷,未來的社會形態(tài)將呈現(xiàn)出“現(xiàn)代社會的部落制形態(tài)”,過去那種集中式、大一統(tǒng)的社會可能會進一步走向多元、分散,甚至去中心化,但由此帶來的是整個社會更易陷入小團體有意識,整體無意識的社會方向,從而使得社會的前進方向更具隨機性。
于是也更容易理解,為什么現(xiàn)在互聯(lián)網上吵架那么多?互聯(lián)網的這種特性,極大地降低了吵架的成本,讓傻瓜碰到傻瓜的機會大大增加。以前找個人吵架也挺難的,現(xiàn)在容易多了,隨便放個屁都能臭到人家,不吵架也難。并且,在沒有足夠人群支持的情況下,吵架其實是需要膽子的,而一旦有一群相同觀點的人支持你的時候,人的膽子會增加,吵架因為有了看客而更容易引發(fā)。
未來社會的另一個特征,是不可測事件的頻發(fā)性。我在前面提過一個觀點,到底是誰推動了社會的進步?社會由三種人構成:天才、腦殘、普通民眾。大部分人是普通民眾,天才和腦殘都是極少數(shù)人。以前我們接受的教育是人民群眾推動歷史前進,現(xiàn)在我不這么看,我感覺社會要么是精英推動,要么是腦殘推動,但是肯定不是普通人推動。為什么這么說呢?
因為我們發(fā)現(xiàn),人類社會進化的過程其實就是一個不斷搞死別的物種的過程,而這個過程中,基因突變很重要。基因突變是在進化過程中能打敗別人和取得絕對優(yōu)勢的至關重要的一個環(huán)節(jié)。突變之后的個體展現(xiàn)出了更高層次的技能,從而給群體創(chuàng)造了一個進化的方向,并且?guī)ьI群體開啟這個進化過程。這個突變,本身就反映了隨機性和不確定性。發(fā)生突變的個體,從人類社會來說,就是精英或者腦殘。所以,我一直不認為我們走到今天這一步是必然的。在另外一個空間,可能并不是人主宰地球。
這里面再深入下去,我們還會發(fā)現(xiàn)很有意思的事情。人類的進化并不是按照最優(yōu)路徑進行的,從進化通道來看,基因本身也會同時出現(xiàn)多種方向,并不是最先進的基因決定了進化方向。進化的方向往往帶有極大的偶然性,隨著外界環(huán)境的變化而變化,但外界環(huán)境又帶有極大的不確定性,大量的事情是非必然的。
最好的例子是恐龍。恐龍的滅亡,很大程度是因為小行星的碰撞,這個突發(fā)的偶然性事件,使得統(tǒng)治了地球近1.4 億年的恐龍在很短的時期里全部死去,代表了當時最先進生產力的恐龍就此滅亡,地球的進化方向轉向了。沒有任何數(shù)據可以推導出這個偶發(fā)性的外部因素,以及由此所造成的影響。
人類進化歷程也必然如此,前進是必然的,如何前進卻是偶然的。由于樣本分布太少,數(shù)據不夠充分,那些推動人類歷史進程的天才或腦殘,現(xiàn)實中恰是無法進行數(shù)據推演的。
簡而言之,正確歸納和推演社會普遍群體的某一邏輯,其背后需要穩(wěn)定的社會環(huán)境基礎,而穩(wěn)定的社會環(huán)境基礎,卻往往會被少數(shù)腦殘或者天才所改變。因此,結論是社會群體的推演其實是無法預測的,而且移動互聯(lián)時代更加劇了進程的不確定性。
現(xiàn)在這種不確定性日益明確,我們反倒認為大數(shù)據的基礎其實在坍塌。我們繼續(xù)看大數(shù)據存在的一些假設前提條件,其中有一個認為互聯(lián)網世界提供了全數(shù)據。《大數(shù)據》這本書的聯(lián)合作者,牛津大學互聯(lián)網中心的維克托邁爾-舍恩伯格教授,曾說他最喜歡的對于大數(shù)據集合的定義是“N= 所有”,這里不再需要采樣,因為我們有整個人群的數(shù)據。這就好比選舉監(jiān)察人不會找?guī)讖堄写硇缘倪x票來估計選舉的結果,他們會記點每一張選票。當“N= 所有”的時候,確實不再有采樣偏差的問題,因為采樣已經包含了所有人。這個說法很有意思,因為互聯(lián)網的海量容納數(shù)據的可能性,的確給了全數(shù)據一個很好的假設前提,但是假設始終只是假設,現(xiàn)實卻總是現(xiàn)實。
這個假設論證大數(shù)據意義的同時,也提出了一個致命的問題,即“N= 所有”可實現(xiàn)么?如果N 不等于所有,是否也意味著大數(shù)據其實是不可能實現(xiàn)的任務,這就是我在很多地方一直強調的全數(shù)據的可實現(xiàn)性。如果無法實現(xiàn)和提供全數(shù)據,那就意味著大數(shù)據可能是失效的,在下文互聯(lián)網人格章節(jié)里,我提過一個概念,如何看待民意的問題。理論上很多人都把微博作為輿論情緒的主要調查樣本,因為這里的數(shù)據第一可得,第二可統(tǒng)計,但是事實上,微博上的輿論情緒代表了真正的民意么?顯然不是的。很多時候我說,打開微博,暗無天日,關掉微博,風輕云淡。發(fā)現(xiàn)世界壓根沒有微博上說的那么糟糕,理由很簡單,微博的使用群體并不能代表社會的普遍性群體,中國十三億人,有十二億人壓根沒有使用微博的習慣,他們的情緒被忽視了。一個忽略了絕大部分群體的數(shù)據,能代表最終的輿論傾向么?基礎數(shù)據的樣本偏差,直接帶來了結果偏差,無法覆蓋足夠多的樣本所帶來的最終統(tǒng)計結果,其準確性必然是極差的。
前面我提過大數(shù)據的本質必然是統(tǒng)計學的社會應用,它沒有帶來新的真理,沒有改變統(tǒng)計學的基礎原理,因此沒有必要刻意拔高它的現(xiàn)實意義。過去統(tǒng)計學中碰到的所有問題,大數(shù)據依然會碰到。現(xiàn)在很多關于大數(shù)據的言論,其實都帶有一點文字游戲的特征,已經帶有很強的心理暗示和商業(yè)營銷行為在內。最經典的案例是少女懷孕那個案例,曾經非常的有名,但是卻經不起推敲。美國折扣連鎖店Target 的傳奇式成功(由《紐約時報》的Charles Duhigg 于2012 年報道),以后估計都難以效法。Duhigg解釋了Target 公司是如何從它的顧客身上搜集到大量的數(shù)據并熟練加以分析,它對顧客的理解簡直到了出神入化的程度。
Duhigg 講的最多的故事是這樣的:一名男子怒氣沖沖地來到明尼蘇達州的某一Target 連鎖店,向店長投訴該公司給他十幾歲的女兒郵寄嬰兒服裝和孕婦服裝的優(yōu)惠券。店長大方地向他道了歉。可不久后,店長又收到這名男子的電話,要求店長再次道歉——只是這一次店長告知那名男子,那個少女確實懷孕了。在這名男子還沒有意識到的時候,Target 通過分析少女購買無味濕紙巾和補鎂藥品的記錄就猜到了這個事實。
做這樣的案例分析之前,我們從統(tǒng)計學角度出發(fā),首先要考慮的問題是,這樣的案例背后我們所沒看到的其他因素,最簡單的一個因素就是,到底有多少沒有懷孕的人也收到了類似的優(yōu)惠券?這個很重要,直接關系到統(tǒng)計準確率的問題。事實上,這個少女可能僅僅只是個特例,因為很多跟她一樣的女孩子,其實都收到了優(yōu)惠券,因為Target 給所有人都寄了,只是恰巧碰到了少女懷孕這個案例。兩者一比較,就會發(fā)現(xiàn),大數(shù)據的光環(huán)沒了,在看大數(shù)據成功案例之前,其實我們要更多關注反面案例到底有多少,而不是正面案例有多少,一千萬碰到一個的算法跟精準命中的算法,雖然最終都是命中,但是商業(yè)價值是大打折扣的。