商業上,我們經常聽到所謂的口號:顧客是上帝。在社會生活中,我們也經常聽到要獨立自由。在教育中,我們希望孩子們能夠健康成長,老師要尊重學生的選擇。于是,上述各種看似正確的觀點在生活中卻產生了大量的不合理的現象,或者是不健康的現象。比如,強調顧客是上帝,在今天大數據時代,太多的公司傾向于調查顧客的消費習慣,然后就迎合這個習慣,向顧客推送相應的產品廣告。發現顧客的消費關聯習慣,就將一些可以被習慣性關聯的產品擺放到一起,方便顧客一起購買。但是這種迎合式的做法是有非常大的危害的,盡管從個別商家的銷售效果看,可能產生局部的效益,但是從社會全局看,如果利用不當,可能產生更多的副作用。在已經到來的大數據時代,我們可能得到非常多的關于人和社會的各種數據和分析結果,面對這些結果,我們如何利用是個非常大的問題。如果我們依照目前一味迎合的做法,大數據的效果可能未必產生正能量。以下幾點可能值得注意。
一、統計現象可能是病態的
我們經常得到一些用戶的消費或者娛樂行為,但是這些行為可能是病態的。這里我就舉兩個病態的習慣現象作為例子說明。有些用戶具有一種病態的消費習慣,習慣于同時消費一定數量的產品,或者某種特定的產品組合。比如,有些肥胖癥病人,喜歡吃高熱量食品,當然就喜歡看到高熱量食品擺放在一起,但是這樣就無形中鼓勵了對這些用戶的不良消費習慣。另一個例子是網絡文學。現在的網絡文學可算是世界奇觀,大量的穿越,意淫小說充斥網絡。我喜歡看電子書,可是從網上很難看到像樣的新書可以閱讀,大多數還是從正規出版社進行購買紙質書閱讀。這種一味迎合特定讀者群的網絡文學現象,相當程度上進一步惡化了當前的教育生態。那些網絡文學只會傷害青少年的閱讀品味,甚至走上犯罪的道路。當我們看到了一種統計現象,我們僅僅是看到了當前的一種規律,但是這種規律是否是病態的,還是要進一步分析,我們不能因為可以利用這種規律掙錢,就可以推波助瀾。
二、統計現象可能是暫時的
中國是在快速發展的過程中,由于歷史的原因和社會發展的階段性原因,很容易出現一窩蜂的現象,統計規律有時候表現的非常明顯。這給我們一個假象,認為這可能是社會發展的未來趨勢。但是我們忽視了中國社會的特殊性,這種特殊性在于很多消費習慣是一種補償性消費習慣,而對于補償性消費心理來說,可能是過度夸張的。比如,飲酒的習慣,在中國過去,飲酒僅僅是生活中很奢侈的一部分,因此飲酒的習慣對于身體的影響并不很大,但是現在物質豐富了,人們還按照過去的習慣進行飲酒,但是數量大大增加了,于是身體的健康受到的非常大的影響。最近我的一些朋友們陸續開始戒酒,因為他們已經發現,原來認為是友好的表現,現在可能被認為是不禮貌的,比如勸酒。還有就是房地產和汽車消費。除了投資和投機心理之外,中國人對于房子有著獨特的熱忱,其原因在于中國人還從來沒有真正擺脫居住的窘迫,于是大家都非常渴望有自己的住房。汽車也一樣,這是補償性消費的過度行為表現。假如我們去迎合這種暫時的現象,我們會助推一些病態行為,導致社會成本急劇上升,尤其是整體資本成本更為夸張。
三、統計現象可能是局部的
有時候去吃飯,朋友會通過網上預訂,但是去吃了之后往往不如意。其主要原因在于,統計數據的來源并不是全部消費人群。喜歡上網的人群是受限制的,上網又喜歡點評的人更是其中一些樂于此事的人,他們并不能代表所有的消費群體。比如,喜歡點評吃飯的人,往往是學生和年輕的職工,他們收入少,好奇心重,因此對于這種既便宜又能品嘗到一定品味的信息來源比較喜歡,這種統計結果對于其他人群可能就完全沒有參考價值。還比如,網上有些投票活動,其結果的不可靠跟吃飯的效果一樣。我們不能說網上的統計結果沒有意義,但是也不能夸大這種只有部分代表性的結果,否則我們可能會被誤導。想到前段時間那些惡意的大V們被封殺,也是類似的現象。之所以大V們有一定的市場,還是因為我們缺少對于網絡輿論的全面認識。聽到一些號稱鼎鼎大名的一些網絡名人,我也覺得自己有點OUT了,因為作為經常使用網絡,并且自認為不那么落伍的人,居然從來就沒有注意到這些人。
四、統計現象可能是曲解的
很多統計現象需要進一步解釋,而不能看直接的結果,這些統計結果很多都存在誤讀現象。有個例子能夠很好地證明。英國二戰時期跟德國進行空戰,每次戰斗機回來都發現,機翼上有很多槍眼,大多數工程師認為機翼是很容易受到攻擊的地方,需要進行防護,可是增加了防護之后,發現飛機的損失率并沒有降低,反而提高了,因為增加了防護,降低了飛機的靈活性和航程。原來是曲解了那個統計規律,因為在戰損的飛機里面,有許多飛機沒有回來,其被擊落的真正原因并沒有被統計,因此主要問題沒有發現。相反,機翼受損還能飛回來,只能說明機翼被攻擊部分本身的影響并不大。“統計學家 Wald 建議統計飛機上彈孔(槍眼)的位置,有了足夠的樣本后,然后在沒有槍眼的部位加強防護,因為這些部位被擊中的飛機都沒有返航,最后效果很好”(參考第三樓發言補充)。這個統計結果是不可信的,至少不是最重要的因素。
五、統計現象可能是濫用的
根據數學中的大數定律,樣本數量和范圍需要超過一定程度才能得到有價值的統計規律,樣本的數量和范圍取決于模型本身的復雜度。可是在現實中,即便是在很嚴格的科學研究領域,統計被濫用的現象處處存在。大多數情況下可能是如下景象,一個科研人員或者工作人員,得到了一批樣本,根據自己的模型或者理論假設進行簡單的統計分析,不管是定量的還是定性的,得到一個結果,于是結論就出爐了,甚至發表在了影響因子很高的雜志上。可是就我多年來參加過的答辯會或者成果介紹的過程來看,相當數量的結果是不可靠的,甚至沒有參考價值,因為那些樣本數量少的可憐。比如,對于一個復雜現象,就用幾十個樣本做一個復雜的結論,這就充滿了風險,沒有檢驗過程,沒有驗證過程,這些結果可能會大大誤導我們對于自然的認識。另外,在統計結果分析的過程中,人為的選擇樣本,人為的改造樣本,這些例子已經屢見不鮮。
根據上述觀察,即便我們進入了大數據時代,意識到數據對于決策的重要性,這是好事,但是如果不能意識到數據本身帶來的種種問題,那就無從談起如何使用。即便是統計結果有一定的參考價值,我們也不能一味的迎合這些所謂的習慣和趨勢,因為這些習慣和趨勢可能將我們引入一個不可持續的發展過程。從國家層面鼓勵科學使用大數據結果的研究是非常必要的。個人或者商業團體往往會傾向于自我或者本組織的利益,不大會真正從社會總成本和總的發展健康度角度看問題。這些負面影響的研究是一種公益事業,只能是政府牽頭來主導,并且有意識的引導這種現象。對于一些沒有經過科學驗證的統計結果進行甄別和檢驗。但當我們看到一種規律或者現象,我們能夠科學的判斷這種規律是否為病態的,還是暫時的,還是局部的,還是被曲解的,還是被濫用的結果,是非常必要的。在當前迎合為主的情況下,不會有好的結果,在大多數情況下,統計結果可能給我們帶來的不是商業機會,而是危險的前兆。誤導性的統計結果甚至會引起不必要的社會心理暗示,從而產生嚴重的社會大眾效果。也許大數據統計分析的第三方檢驗會是未來的一個很重要的商業機會。