有了大數據,我們直接從數據里面就得出來很多奇妙的結論。例如@楊宣 指出的,在「不通過」這個分類之下,qq 郵箱是概率排名前五的強特征。這就是「大數據時代」(或者其它各種各樣類型的「實證研究」)為我們解決的一個問題——至少 HR 們篩掉 qq 郵箱在統計的意義上是有些理性依據的。
但是是不是有什么東西被我們錯過了呢?
今年暑假的某一天,我聽一個我很尊重的老師批評了目前在做復雜系統有關問題時,主要基于統計的那些研究者,他們做出來的一些東西。我們都知道現在做這些問題的研究者可以發表很多很好的文章,但是這些文章缺少了某些東西。
以往,如果我寫了一篇論文,發現某個結論,并且在文中提出得出這個結論可能的一個原因,甚至提出來一個數學模型,這個模型可以解釋我從數據分析中得到的那個結論。要是把我寫的這篇文章投稿到比較好的期刊,審稿人必然會提意見——你提出了一種產生這個結論的原因,可是你怎樣排除掉其它的原因呢?如果你不能排除掉其它的因素的影響,那我們很遺憾只能拒絕掉你的文章了。
在大數據時代,審稿人們還能以此為理由拒絕掉別人的文章嗎?這些數據這么珍貴,甚至有的是從運營商、航空公司、網站和志愿者處花費了金錢和時間才得到的,提出這樣的一個解釋就已經很好了……可是我們很可能會距離理解各種問題越來越遠。在大數據時代,通過各種統計的方法,我們可以得到許多有意思的結論,但是這些結論不能讓我們心安。
就像「用 qq 郵箱的求職者很可能有著較低的簡歷質量」也可能會是一個從大數據分析得到的結果,可是我們不會知道為什么會這樣。公開這些結論,甚至可能招致他人的批評。每個人可能有不同的看法,也會自己提出對這個問題的解釋,即每個人都會對這個結論提出自己的「模型」,并把自己的「模型」跟這個結論等價起來。如果「模型」不能排除其它因素的影響,那么你可以提出你的理論來解釋這個問題,而我也可以提出我的模型來解釋這個結論,我們最終會無法說服他人。遺憾的是,正因為我們的結論來自大數據,很多時候我們很難再找出「對照實驗」的那些數據了,雜志社沒有辦法說「如果你能排除掉其它的因素的影響,我們就發表你的文章」。我們很可能會距離「為什么」越來越遠。
一個好的數學模型具備以下三點:
1. 描述性;
2. 預測性;
3. 說明性。
具體地說就是,一個好的數學模型能描述建?;诘南到y,并且對其做出預測,同時能解釋為什么這么建模以及建模得出的結論。
針對以上三點,我們來看看數據和模型的區別。首先數據可以說是具有描述性,但僅是局部描述性,除非給出的數據能遍歷每一種情況,而數學模型則具有全局描述性。其次,數據的預測性表現在可以通過數據建立模型,來給出預測結果。最后,好的數學模型能明確解釋數據的走向,但光看數據你只能知道數據是怎么變化的,但不知道為什么這么變。
在我看來,建模和數據是相輔相成的,針對一個問題,建模是將其抽象到純數學層面以尋求普適的解決方法與結論,數據是用來驗證建模的結論,或者是輔助求解模型的(比如有些固定參數需要通過具體的實驗或者觀測數據來確定)。當然,只有用在好模型上,數據才會顯得有意義。
最后,如果數學建模真的因為大數據而沒用了,那也不會有那么多應用數學家還在探討關于數學建模的問題了。
而如果把「大數據」和「數學模型」對立起來,則這里所說的「模型」便是另一碼事了。這里的「模型」與「機制」「假設」「簡化」等等更接近。有了「模型」,我們就可以從「純粹理性」而非「實踐理性」的高度讓你心安。就像每個 HR 都可以提出無數個討厭 qq 郵箱求職者的理由,只可惜,這些模型都是你個人的角度,大家攻擊起來實在容易。我們或許會越來越難摒棄掉這些偏見,因為沒有一個可以讓大家都相信的「理論」(或者「模型」)。我們只知道結論。
這時候,如果你是天才的建模者,提出一個能被大家公認的模型,并排除掉其它也可能造成這一現象的干擾因素,那就是真正的大神了。我比較悲觀,因為我自己也會在實用的結論面前滿足。