久久精品国产精品亚洲婷婷,亚洲午夜日韩高清一区,日韩成人在线免费视频

大數據時代下數學建模還有作用嗎？

責任編輯：editor005

作者：傅渥成

2015-01-30 13:53:35

摘自：知乎

有了大數據，我們直接從數據里面就得出來很多奇妙的結論。具體地說就是，一個好的數學模型能描述建?；诘南到y，并且對其做出預測，同時能解釋為什么這么建模以及建模得出的結論。

數據模型

有了大數據，我們直接從數據里面就得出來很多奇妙的結論。例如@楊宣指出的，在「不通過」這個分類之下，qq 郵箱是概率排名前五的強特征。這就是「大數據時代」(或者其它各種各樣類型的「實證研究」)為我們解決的一個問題——至少 HR 們篩掉 qq 郵箱在統計的意義上是有些理性依據的。

但是是不是有什么東西被我們錯過了呢?

今年暑假的某一天，我聽一個我很尊重的老師批評了目前在做復雜系統有關問題時，主要基于統計的那些研究者，他們做出來的一些東西。我們都知道現在做這些問題的研究者可以發表很多很好的文章，但是這些文章缺少了某些東西。

以往，如果我寫了一篇論文，發現某個結論，并且在文中提出得出這個結論可能的一個原因，甚至提出來一個數學模型，這個模型可以解釋我從數據分析中得到的那個結論。要是把我寫的這篇文章投稿到比較好的期刊，審稿人必然會提意見——你提出了一種產生這個結論的原因，可是你怎樣排除掉其它的原因呢?如果你不能排除掉其它的因素的影響，那我們很遺憾只能拒絕掉你的文章了。

在大數據時代，審稿人們還能以此為理由拒絕掉別人的文章嗎?這些數據這么珍貴，甚至有的是從運營商、航空公司、網站和志愿者處花費了金錢和時間才得到的，提出這樣的一個解釋就已經很好了……可是我們很可能會距離理解各種問題越來越遠。在大數據時代，通過各種統計的方法，我們可以得到許多有意思的結論，但是這些結論不能讓我們心安。

就像「用 qq 郵箱的求職者很可能有著較低的簡歷質量」也可能會是一個從大數據分析得到的結果，可是我們不會知道為什么會這樣。公開這些結論，甚至可能招致他人的批評。每個人可能有不同的看法，也會自己提出對這個問題的解釋，即每個人都會對這個結論提出自己的「模型」，并把自己的「模型」跟這個結論等價起來。如果「模型」不能排除其它因素的影響，那么你可以提出你的理論來解釋這個問題，而我也可以提出我的模型來解釋這個結論，我們最終會無法說服他人。遺憾的是，正因為我們的結論來自大數據，很多時候我們很難再找出「對照實驗」的那些數據了，雜志社沒有辦法說「如果你能排除掉其它的因素的影響，我們就發表你的文章」。我們很可能會距離「為什么」越來越遠。

一個好的數學模型具備以下三點：

1. 描述性;

2. 預測性;

3. 說明性。

具體地說就是，一個好的數學模型能描述建?；诘南到y，并且對其做出預測，同時能解釋為什么這么建模以及建模得出的結論。

針對以上三點，我們來看看數據和模型的區別。首先數據可以說是具有描述性，但僅是局部描述性，除非給出的數據能遍歷每一種情況，而數學模型則具有全局描述性。其次，數據的預測性表現在可以通過數據建立模型，來給出預測結果。最后，好的數學模型能明確解釋數據的走向，但光看數據你只能知道數據是怎么變化的，但不知道為什么這么變。

在我看來，建模和數據是相輔相成的，針對一個問題，建模是將其抽象到純數學層面以尋求普適的解決方法與結論，數據是用來驗證建模的結論，或者是輔助求解模型的(比如有些固定參數需要通過具體的實驗或者觀測數據來確定)。當然，只有用在好模型上，數據才會顯得有意義。

最后，如果數學建模真的因為大數據而沒用了，那也不會有那么多應用數學家還在探討關于數學建模的問題了。

而如果把「大數據」和「數學模型」對立起來，則這里所說的「模型」便是另一碼事了。這里的「模型」與「機制」「假設」「簡化」等等更接近。有了「模型」，我們就可以從「純粹理性」而非「實踐理性」的高度讓你心安。就像每個 HR 都可以提出無數個討厭 qq 郵箱求職者的理由，只可惜，這些模型都是你個人的角度，大家攻擊起來實在容易。我們或許會越來越難摒棄掉這些偏見，因為沒有一個可以讓大家都相信的「理論」(或者「模型」)。我們只知道結論。

這時候，如果你是天才的建模者，提出一個能被大家公認的模型，并排除掉其它也可能造成這一現象的干擾因素，那就是真正的大神了。我比較悲觀，因為我自己也會在實用的結論面前滿足。

數學建模強特征