數(shù)據(jù)科學家使用統(tǒng)計分析工具深度挖掘數(shù)據(jù)潛在的內容時經常會遭遇到大數(shù)據(jù)挖的坑,實際上這些坑并不是只有大數(shù)據(jù)才有,大自然本身就存在很多虛假的相關性,大數(shù)據(jù)只是更加劇了這種虛假的相關性。
隨著數(shù)據(jù)來源的增多和預測類型的多樣化,數(shù)據(jù)建模關系的數(shù)量開始接近無窮大。正如David G. Young指出的那樣,在預測分析的時候,我們要看到相互作用,變化的曲率、意義,有時甚至要看到變化的標志。
在做數(shù)據(jù)建模的相關性分析時,最關鍵的是找對數(shù)據(jù)范圍,尤其是設置合適的變量和算法。一旦你找到了變量和算法的正確組合,那么你就掌握了正確打開相關性分析的密鑰。
有時候,我們會發(fā)現(xiàn)數(shù)據(jù)建模的相關性可能和實際情況并不相符,它只是你自以為正確的數(shù)據(jù)模型。即使你本身并沒有欺騙的意圖,也是按照科學的方法來建模的,但是你的數(shù)據(jù)模型并不一定能幫助你獲得數(shù)據(jù)背后的真正洞察力。
認知偏差是每一個人都會犯的錯誤,即使你是一個非常優(yōu)秀的數(shù)據(jù)科學家也不能百分百確保不犯數(shù)學和邏輯上的錯誤、正確的挖掘出數(shù)據(jù)背后的價值。
諾貝爾經濟學獎獲得者丹尼爾·卡納曼在他的著作《思維說,快與慢》中表示:人類如果沒有接受教育,那么每個人都是生而不同的。我們可能無法看透數(shù)據(jù)統(tǒng)計的深層次內容,但是現(xiàn)實世界確實存在著某種規(guī)律,這種規(guī)律有時難以捉摸,但有時我們只憑直覺就可以找到。
如果你是一個正在探索數(shù)據(jù)驅動的數(shù)據(jù)科學家,那么你就要注意虛假相關性,它將會是一個非常危險的陷阱。這種虛假相關性產生的原因可能是數(shù)據(jù)科學家太想要驗證某個假設,也可能是迫于企業(yè)的商業(yè)模式的要求。利用這種虛假相關性建立的數(shù)據(jù)模型也許能夠解決一時的問題,但是它本質還是一個劣質的模型,經不起時間的考驗,說不定會在哪個瞬間給你致命的一擊。
那么數(shù)據(jù)科學家如何才能減少在數(shù)據(jù)挖掘時無意中做出虛假統(tǒng)計相關性的概率。
集成學習
集成學習是使用一系列學習器進行學習,并使用某種規(guī)則把各個學習結果進行整合從而獲得比單個學習器更好的學習效果的一種機器學習方法。這種方法的難點在于要在不同的樣本中進行訓練,采用不同的算法,但是這種方法能夠有效的揭示一些相關性。集成學習的算法是通過獨立模型的結果集的訓練、取平均、bagging、boosting等多種方法得到的,能夠有效減少各層模型之間的差異。
A/B測試
A/B測試其實是一種“先驗”的實驗體系,屬于預測型結論,與“后驗”的歸納性結論差別巨大。A/B測試顧名思義就是為同一個目標設計A、B兩套方案,其中一個為守擂者,一個為攻擊者,通過科學的實驗設計、真實的數(shù)據(jù)監(jiān)測來選出最具預測價值的方案。
穩(wěn)健模型
這種方法涉及到數(shù)據(jù)建模的方方面面,為了確保預測是穩(wěn)定的,我們要多方考慮,比如數(shù)據(jù)源、采樣技術、算法方法、時間等等。此外,離散點分析也是非常重要的,Vincent Granville前幾年就已經表示數(shù)據(jù)集的異常有可能掩蓋數(shù)據(jù)的真正模式,增加虛假相關性的發(fā)生率。
“數(shù)據(jù)驅動決策”已經成為這個時代的潮流,好的決策應該是數(shù)據(jù)驅動的,所以數(shù)據(jù)模型的建立就顯得尤為重要。如果你是一個數(shù)據(jù)科學家,希望以上的方法能夠對你建模有所幫助。
原文出處:http://www.infoworld.com/article/3109497/analytics/know-when-your-big-data-is-telling-big-lies.html