在我研究生階段的統(tǒng)計(jì)學(xué)學(xué)習(xí)中,最重要的收獲并不是一些具體的統(tǒng)計(jì)測(cè)試或者取樣分析,而是一些不太正式的知識(shí)。這些知識(shí)在工作或者僅僅是娛樂的分析問題的時(shí)候給我?guī)Я朔浅V匾膸椭?/p>
一、注意細(xì)節(jié)
在大多數(shù)時(shí)候,這些細(xì)小的信息并不會(huì)對(duì)數(shù)據(jù)分析的結(jié)果產(chǎn)生重要的影響。一次課堂上,我的教授給我們用投影展示了一張圖表,那是一張散點(diǎn)圖并伴有一條流暢的適配線條。他問我們看到了什么。顯然,在開始這里有一個(gè)上升的趨勢(shì)。中間有一定下降,接下來又有一定反彈。但是我忽略了最開始的那個(gè)小波動(dòng),這就是我們不足的地方。
所以這里的關(guān)鍵就是:模式和趨勢(shì)是重要的,但是那些離群值、缺失點(diǎn)和一些異常也同樣重要。
二、看到全局
當(dāng)然,在一個(gè)大數(shù)據(jù)集中抓住獨(dú)立的數(shù)據(jù)點(diǎn)或者細(xì)節(jié)不放也是不合適的。大局觀會(huì)讓你看到數(shù)據(jù)的整體趨勢(shì),它會(huì)幫助你分析甚至預(yù)測(cè)數(shù)據(jù)的變化。
三、不要有預(yù)判
要盡可能客觀的觀察數(shù)據(jù),當(dāng)然這并不是說在看到一組數(shù)據(jù)之前一點(diǎn)期待也沒有,但是不要讓自己最初的預(yù)判影響了觀察的結(jié)果。因?yàn)槿绻阋婚_始就試圖尋找一些模式,那你可能會(huì)陷入這種模式中而犧牲掉準(zhǔn)確的結(jié)果。
四、看到數(shù)據(jù)之外的東西
上下文,上下文和上下文,重要的事情要說三遍。這些關(guān)系有時(shí)可能來自于元數(shù)據(jù)中,有時(shí)可能來自于其他的數(shù)據(jù)集。
你需要更多的了解這個(gè)數(shù)據(jù)是如何被收集的,它從哪里來,如何發(fā)生,還有它發(fā)生在什么時(shí)候。獲得更多的信息你對(duì)于結(jié)果就會(huì)更有自信。
保持懷疑
最后,這是我重要的收獲:始終保持懷疑。當(dāng)你看到一個(gè)圖中的異常時(shí),你應(yīng)該好奇它為什么會(huì)出現(xiàn)在那里;如果你發(fā)現(xiàn)了一些相關(guān)關(guān)系,你應(yīng)該思考它是否有一些意義。如果這些發(fā)現(xiàn)有意義,那很好,如果沒有那就需要繼續(xù)深入去發(fā)現(xiàn)。
數(shù)字包含著大量的信息,但需要記住的是,當(dāng)人參與到數(shù)據(jù)當(dāng)時(shí),錯(cuò)誤幾乎是不可避免的。