數(shù)據(jù)分析是一個(gè)在外人看來(lái)具有無(wú)限吸引力的職業(yè),它能從無(wú)序和非理性的世界中提取有序和理性,將混亂梳理成絲絲線索。當(dāng)預(yù)想的結(jié)果躍然屏上時(shí),數(shù)據(jù)分析師會(huì)有一種極大的滿足感和成就感,滿足感和成就感驅(qū)使他們把分析手段和方法形成一種良好的相對(duì)固定的經(jīng)驗(yàn)?zāi)J剑萍暗狡渌缸拥姆治鲋腥ァ?/p>
好的分析手段不是唯一手段,好的分析手段并不會(huì)在所有的案子中都能達(dá)到理想的效果,就像一個(gè)非常優(yōu)秀的小伙,并不一定和所有姑娘都合適,很多時(shí)候得到的可能就只是一句“你是個(gè)好人”。
同樣的,通往理想結(jié)果的分析方法很多,但是有時(shí)候很多不可控的原因束縛著數(shù)據(jù)分析師的手腳,讓他們沒(méi)有辦法從最佳途徑走向成功的結(jié)果——也許是數(shù)據(jù)訪問(wèn)權(quán)限不足,也許是數(shù)據(jù)格式不正確,也許是數(shù)據(jù)缺失嚴(yán)重。但是除了這些外在的因素之外,數(shù)據(jù)分析師還需要處處提防自己給自己布下的的陷阱,這些陷阱會(huì)讓他們付出極大的代價(jià)。
在數(shù)據(jù)分析師的工作過(guò)程中,很多人會(huì)因?yàn)楣餐?個(gè)內(nèi)因栽跟頭,我們把這些內(nèi)因歸結(jié)為7個(gè)致命原罪。這些原罪可能會(huì)導(dǎo)致很嚴(yán)重的后果,而且你能看到不斷地有分析師掉到這些陷阱里。希望本篇文章能幫助分析師看清前方的路,更好地駕馭數(shù)據(jù)。
貪心
當(dāng)推著購(gòu)物車沖進(jìn)超市后,你一股腦把自己想要的東西扔進(jìn)購(gòu)物車?yán)铮诮Y(jié)賬前,你會(huì)重新查看一下你選購(gòu)的東西,在后面排隊(duì)的大媽的催促聲中把那些不需要的東西揀出來(lái)。在數(shù)據(jù)分析中,人們也很難控制這種貪欲。我們的大腦,或者是老板,高喊著“再多一點(diǎn),再多一點(diǎn)!”好像簡(jiǎn)單地收集最大的數(shù)據(jù)集就能達(dá)到最好的效果。但是,也許在大數(shù)據(jù)里將“大”視為重點(diǎn)可能獲得更多的潛在結(jié)果和啟示,但數(shù)據(jù)庫(kù)本身的大小并不會(huì)決定最終的分析結(jié)果。
盡管有時(shí)候能從漫無(wú)目的的收集來(lái)的數(shù)據(jù)集中得出有用的見(jiàn)解,但這些見(jiàn)解大部分時(shí)候只是起到錦上添花的作用,在有既定目標(biāo)的數(shù)據(jù)采集中,還是要保持克制。
膨脹
說(shuō)到貪心和膨脹,有時(shí)會(huì)混淆,但是,貪婪更多地是指獲得更多的“東西”,而膨脹更多地指自身過(guò)度的、超出范圍的擴(kuò)張。
在創(chuàng)建分析模型時(shí),適用于分析目標(biāo)、在自己的專業(yè)領(lǐng)域是最常規(guī)的做法。然而,當(dāng)你開(kāi)始超越這些邊界,試圖涵蓋更大的范圍或者那些與你的分析需求不一致的東西時(shí),這些無(wú)關(guān)緊要的工作可能導(dǎo)致項(xiàng)目過(guò)于復(fù)雜而導(dǎo)致分析錯(cuò)誤,而如果這涵蓋了你不擅長(zhǎng)的領(lǐng)域,可能會(huì)得出完全相反的結(jié)果。
防止這種膨脹的唯一方法是始終把你的模型控制在你的業(yè)務(wù)范圍和專業(yè)范圍之內(nèi),縱然模型肯定需要不時(shí)地進(jìn)行調(diào)整,但這種調(diào)整應(yīng)該是仔細(xì)權(quán)衡后的結(jié)果,而不是盲目地?cái)U(kuò)大范圍。
冒進(jìn)
預(yù)測(cè)樣本外數(shù)據(jù)是開(kāi)發(fā)任何類型的預(yù)測(cè)模型的關(guān)鍵組成部分,它可以幫助發(fā)現(xiàn)初始數(shù)據(jù)集中的潛在偏差,合理地進(jìn)行樣本外數(shù)據(jù)的測(cè)試可以驗(yàn)證你的分析模型,至少可以給你提供有用的信息來(lái)幫助你對(duì)模型進(jìn)行調(diào)整,這一步不可或缺。
好事多磨,然而很多分析師往往缺乏足夠的耐心。了解樣本外數(shù)據(jù)的限制與了解樣本內(nèi)數(shù)據(jù)的限制一樣重要。強(qiáng)化模型要利用模型對(duì)已有的樣本進(jìn)行預(yù)測(cè),與樣本數(shù)據(jù)進(jìn)行比較,也需要利用模型對(duì)樣本外數(shù)據(jù)進(jìn)行預(yù)測(cè),驗(yàn)證模型。隨著數(shù)據(jù)集的擴(kuò)大,不僅需要重新調(diào)整模型,而且需要重新確定用于創(chuàng)建模型并進(jìn)行測(cè)試的樣本數(shù)據(jù),這些工作不可能一蹴而就。
懶惰
懶惰這個(gè)原因聽(tīng)起來(lái)似乎很簡(jiǎn)單,但它是最不容易避免的。
在數(shù)據(jù)分析中,懶惰或者草率體現(xiàn)在多個(gè)方面。它可以體現(xiàn)在設(shè)計(jì)階段的開(kāi)端,數(shù)據(jù)點(diǎn)考慮不完全,或者沒(méi)有完全了解不同類型數(shù)據(jù)之間的關(guān)系,它體現(xiàn)在允許在數(shù)據(jù)收集階段收集不完整或不合格的數(shù)據(jù),當(dāng)然也可以表現(xiàn)在建立模型時(shí)的偷工減料或不能全面地考慮異常和異常值出現(xiàn)的原因。
很多人都知道亡羊補(bǔ)牢這個(gè)成語(yǔ),但它做起來(lái)就是這么難,往往當(dāng)千里之堤被蟻穴侵蝕到將要垮塌的時(shí)候,很多人才知道之前的一點(diǎn)點(diǎn)懶惰總是會(huì)付出代價(jià)的。
憤怒
永遠(yuǎn)也不要讓情緒左右你的工作,否則所有的分析都會(huì)失敗。
數(shù)據(jù)并不會(huì)照顧你的情緒,你怒或不怒,數(shù)據(jù)就在那里,不增不減。如果你對(duì)你暫時(shí)的失敗感到憤怒,唯一能傷害到的就是你自己,同時(shí)你也正在損害傷害那些和你合作的人——你的客戶、同事、商業(yè)伙伴等。
當(dāng)在分析中遭遇失敗時(shí),最好的做法是接受它,然后弄清楚下一次如何確保得到正確的結(jié)果,專注于解決問(wèn)題。要知道,數(shù)據(jù)分析的過(guò)程就是一個(gè)不斷發(fā)現(xiàn)自己的錯(cuò)誤的過(guò)程,您會(huì)遇到各種各樣的問(wèn)題,同時(shí)你也得到了很多認(rèn)識(shí)錯(cuò)誤和修正錯(cuò)誤的機(jī)會(huì)。
數(shù)據(jù)分析模型需要隨著時(shí)間的推移逐步改進(jìn),它永遠(yuǎn)不會(huì)是完美的,這也意味著你將永遠(yuǎn)有一個(gè)新的困難要面對(duì),如果你可以馬上想出所有的東西,這樣的工作豈不是很無(wú)聊很沒(méi)有挑戰(zhàn)性?
盲從
建立一個(gè)全新的模型,提出一種看待世界的新方式,很難,這需要你改變自己的觀點(diǎn),并以你自己甚至所有人都從未見(jiàn)過(guò)的方式去審視數(shù)據(jù)。在現(xiàn)實(shí)里,由于別人已經(jīng)建立了一個(gè)相對(duì)優(yōu)秀的模型,參考別人的模型來(lái)建立自己的模型就成了很多分析師的首選。
第一個(gè)新產(chǎn)品具有真正的優(yōu)勢(shì),其后出現(xiàn)的同類產(chǎn)品就黯然失色了。如果別人的模型真的非常出色,那么你做一個(gè)類似的模型,當(dāng)你達(dá)到他們現(xiàn)在的位置時(shí),他們已經(jīng)跑遠(yuǎn)了。這樣不斷跟跑的結(jié)果就是你永遠(yuǎn)無(wú)法超越。
數(shù)據(jù)分析是創(chuàng)新的科學(xué),它需要不斷尋找別人沒(méi)有探索的路徑,然后通過(guò)測(cè)試去驗(yàn)證。如果意外地成功了,就總結(jié)成功的經(jīng)驗(yàn),如果不出意外地失敗了,就吸取失敗的教訓(xùn),當(dāng)你建立一個(gè)全新的模型時(shí),你就會(huì)成為別人追逐和模仿的目標(biāo)。
自滿
市場(chǎng)永遠(yuǎn)比你更了解市場(chǎng),忘記這個(gè)真理就意味著處在危險(xiǎn)的邊緣。
毛主席曾經(jīng)說(shuō)過(guò):虛心使人進(jìn)步,驕傲使人落后。這句話同樣適用于數(shù)據(jù)分析領(lǐng)域。如果你認(rèn)為自己不可阻擋,自己的分析無(wú)懈可擊,那么你遲早會(huì)被打臉,可能是被對(duì)手,葉可能是被現(xiàn)實(shí)。
分析數(shù)據(jù)需要謙卑的姿態(tài)。如果你在數(shù)據(jù)分析中總是抱著極大的自信,你很有可能會(huì)被分析結(jié)果打臉。數(shù)據(jù)分析永遠(yuǎn)是數(shù)據(jù)引導(dǎo)結(jié)果,如果你試圖控制數(shù)據(jù)分析的結(jié)果,那它一定會(huì)以你意想不到的結(jié)果教訓(xùn)你。
每個(gè)數(shù)據(jù)分析師都逃脫不了這7個(gè)致命原罪的誘惑,這些“禁果”潛藏在所有的分析過(guò)程中,,誘惑你、誤導(dǎo)你、吞噬你。希望你能通過(guò)了解這些原罪的跡象,準(zhǔn)確地捕捉到它們出現(xiàn)的跡象,最終避免掉入它們的陷阱。