無(wú)論在報(bào)紙、雜志、機(jī)場(chǎng)媒體,還是在酒吧的閑談中,大數(shù)據(jù)都成了一個(gè)熱門(mén)話題。每個(gè)人都在談?wù)撨@個(gè)時(shí)尚的話題,但迄今為止只有極少數(shù)企業(yè)真正成功的運(yùn)用這一技術(shù)!導(dǎo)致這一情況的重要原因就是企業(yè)對(duì)建立可操作的大數(shù)據(jù)分析模型成功關(guān)鍵因素缺乏深刻的認(rèn)識(shí)。結(jié)合多年來(lái)與多家全球性公司合作經(jīng)驗(yàn),我們認(rèn)為:為了取得成功,大數(shù)據(jù)分析模型需要滿足如下幾種要求:
(1)業(yè)務(wù)相關(guān)性。業(yè)務(wù)相關(guān)性是對(duì)分析模型的第一個(gè)關(guān)鍵要求。分析模型必須能夠解決特定的商業(yè)問(wèn)題。那些性能優(yōu)越,卻不能解決商業(yè)問(wèn)題的模型是毫無(wú)意義的。顯然,在模型開(kāi)發(fā)前,對(duì)商業(yè)背景和業(yè)務(wù)問(wèn)題有全面的理解必不可少。例如,在保險(xiǎn)欺詐檢測(cè)問(wèn)題中,必須在一開(kāi)始對(duì)如何定義、衡量和管理欺詐有清晰的界定。
(2)統(tǒng)計(jì)性能。影響模型成功的另一個(gè)重要關(guān)鍵因素是模型性能表現(xiàn)。換句話說(shuō),從統(tǒng)計(jì)意義的角度,分析模型應(yīng)該顯著提高預(yù)測(cè)或描述的性能。根據(jù)分析問(wèn)題的類(lèi)型不同,常常采用不同類(lèi)型的性能評(píng)價(jià)指標(biāo)。在客戶細(xì)分,統(tǒng)計(jì)評(píng)價(jià)指標(biāo)主要評(píng)價(jià)對(duì)比簇內(nèi)的相似性與簇間的差異性;在客戶流失預(yù)測(cè)中,主要評(píng)價(jià)模型是否賦予了潛在流失客戶的較高得分。
(3)解釋性和合理性。解釋性是指分析模型容易為決策者所理解,合理性是指模型與專(zhuān)家的預(yù)期和業(yè)務(wù)知識(shí)相一致。解釋能力和合理性都是主觀判斷,取決于決策者的知識(shí)和經(jīng)驗(yàn)。這兩個(gè)因素與統(tǒng)計(jì)性能分析之間常常是矛盾的,譬如:復(fù)雜神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林模型預(yù)測(cè)性能較好,但是解釋性較差。所以,決策者需要在兩者之間尋找平衡點(diǎn)。在信用風(fēng)險(xiǎn)分析等應(yīng)用場(chǎng)景中,解釋性和合理性是非常重要的因素,而在欺詐檢測(cè)和營(yíng)銷(xiāo)響應(yīng)建模中,這一因素就不是那么重要了。
(4)運(yùn)行效率。運(yùn)行效率涉及模型評(píng)估、監(jiān)測(cè)、檢驗(yàn)及重建過(guò)程中所需投入的時(shí)間。從這個(gè)因素來(lái)看,很明顯的神經(jīng)網(wǎng)絡(luò)或隨機(jī)森林效率較低,而回歸模型和決策樹(shù)等更有效率。在信用卡欺詐檢測(cè)等業(yè)務(wù)場(chǎng)景中,運(yùn)行效率是非常重要的,因?yàn)樗械臎Q策必須在信用卡交易開(kāi)始后幾秒鐘內(nèi)完成。
(5)經(jīng)濟(jì)成本。經(jīng)濟(jì)成本是收集模型所需數(shù)據(jù)、運(yùn)行模型以及分析模型結(jié)果的過(guò)程中所投入的成本,此外還包括引入外部數(shù)據(jù)和模型的成本。在分析模型的經(jīng)濟(jì)回報(bào)時(shí),所有的這些成本都必須考慮在內(nèi),通常不是能簡(jiǎn)單直接計(jì)算出來(lái)的。
(6)合規(guī)性。在很多行業(yè)中,合規(guī)性變得越來(lái)越重要。合規(guī)性是指模型對(duì)現(xiàn)有制度和法律的遵從程度。在信用風(fēng)險(xiǎn)領(lǐng)域,分析模型符合巴塞爾協(xié)議II和III的規(guī)定尤其重要。而在保險(xiǎn)行業(yè)中,模型則必須遵從歐盟償付能力協(xié)議(Solvency II) 。
總結(jié)以上,在本博客文章中,我們簡(jiǎn)要論述了成功構(gòu)建數(shù)據(jù)分析模型的關(guān)鍵因素。如我們所指出的那樣,每個(gè)因素的重要性取決于模型應(yīng)用場(chǎng)景。