無論在報紙、雜志、機場媒體,還是在酒吧的閑談中,大數(shù)據(jù)都成了一個熱門話題。每個人都在談論這個時尚的話題,但迄今為止只有極少數(shù)企業(yè)真正成功的運用這一技術!導致這一情況的重要原因就是企業(yè)對建立可操作的大數(shù)據(jù)分析模型成功關鍵因素缺乏深刻的認識。結合多年來與多家全球性公司合作經(jīng)驗,我們認為:為了取得成功,大數(shù)據(jù)分析模型需要滿足如下幾種要求:
(1)業(yè)務相關性。業(yè)務相關性是對分析模型的第一個關鍵要求。分析模型必須能夠解決特定的商業(yè)問題。那些性能優(yōu)越,卻不能解決商業(yè)問題的模型是毫無意義的。顯然,在模型開發(fā)前,對商業(yè)背景和業(yè)務問題有全面的理解必不可少。例如,在保險欺詐檢測問題中,必須在一開始對如何定義、衡量和管理欺詐有清晰的界定。
(2)統(tǒng)計性能。影響模型成功的另一個重要關鍵因素是模型性能表現(xiàn)。換句話說,從統(tǒng)計意義的角度,分析模型應該顯著提高預測或描述的性能。根據(jù)分析問題的類型不同,常常采用不同類型的性能評價指標。在客戶細分,統(tǒng)計評價指標主要評價對比簇內的相似性與簇間的差異性;在客戶流失預測中,主要評價模型是否賦予了潛在流失客戶的較高得分。
(3)解釋性和合理性。解釋性是指分析模型容易為決策者所理解,合理性是指模型與專家的預期和業(yè)務知識相一致。解釋能力和合理性都是主觀判斷,取決于決策者的知識和經(jīng)驗。這兩個因素與統(tǒng)計性能分析之間常常是矛盾的,譬如:復雜神經(jīng)網(wǎng)絡和隨機森林模型預測性能較好,但是解釋性較差。所以,決策者需要在兩者之間尋找平衡點。在信用風險分析等應用場景中,解釋性和合理性是非常重要的因素,而在欺詐檢測和營銷響應建模中,這一因素就不是那么重要了。
(4)運行效率。運行效率涉及模型評估、監(jiān)測、檢驗及重建過程中所需投入的時間。從這個因素來看,很明顯的神經(jīng)網(wǎng)絡或隨機森林效率較低,而回歸模型和決策樹等更有效率。在信用卡欺詐檢測等業(yè)務場景中,運行效率是非常重要的,因為所有的決策必須在信用卡交易開始后幾秒鐘內完成。
(5)經(jīng)濟成本。經(jīng)濟成本是收集模型所需數(shù)據(jù)、運行模型以及分析模型結果的過程中所投入的成本,此外還包括引入外部數(shù)據(jù)和模型的成本。在分析模型的經(jīng)濟回報時,所有的這些成本都必須考慮在內,通常不是能簡單直接計算出來的。
(6)合規(guī)性。在很多行業(yè)中,合規(guī)性變得越來越重要。合規(guī)性是指模型對現(xiàn)有制度和法律的遵從程度。在信用風險領域,分析模型符合巴塞爾協(xié)議II和III的規(guī)定尤其重要。而在保險行業(yè)中,模型則必須遵從歐盟償付能力協(xié)議(Solvency II) 。
總結以上,在本博客文章中,我們簡要論述了成功構建數(shù)據(jù)分析模型的關鍵因素。如我們所指出的那樣,每個因素的重要性取決于模型應用場景。