大數據的概念這兩年非常火,對它的解讀也是見仁見智。其實不管大數據也好,還是數據挖掘,或者機器智能,都只是個名詞,代表了最先進的計算機數據存儲和分析算法。它們的核心都是通過在看似變化莫測的數據中尋找規律來幫助解決實際問題,尤其是對未來的一些精準到個體的預測。比如如何最有效的尋找新客戶,提高對現有客戶的交叉銷售以及防止客戶流失,都是大數據的具有普遍性的典型應用。具體到銀行業,就涉及到信用審批,額度確定,以及反欺詐等專業的應用。
我所就職的美國運通公司是全球知名的信用卡企業,道瓊斯三十種工業股票之一。大數據技術被廣泛應用于公司的各個部門,取得了令人矚目的效果。公司的客戶群信用非常好,壞賬率只有1-2%,遠遠低于同行業中的其他企業。反欺詐也做得相當成功,在每年八千億美元的刷卡量中僅造成一個億左右的損失,占總量的約0.02%。此外公司通過細致分析持卡人的消費記錄,并結合移動互聯網,實時向用戶推薦商家信息,進一步增加了公司的營收和客戶忠誠度。
要做到這些好的業績,僅靠個人經驗和一些簡單的規定是遠遠不夠的,而必須依靠專業人員采用最先進和有效的數據挖掘算法。下面我就談談其中一些最主要的方法,希望對國內的同行能有所借鑒。
回歸分析是數據挖掘中最常見和基本的算法,包括簡單線性回歸,邏輯回歸以及其他的廣義線性或非線性模型。它們在過去雖然被廣泛使用,但存在明顯的不足,尤其是變量的相互依存性會使結果發生偏差。為避免這些問題,近些年來美國銀行業大量采用了樹形算法家族。這其中包括決策樹,聚類和回歸樹,以及較為復雜的隨機森林模型。這些方法避免了變量間的相互依存性問題,而且預測分析能力也逐步增強。不過隨機森林模型的復雜性使得結果有時不容易理解,新近出現的梯度遞增樹算法,在預測能力和可理解性方面都強于隨機森林,而且適用的范圍廣,在反欺詐和其他一些領域被證明效果非常好,很值得業內人士關注。
除了樹形算法以外,關聯分析和序列分析也是最近比較熱門的算法。關聯分析的核心是尋找與一個客戶相關的其他人,通過他們的行為來預測這個客戶。序列分析則是通過跟蹤一個客戶在一段時間內的多個行為來尋找規律,判斷他下一步可能的動作。這些算法雖然概念易懂,實際操作起來并不那么簡單,需要相當一段時間的實踐摸索。如果模型建得好,往往可以有事半功倍的效果。其他的著名算法還很多,比如支持向量模型,深度神經網絡等等,這里就不再一一而足了。
算法這么多,自然就存在如何選擇的問題,或者也可以同時使用多個算法,然后讓他們投票決定結果,這種思路最近也很流行,稱為綜合模型算法。另外如何選擇變量和進行變換,如何驗證模型的正確性,和如何及時更新以防模型失效也都很有講究,必須每一步都認真仔細進行才能產生令人滿意的結果。