今年10月,我在羅敏的邀請下從美國回到了國內,在這之前,我一直都在美國的商業銀行Capital One工作。
在美國期間,我也在關注中國的消費金融市場。一方面,中國這幾年在Fintech領域的突破令全世界都嘆為觀止,對全球的金融機構來說,“中國Fintech”都是一個很好的研究樣本。另一方面,有很多我在美國的同事在近幾年陸陸續續的回國投身到了金融創新的大潮中,我們有一個微信群,也會經常在群里面交流,這也成了我了解中國金融現狀的另外一個通道。
在回國的這一個多月里,我跟我現在的同事有過很多的交流。這是一個很能打仗的團隊,他們在一年半的時間內已經基本上完成了將線下風控搬到線上的目標。
風控由線下轉到線上是一個大趨勢,對這一點我在之后的文章會探討。但線上大數據風控的搭建需要長期的完善過程,不論從我們個體還是整個行業來看,大數據風控都還有許多的坑需要我們去填。
第一個坑是具有中國特色的團伙欺詐難題。
目前國內的信用市場,反欺詐仍然是頭號難題,而授信將會被作為長期的目標逐步完善。當然,我提到中國特色反欺詐并不意味國外就沒有欺詐,只不過各地的犯罪分子會“因地制宜”的制定不同的欺詐策略使得欺詐更容易得手。
在Capital One的時候,我們會對欺詐進行分類,比如說有first-party fraud以及third-party fraud。
所謂的first-party fraud是指欺詐主體就是犯罪分子自己,沒有第三方受害者,犯罪分子會用虛假的信息來偽裝成好人然后獲取信用。在美國,曾經很常用的一種first-party fraud手段是虛假信息養號。
美國的銀行調用傳統征信機構數據時,如果能發現某個人的信用記錄,那就會默認這個人存在。犯罪分子會利用這一點,先制造多個假的名字和身份去申請信用貸款或成為主賬號的授權用戶,初期他們很可能會被拒絕,但這些假的身份信息已經被記錄在案,而且他的信用等級也有可能會隨著時間的推移而逐漸好轉。接下來,他可能會去申請一些小額的次級信貸,比如抵押300美元,獲得500美元的貸款,如果他表現良好,信用等級會進一步提高。在把賬號逐漸養肥了以后,這些犯罪分子會申請高額度的貸款然后跑路。
而third-party fraud是指犯罪分子將自己偽裝成別人來欺詐,也就是盜用別人的信用身份。在國外最猖獗的一種欺詐方式是交易欺詐,比如說信用卡盜用。國外的信用卡非常普及,犯罪分子可能會利用黑客技術去盜用信息復制卡片,然后刷卡跑路。這種詐騙的危險性很高,如果你不在交易當時就阻止他,之后就很難追回被欺詐的錢款。這種欺詐在國內也有過相關的記錄,但數量比較少。
中國特色的欺詐特點是有組織的黑產軍團,直接與商家短兵相接,一有不慎,商家就損失慘重。
針對first-party fraud,我們現在有比較完善的解決方案,主要是采用人臉動靜態識別,手機實名識別,筆跡識別等一系列的手段,讓你證明“你是你”,然后通過自有和第三方的詐騙黑名單,將一系列有詐騙嫌疑的用戶剔除。但有的詐騙老手可能已經知道自己在黑名單里面了,他在填寫信息時會采用更改敏感信息的方式來欺騙數據庫,這個時候我們需要用到機器學習里面的模糊匹配,用一些關鍵詞的變種去捕捉用戶的真實身份。更高級的方式是進行用戶網絡畫像,根據用戶的地址、電話、社交圈等等屬性,以一個個人為點,形成一個復雜的用戶網絡。每個人在他的網絡里會有一些活躍的因素,如果你的網絡里面欺詐的指數比其他的網絡要高,那就可以判斷你的欺詐指數比較高。
真正棘手的問題在于團伙作案的third-party fraud。比較常見的一種方式是刷單詐騙:詐騙分子以付費刷單為由找到我們的用戶,讓用戶下單以后將借到的錢或買的貨轉給他,并保證借款不需要由用戶來還,但事實上,詐騙分子在拿到借款以后就會跑路,還款以及逾期都壓到了用戶的頭上。這樣的案例,跟銀行儲蓄用戶被欺詐轉賬實際上是同樣的性質,行業內的多家企業都已經受到侵害,從根本上看,這不僅僅是線上風控的問題,線下風控團隊也難以規避,因為找到我們借款的用戶用的都是真實的信息,我們給用戶的額度也在合理的范圍內,這樣的詐騙方式會讓平臺處于很被動的處境。
現在的處理方式只能是發現一起就抓一起,發生之后處理的速度是關鍵。但之后,我們會采用更主動的方式來防御。目前,我們在搜集我們自己和同行們遇到的相關案例,尋找這部分容易被利用的人群身上的共性。在有足夠的樣本以后,我們可以梳理出這些用戶的畫像,并建立相關的風控模型。在以后,我們將不僅僅是守株待兔,更可以主動出擊,對有被欺詐風險的用戶主動做出提醒、溝通確認或暫緩貸款的規避措施。
第二個坑是系統和數據沒經過壓力測試。
硬件產品在出廠之前往往要經過壓力測試,例如蘋果手機在發布前會抽樣進行摔落、重壓、扭曲、敲擊等一系列的折磨,以保障產品在真實使用過程中的高度可靠。
風控系統也一樣,我們在搭建風控系統時要考慮可能會面臨的各種經濟狀況,以保障風控的有效性。而我們的大數據概念,是近幾年才建立起來的,客觀來說,現在的大數據并不全面,無法覆蓋到所有的經濟情況。這個時候,更多的是需要風控專家的經驗,保證風控系統在經濟環境發生變化時不會突然失控。
我在Capital One的時候,曾經經歷過風控突然失靈的狀況。我們在搭建風控模型初期,曾經把剛畢業的用戶是否申請了學生貸款作為一個重要的參數。理論上來說,學生申請學生貸款,通常是為了就讀高花費的學位,例如MBA。畢業后,這些學生也往往能獲得華爾街和硅谷名企的offer,是一個受到高等教育同時擁有高收入的群體,因此風險相對較小。在很長的一段時間內,他們的風控表現的確符合我們的逾期。
然而,這個參數在2008年金融危機時期突然失效了,雖然那段時間美國整體的逾期率都有上升,但這部分曾經的優質用戶逾期率上升幅度遠大于平均值。我們在分析時發現,這部分用戶在雙重經濟壓力下導致信用崩潰。美國失業率在2009年10月上升到10.2%,是1983年以來的最高失業率,是危機前失業率的兩倍。而這部分高學歷學生所向往的金融行業是失業高發行業,他們在畢業后面臨著非常嚴苛的就業環境,同時,他們在畢業后也面臨著償還高額的學生貸款。雙重壓力使他們的還款能力大幅下降。
我們發現這個問題后也想做一些模型上的改動,但發現這將會牽扯太多的因素,修改周期內也會產生更多的損失,最后我們強行加了一個算法,有學生貸款的用戶在進風控之前就先砍掉,先止損然后逐步改進算法。
我們國內的風控也面臨著同樣甚至更大的風險,美國經歷過的金融危機我們并沒有經歷過,但這不能保證以后不會發生。這要求我們在做風控時要考慮更多的細節,更有預見性和前瞻性。但這件事情同時也充滿了挑戰,大數據的維度太多,要在哪些維度上深入探究才能起到最好的防范效果,需要進行長期的測試。
第三個坑是高速發展過程中的模型搭建問題。
中國的Fintech市場經歷過一段搶用戶的時期,高速的增長意味著我們沒有時間先給風控體系做出規劃,而往往是走一步,看需要什么樣的算法,然后進行開發、測試。
這樣的風控做法很符合互聯網思維:快速試錯、快速糾偏。我們能這樣做也是基于現在業務小額、短周期的特點,而這樣的打法也有利于我們快速的做出決策。從逾期率等一系列業務指標來看,這樣的風控很適合我們現在的業務模式。但從長期來看,長期的、中大額的借貸肯定是我們要發展的方向,在開展這類業務時,目前的風控將面臨很多的問題。
首先,我們的系統不是一個有條理性的系統。我們在用戶的注冊、審核、消費等階段都會有反欺詐。現在的做法是,如果發現風控結果有偏差,就會逐個階段去測試相關參數,用第三方的數據加在上面,去看結果。然而,我們在打造風控時并沒有按照一個邏輯順序來設計,而是需要什么算法,就在外面嵌套一層,從結構上來看,就像一鍋大雜燴,所有的算法都混雜在一起,沒有主次優先。
其次,這個系統是龐雜而混亂的,我們沒有一個人能完完整整的推理出目前風控系統的邏輯,它是如何運轉的,又是怎樣實現這樣的算法。這導致的問題是,一旦我們的業務轉向長期和大額,在遇到問題時去調整時會很吃力,效率也會很低。因為你要看的不只是未來的一兩個月,而是未來一兩年,甚至更長的風控狀況。我們不知道哪些數據是在緊急情況中最核心的,我們也不知道一個策略會產生一個什么樣的影響。
為了解決這個問題,我們已經開始著手進行系統梳理。我們要做的是把現在的風控引擎進行拆分,梳理出所有的策略模型,然后用模塊化的方式架構起來。之后,每個風控模塊有自己獨立的功能,模塊之間的架構也不是一層套一層,而是像積木一樣,以API的形式來連接。當主體邏輯判斷某個用戶的審核需要某個模塊時,引擎會自己調用。
這樣模塊化的風控引擎有三個優點:
首先,在每個客戶每個階段的風控審核中,風控引擎的作用將會非常明晰,有利于對用戶分級的進一步細化。現在,我們根據多個維度給用戶做了近千層的分級,但這樣的分級還是太過粗略,我們真正的目標是要做到微分層,細化到每個用戶個體,這可以通過每個用戶調用不同的模塊實現。
其次,風控系統出現問題時,我們可以快速定位出現問題的模塊,修改將會更有目的性。
最后,系統的進化將更為便捷快速。新的算法和模塊可以獨立開發,即插即用,而不會出現牽一發而動全身的情況。
總結:
這三個坑是我回國以后需要解決的課題,從目前的情況來看,國內的Fintech行業前景還是非常樂觀。中國的大數據風控不論在實用性還是開放性上,都要優于國外,企業也愿意投入更多的資金來促進技術的進步,這都為我們行業的發展提供了充足的動力。