量化派是一家金融大數(shù)據(jù)公司,為金融機構(gòu)提供數(shù)據(jù)服務(wù)和技術(shù)支持,也通過旗下產(chǎn)品“信用錢包”幫助個人用戶展示經(jīng)濟財務(wù)等狀況,撮合金融機構(gòu)為用戶提供最優(yōu)質(zhì)的貸款服務(wù)。金融的本質(zhì)是風(fēng)險和流動性,但是目前中國對于個人方面的征信行業(yè)發(fā)展落后于歐美國家,個人消費金融的需求沒有得到很好的滿足。按照央行最新數(shù)據(jù),目前央行征信中心的數(shù)據(jù)覆蓋人口達到8億人[1],但其中有實際征信記錄的只有3億人左右,有5億人在征信系統(tǒng)中只是一個身份證號碼。此外,我國還有5億人跟銀行從來沒有信貸交易關(guān)系,這5億人對金融部門來說是陌生人。這樣算下來,有征信記錄的人只占到全國人口數(shù)的23.7%,遠低于美國征信體系對人口的85%的覆蓋率。如何在信用記錄缺失的情況下,做好多個人用戶的風(fēng)險定價,是個棘手的難題。量化派通過基于機器學(xué)習(xí)和互聯(lián)網(wǎng)化的風(fēng)險定價,整合互聯(lián)網(wǎng)及傳統(tǒng)數(shù)據(jù)源,對個人在消費金融應(yīng)用場景里的信用風(fēng)險進行評估。這篇文章就主要介紹一下量化派的大數(shù)據(jù)平臺,以及機器學(xué)習(xí)在量化派的應(yīng)用。
一、互聯(lián)網(wǎng)化的風(fēng)控創(chuàng)新
量化派及“信用錢包”的核心任務(wù)是讓用戶可以憑借其良好的信用,而無需抵押或者擔(dān)保就可以貸款。也就是說,用戶僅憑信用即可開啟財富之門。為了達到這個目的,信用錢包需要把用戶個性化的需求與信貸產(chǎn)品信息精準匹配到一起。在幫助用戶找到合適自己的信貸產(chǎn)品的同時,也幫助信貸產(chǎn)品公司找到了最合適的貸款用戶,從而實現(xiàn)信貸消費者和信貸產(chǎn)品提供者的雙贏。為了確保貸款的高成功率,為了更好的掌握用戶需求以及對個人進行信用評級,我們需要大數(shù)據(jù)平臺的支持。
目前,可以接入央行征信中心的金融機構(gòu)僅僅只有銀行、持牌照的第三方征信服務(wù)商以及部分地區(qū)的小貸公司,絕大多數(shù)的P2P平臺還無法接入央行的征信數(shù)據(jù),這無疑加大了P2P平臺的風(fēng)控難度。在征信思路上,傳統(tǒng)征信是用昨天的信用記錄來判斷今天的信用價值,這未見得就是最合理的。在征信技術(shù)上,傳統(tǒng)的方法是從線下采集信用數(shù)據(jù),效率比較低。可以說,傳統(tǒng)的線下征信技術(shù)限制了數(shù)據(jù)來源和信用評估思路,而互聯(lián)網(wǎng)的技術(shù)、工具和思維則具備了改變這一切的可能性。回歸到征信的本質(zhì),其實就在于解決兩方面問題:信用能力和信用意愿,換而言之,即解決個人的還款能力和還款意愿,再追根溯源一點,即解決壞賬和逾期兩個問題[2]。量化派公司基于大數(shù)據(jù)的用戶征信和傳統(tǒng)征信殊途同歸,所不同的是,傳統(tǒng)征信中,數(shù)據(jù)依賴于銀行信貸數(shù)據(jù),而大數(shù)據(jù)征信的數(shù)據(jù)并不僅僅包括傳統(tǒng)的信貸數(shù)據(jù),同時也包括了與消費者還款能力、還款意愿相關(guān)的一些描述性風(fēng)險特征,這些相關(guān)性描述風(fēng)險特征的抽取與篩選是量化派的技術(shù)核心。相比于傳統(tǒng)征信數(shù)據(jù)的強相關(guān)性,這些大數(shù)據(jù)征信的數(shù)據(jù)與消費者的信用狀況相關(guān)性較弱,量化派就利用大數(shù)據(jù)技術(shù),通過用戶授權(quán)等方法搜集了更多的數(shù)據(jù)維度來加強這些弱相關(guān)數(shù)據(jù)的描述能力。這樣就使大數(shù)據(jù)征信不依賴于傳統(tǒng)信貸數(shù)據(jù),就可以對傳統(tǒng)征信無法服務(wù)的人群進行征信,實現(xiàn)對整個消費者人群的覆蓋[3]。我們的數(shù)據(jù)來源如下圖所示:
圖一 量化派的數(shù)據(jù)來源
二、量化派的大數(shù)據(jù)平臺架構(gòu)
量化派的信用錢包每天都會獲取大量的用戶的注冊信息等結(jié)構(gòu)化數(shù)據(jù)以及爬蟲抓取的非結(jié)構(gòu)化數(shù)據(jù),還有第三方的接入數(shù)據(jù),系統(tǒng)運行產(chǎn)生的日志數(shù)據(jù)等等,數(shù)據(jù)的形式多種多樣,如何保護好、利用好這些數(shù)據(jù),是公司重中之重的任務(wù)。量化派的業(yè)務(wù)也決定了公司是數(shù)據(jù)驅(qū)動型的。為了更好的滿足公司日益增長變化的業(yè)務(wù),在大數(shù)據(jù)平臺建設(shè)中全面擁抱開源的基礎(chǔ)上,進行了不停迭代設(shè)計,對數(shù)據(jù)平臺中采用的開源軟件進行了深度應(yīng)用開發(fā),同時還開發(fā)了很多契合業(yè)務(wù)需求的工具軟件,很好的支撐我們?nèi)崿F(xiàn)普惠金融的理想。量化派公司的數(shù)據(jù)平臺架構(gòu)如圖二所示。
圖二 量化派的數(shù)據(jù)平臺架構(gòu)
相比我國的網(wǎng)民數(shù)量,信貸用戶只占其中的一小部分,所以我司產(chǎn)品的用戶基數(shù)并不是非常大,但是,為了給信貸用戶更準確的信用評級,對于每個信貸用戶我們都會從多個渠道獲取大量的有效數(shù)據(jù),這些數(shù)據(jù)聚合起來也是海量數(shù)據(jù)規(guī)模。公司發(fā)展伊始,幾乎將所有的數(shù)據(jù)都存放在Mysql關(guān)系數(shù)據(jù)庫中,工程師使用標(biāo)準SQL語句來存儲或者調(diào)用數(shù)據(jù)資源。Mysql很快就遇到了性能瓶頸,雖然可以通過不停地優(yōu)化整個Mysql集群以應(yīng)對數(shù)據(jù)的快速增長,但是面對復(fù)雜的數(shù)據(jù)業(yè)務(wù)需求,Mysql顯然無法提供最優(yōu)的解決方案。所以我司最終決定將數(shù)據(jù)遷移到大數(shù)據(jù)平臺上,Mysql僅用來存儲需要經(jīng)常變化的狀態(tài)類數(shù)據(jù)。除了系統(tǒng)運行日志直接存放在HDFS之中,大量的數(shù)據(jù)利用HBase來進行管理。HBase中的數(shù)據(jù)按照不同的數(shù)據(jù)源存放在不同的表中,每張表按照業(yè)務(wù)和存儲需求對rowkey進行精心設(shè)計,確保海量數(shù)據(jù)中查詢所需數(shù)據(jù)毫秒級返回。
根據(jù)業(yè)務(wù)的不同特點,對于常規(guī)的數(shù)據(jù)ETL處理,我們使用MapReduce[4]框架來完成;BI和數(shù)據(jù)挖掘這些工作都放到了Spark[5]上。這樣一來,依賴不同任務(wù)或不同計算框架間的數(shù)據(jù)共享情況在所難免,例如Spark的分屬不同Stage的兩個任務(wù),或Spark與MapReduce框架的數(shù)據(jù)交互。在這種情況下,一般就需要通過磁盤來完成數(shù)據(jù)交換,而這通常是效率很低的。為了解決這個問題,我們引入了Tachyon[6]中間層,數(shù)據(jù)交換實際上在內(nèi)存中進行了。而且,使用了Tachyon之后還解決了Spark任務(wù)進程崩潰后就要丟失進程中的所有數(shù)據(jù)的問題,因為此時數(shù)據(jù)都在Tachyon里面了,從而進一步提升了Spark的性能。Tachyon自身也具有較強的容錯性,Tachyon集群的master通過ZooKeeper[7]來管理,down機時會自動選舉出新的leader,并且worker會自動連接到新的leader上。
多維度的征信大數(shù)據(jù)可以使得量化派可以融合多源信息,采用了先進機器學(xué)習(xí)的預(yù)測模型和集成學(xué)習(xí)的策略,進行大數(shù)據(jù)挖掘。不完全依賴于傳統(tǒng)的征信體系,即可對個人消費者從不同的角度進行描述和進一步深入地量化信用評估。公司開發(fā)了多個基于機器學(xué)習(xí)的分析模型,對每位信貸申請人的數(shù)千條數(shù)據(jù)信息進行分析,并得出數(shù)萬個可對其行為做出測量的指標(biāo),這些都在數(shù)秒之內(nèi)完成。
三、不同場景的機器學(xué)習(xí)方法
上部分說到量化派首先需要對用戶進行信用風(fēng)險的評估,為了讓用戶可以僅憑信用,而無需抵押和擔(dān)保就可貸款成功。美國有著很完善的征信體系,以及成熟的信用評估系統(tǒng)。通過幾十年的發(fā)展,美國的三大征信局[8]對85%的公民有著詳細的信用記錄:包括信用卡,房貸,以往的住址,工作等情況都有記錄在案。而且在找工作,租房時候也會查詢個人信用記錄,如果有違約等不良行為也會反饋給征信局。Fair Issac公司的FICO評分是業(yè)界應(yīng)用最為廣泛的評分,是建立在詳細的個人征信記錄上的預(yù)測系統(tǒng)。FICO從最開始的用圖表畫出的評分,到后來演化為logistic regression類的回歸算法,用來預(yù)測用戶在未來一段時間內(nèi)違約的可能性。近年來,在predictive analytics 方面的發(fā)展,deep learning 在supervised learning里面得到了廣泛應(yīng)用。
中國由于在征信方面的數(shù)據(jù)缺失,需要通過更為自由的模式來創(chuàng)新和跨越式發(fā)展。宜信[9]作為國內(nèi)最大的p2p機構(gòu),擁有多年的業(yè)務(wù)積累,以及一流的風(fēng)控團隊。傳統(tǒng)上是通過線下風(fēng)控的手段,對用戶進行詳盡的背景調(diào)查。收集用戶的資料例如他們有的曾提交過信用報告、聯(lián)系人信息、教育水平、工資單、銀行流水等一系列傳統(tǒng)征信數(shù)據(jù)。這樣的貸款審核流程耗時較長,貸款申請人往往需要少則幾天,多則數(shù)月的等待。時間成本過大,流程繁瑣,是用戶痛點所在,造成了潛在貸款用戶的大量流失。提高審核效率,優(yōu)化貸款流程,把申請人貸款體驗做到極致,最終做到極速放貸是大勢所趨。到目前,宜信也開始從傳統(tǒng)的線下業(yè)務(wù),開始往線上做業(yè)務(wù)拓展,宜信的瞬時貸通過大數(shù)據(jù)進行實時授信,用戶授權(quán)系統(tǒng)讀取信用卡賬單郵箱、電商、運營商相關(guān)記錄信息,得到有關(guān)你性格、消費偏好的個人畫像。同時進行交叉驗證形成風(fēng)控機制,進而計算出每一個用戶的風(fēng)險評分,最終判斷是否應(yīng)該放款,以及該用戶的授信額度、 還款周期等并最快達到10分鐘放款。另外,螞蟻金服的芝麻信用[10],根據(jù)個人淘寶、支付寶等交易數(shù)據(jù)以及其他授權(quán)數(shù)據(jù),對個人進行信用評分。芝麻信用綜合考慮了個人用戶的信用歷史,行為偏好,履約能力,身份特質(zhì),人脈關(guān)系等五個緯度的信息得出的。于此同時,騰訊系的騰訊征信都會考慮到一些信貸之外的一些信息。除了微信支付、QQ錢包綁定的銀行卡外,騰訊還能夠從更大范圍獲取數(shù)據(jù),比如很多銀行都在微信上開通了公眾號,向用戶發(fā)送消費數(shù)據(jù);微信的社交狀況也能夠?qū)€人的資質(zhì)進行有效的評估。
量化派對用戶的信息整合也包括了用戶的社交信息,不光包含了用戶的畫像 (性別、職業(yè)、愛好等等),也包含了用戶之間的關(guān)系。如果說每個人是圖中的一個節(jié)點,那么人與環(huán)境所形成的關(guān)系就是兩點間的線。當(dāng)把“點和線”綜合起來分析時,我們對個人的性格特征、信用狀況、財富屬性都會有更深層、更全面的理解。Google 的 PageRank 算法考慮到了web頁面的相關(guān)性來提高頁面的質(zhì)量,例如權(quán)重高的頁面指向鏈接的頁面對應(yīng)的權(quán)重相對來說會比較高。類似來說,信貸風(fēng)險低的用戶的常用聯(lián)系人的小圈子,個人資質(zhì)的也應(yīng)該是比較好的。
另一個方面,“信用錢包”需要把用戶個性化的需求與信貸產(chǎn)品信息精準匹配到一起。幫助用戶找到合適自己的信貸產(chǎn)品,實現(xiàn)信貸消費者和信貸產(chǎn)品提供者的雙贏。我們對信貸產(chǎn)品向用戶做了基于協(xié)同過濾的和基于產(chǎn)品信息匹配的推薦。在對用戶做了較為準確的信用評價之后,我們的分發(fā)平臺(如圖三所示)會根據(jù)貸款用戶的貸款需求來分派給相應(yīng)的貸款產(chǎn)品,這樣就出現(xiàn)了一個客戶面對多款信貸產(chǎn)品的情況。我們會根據(jù)批貸額度、貸款利率、承諾放款速度等因素在多個信貸產(chǎn)品中選出最適合用戶的產(chǎn)品。
圖三 分單平臺系統(tǒng)
四、美國的風(fēng)控系統(tǒng)案例
打造一流的風(fēng)控系統(tǒng)不是光靠數(shù)據(jù)分析師團隊能夠做到的,整個風(fēng)控是需要在公司的DNA里面。美國的Capital One是最早利用大數(shù)據(jù)分析來判斷個人借款還款概率的公司,本文的作者都曾經(jīng)在Capital One 工作過,并在金融危機發(fā)生的時候也在那邊,目睹了他是如何發(fā)展壯大成第五大銀行的。在危機開始的時候,非常果斷的把有潛在問題的GreenPoint Mortgage整體出售,并在危機發(fā)生的時候,謹慎挑戰(zhàn)風(fēng)險政策來控制風(fēng)險,并在危機發(fā)生的時候以非常低廉的價格收購華盛頓地區(qū)的Chevy Chase 銀行, ING Direct, HSBC Card北美分部。并完善其Local Banking, Global Lending的策略。
Capital One的風(fēng)控系統(tǒng)是通過多年的積累和演變而形成的。Capital One 的 Analytics 部門里面分為幾個種類,Data Analyst, Business Analyst, Statistician/Modeler. 不僅僅是分析師專注的做模型,做風(fēng)控來對模型進行大數(shù)據(jù)分析。所有的決策者,包括商務(wù)的總監(jiān),運營副總等,所有的決策都會有大量的數(shù)據(jù)分析,模型策略做支撐。
Capital One在各個業(yè)務(wù)部門都有很多的決策引擎和模型來支撐。在獲取用戶時,根據(jù)不同的業(yè)務(wù)線prime, subprime, 汽車金融等,有專門的 customer model,risk model等。在用戶關(guān)系管理方面,有cross-sell model, customer contact model等。除此還有專門的反欺詐模型,包含identify-fraud model, payment fraud model等等。不同的業(yè)務(wù)線有著這么多種類的模型,對于這些模型的監(jiān)管也都是有一套系統(tǒng)的流程的。對于每個模型,模型開發(fā)人員會對模型開發(fā)寫出詳細的文檔,有著一套類似于code review, unit test的檢驗機制。公司層面,部門設(shè)有專門的中高級別scoring officer (模型官), 負責(zé)定期對模型進行監(jiān)管和監(jiān)測。除了對于整體模型的效果的監(jiān)管,整體評分的分布的穩(wěn)定性;還包括在變量層面的監(jiān)管,監(jiān)測模型的重要變量的穩(wěn)定性。 Capital One 用到的大量征信局的數(shù)據(jù)和在自身平臺上沉淀的用戶數(shù)據(jù),根據(jù)以往的用戶的個人行為和違約記錄,建立的用戶風(fēng)險決策模型對用戶進行評估,模型的效果會比FICO分數(shù)高40%以上。
面向個人消費的風(fēng)控體系的搭建是一個長期的,系統(tǒng)的工程。在中國目前的市場情況,缺失的個人信用風(fēng)險和高速發(fā)展的互聯(lián)網(wǎng)金融,以及未被滿足的普惠金融需求是十分矛盾的。移動互聯(lián)網(wǎng)時代的到來,對個人風(fēng)險評估帶來了嶄新的視角。大數(shù)據(jù)平臺和機器學(xué)習(xí)的結(jié)合能夠帶來多樣化的創(chuàng)新,量化派的使命就是通過這兩者的結(jié)合來服務(wù)互聯(lián)網(wǎng)金融機構(gòu),降低全行業(yè)的風(fēng)險。
王瑩,“央行征信數(shù)據(jù)單薄 難解P2P風(fēng)控之渴”,第一財經(jīng)日報,2014年09月24號
劉新海,丁偉,“大數(shù)據(jù)征信應(yīng)用與啟示-以美國互聯(lián)網(wǎng)金融公司ZestFinance為例”,清華金融評論,2014年10
楊萬國,“量化派:讓吊絲一分鐘貸10萬”,新京報,2015年1月29日
The Apache Software Foundation, http://hadoop.apache.org
UC Berkeley AMP Lab, http://www.tachyon-project.org/index.html
UC Berkeley research project, http://spark.apache.org/document-ation.html
The Apache Software Foundation, http://zookeeper.apache.org
杜淼淼,“美國個人信用評分系統(tǒng)及其啟示”,南方金融,2008年8期
張小沛,“宜信大數(shù)據(jù)-大數(shù)據(jù)金融怎么做”,創(chuàng)業(yè)邦,2014年5月
祝劍禾,馬文婷,“螞蟻金服開評草根信用”,京華時報,2015年1月
關(guān)于作者:王倪,量化派聯(lián)合創(chuàng)始人;于博,量化派大數(shù)據(jù)架構(gòu)師 。