當談及如何用大數(shù)據(jù)進行P2P征信時,P2P平臺“信而富”CEO王征宇舉了這么一個例子:美國最大的P2P平臺Lending club,曾嘗試通過用戶在Facebook上的表現(xiàn)來確定其信用度,結(jié)果遭遇慘痛的滑鐵盧。之后,Lending club轉(zhuǎn)而向美國征信局這一傳統(tǒng)機構(gòu)獲得數(shù)據(jù),平臺上的壞賬率隨之下降了許多。
“這個例子表明,P2P征信不能想當然。”王征宇稱,“社交網(wǎng)絡(luò)上的互動,并不能很好地反映用戶的金融信用。”
Lending club的教訓(xùn),放在國內(nèi)的P2P公司身上同樣有效。事實上,國內(nèi)大多數(shù)P2P在征信方式上都遇到了不小困惑:大數(shù)據(jù)是P2P風(fēng)控領(lǐng)域的熱詞,但到底哪些數(shù)據(jù)有用,哪些數(shù)據(jù)無用,又有哪些工具能讓大數(shù)據(jù)的分析結(jié)果更加準確,大家心里并沒有底。
與國外公司相比,國內(nèi)P2P的征信難度顯然更高。目前,政府和銀行體系掌握大量的基礎(chǔ)數(shù)據(jù),但這些系統(tǒng)大多是孤立與封閉的,有無數(shù)信息孤島等待連通。而銀行掌握的最重要的資金交易數(shù)據(jù),也不會開放給P2P。這些因素,紛紛限制著P2P平臺快步邁入大數(shù)據(jù)時代。
即便困難重重,大數(shù)據(jù)對于P2P來說依然是一座金礦。就信而富來說,公司正嘗試著從各種信息緯度中提煉價值,建立起一套自動化的授信決策機制。在此基礎(chǔ)上,公司通過借款過程中的不斷試錯,隨時修改與優(yōu)化原有的風(fēng)控模型。
眼下,將大數(shù)據(jù)與P2P結(jié)合,應(yīng)用于風(fēng)控,國內(nèi)還沒有成熟的案例。不過,相關(guān)的嘗試從未停止。
數(shù)據(jù)里的秘密
眼下,P2P網(wǎng)貸中最核心的障礙仍是征信系統(tǒng)的不健全,這直接制約了P2P網(wǎng)貸的信用評估、貸款定價和風(fēng)險管理。在尚未介入央行征信系統(tǒng)的情況下,許多P2P平臺不得不開展線下的盡職調(diào)查。
信而富的客戶主要集中在三四線城市、邊遠地區(qū)及農(nóng)村,很多地方甚至連網(wǎng)絡(luò)都不具備,因此,公司采取了100%親核親訪,來復(fù)核數(shù)據(jù)與控制風(fēng)險。
王征宇介紹稱,信而富上已經(jīng)成功借到款的用戶大概有幾十萬人,出借人大約有10萬人。在征信數(shù)據(jù)采集的過程中,公司對每個借款個體采集的數(shù)據(jù)項都超過1500個。通過這些數(shù)據(jù),信而富試圖回答三個問題:借款人的還款意愿、還款能力以及穩(wěn)定性。
具體說來,公司的自動化授信決策引擎,所依據(jù)的主要是三個緯度:首先,借款人在給定的一段時間內(nèi),還款的可能性是多少。第二,這個申請從根本上來說,有多大可能性是假的。換言之,也許申請人提交的數(shù)據(jù)很漂亮,但卻運用了別人的名義或采用了假的數(shù)據(jù)。第三,這筆借款預(yù)測風(fēng)險調(diào)整后的收益是多少。通俗來講,就是借款人借到錢后,可以為出借人貢獻多少收入。
在數(shù)據(jù)分析時,信而富會從大量的“細枝末節(jié)”中尋找線索。比如,在1500個數(shù)據(jù)項中,公司會關(guān)注申請人的郵政編碼最近12個月是否變更?關(guān)聯(lián)的信用卡張數(shù)是否變化,最近3個月、6個月的信用卡消費總額、交易類別與交易次數(shù)是否出現(xiàn)異常等。將這些數(shù)字進行各種各樣的多緯度匯總后,信而富可以完整地展現(xiàn)申請人在各個時間點的行為特征,并由此為貸款申請自動打分。在此基礎(chǔ)上,公司會根據(jù)不同的借款類型、不同的地區(qū)、貸款的用途等,組成一個網(wǎng)狀的決策機制,最后采取相應(yīng)的授信策略。
在通過大數(shù)據(jù)進行信用分析與風(fēng)控方面,美國P2P平臺的做法同樣值得行業(yè)借鑒。創(chuàng)立于2010年并連續(xù)獲得投資的美國公司ZestCash,正是把那些被忽略的數(shù)據(jù)激活了。
比如,在瀏覽ZestCash網(wǎng)站時,用戶在網(wǎng)站的所有操作就像表情一樣傳遞到它的后臺。停留時間、填表時間、填寫過程,反映出的心理活動可能是躊躇,也可能是對文字的識別能力、受教育程度等。這些都被ZestCash記錄在案,并成為信用評分的變量。此外,用戶是否擁有一些健身俱樂部、讀書會的卡,也將作為參考。
按ZestCash的說法,其決策模式是在進行大量個體數(shù)據(jù)運算的同時,做出貸款決策。這個模式將從原始數(shù)據(jù)中收集數(shù)千種變量,接下來,建模計算找出這些數(shù)據(jù)之間的關(guān)系,將其中有效的變量轉(zhuǎn)化成最有用的數(shù)據(jù)。這其中,模型的建立至關(guān)重要,“如果你的數(shù)學(xué)模型錯了,數(shù)據(jù)便沒有任何意義,或根本就是誤導(dǎo)”。ZestCash的創(chuàng)始人Douglas Merrill表示。
試錯與創(chuàng)新
事實上,在數(shù)據(jù)采集完成后,簡單的技術(shù)分析并不能解決“還款意愿、還款能力以及穩(wěn)定性”這三個問題。在目前的征信體系中,P2P平臺需要通過建立模型以及目標變量,不斷模擬研究數(shù)據(jù)與信用行為之間的關(guān)系。在不斷地放貸中,P2P公司也需要根據(jù)本土化的變量因素進行調(diào)整,來優(yōu)化信貸模型。
舉例來說,人們通常認為,手機用戶的開戶時間越長,手機號碼從不改變且經(jīng)常使用,就是穩(wěn)定性的標志。但在王征宇看來,這其中仍有許多不確定的因素。“手機號用多少年算長?是兩年還是三年,或是十年?”他說道,“每個公司通過測試都會有不同的結(jié)論。”
信而富的做法是,針對使用一年、兩年、三年、五年號碼的手機用戶分別作一些測試,通過這些用戶的借款行為不斷進行總結(jié)。“假使我們發(fā)現(xiàn),使用手機號少于三年零兩個月的用戶貸款風(fēng)險較高,過了這個點后風(fēng)險率顯著下降,那么三年零兩個月這個數(shù)字就是信而富的授信標準,也是公司的核心機密。”王征宇稱。
與此同時,這個數(shù)據(jù)并不是一成不變的,“如果放貸兩萬對應(yīng)的是三年零兩個月的手機賬齡,那么放貸三萬、四萬呢?是否還是相同的賬齡呢?這些都需要通過長時間的測試來得出結(jié)論。”
在他看來,不斷試錯應(yīng)該成為P2P公司的一種理念和文化,一旦形成了核心的數(shù)據(jù)測試和分析能力,那么也就建立起了競爭的門檻。“其他公司要模仿,絕對不是抄襲一個數(shù)字那么簡單,因為里面的變化是層出不窮的。”
在基于大數(shù)據(jù)的分析和使用上,P2P公司顯然還能做得更多。一位P2P從業(yè)者稱,一些公司甚至可以做到客戶還沒有想到要融資,但P2P企業(yè)已經(jīng)推算出他在什么時間節(jié)點需要資金周轉(zhuǎn),提前向其推送融資的服務(wù)方案。
打個比方,一個借款人在P2P網(wǎng)站的借款時間是8月,但通過計算可以得知其資金周轉(zhuǎn)其實發(fā)生在6月,再分析數(shù)據(jù)后得知是5月的貨物滯壓造成的。那么在貸后服務(wù)中,P2P網(wǎng)站就會了解貸款人的經(jīng)營情況,進一步分析可能造成其下一次資金周轉(zhuǎn)的時間,并提前制定貸款方案。
這些工作看似簡單,但實際操作中需要根據(jù)借款人的年齡、學(xué)歷、所在地區(qū)、交易流水等情況和數(shù)據(jù)庫中類似的借款人做對比,最后計算出合理的借款額度、利率和還款方式。這種預(yù)測和分析背后都離不開大數(shù)據(jù)的支持。盡管這樣的案例目前還很少,但完成后的反響似乎不錯。
信而富也嘗試過利用數(shù)據(jù)分析將不同類別的借款標的與不同風(fēng)險偏好的出借人做匹配,幫助雙方找到最合適的投資對象與出資人。但嘗試后發(fā)現(xiàn),國內(nèi)目前還沒有基于“風(fēng)險收益”的土壤,大部分出資人仍青睞低風(fēng)險、剛性兌付的模式。這種情況下,這項創(chuàng)新目前只能被暫時擱置。
不要迷信大數(shù)據(jù)
眼下,國內(nèi)越來越多的P2P平臺試著依靠大數(shù)據(jù)建立信用評估體系。以阿里巴巴為代表的大公司,也紛紛涌入這個領(lǐng)域。
阿里推出的招財寶,本質(zhì)就是P2P平臺,一方是個體工商戶、淘寶商家等小微企業(yè),另一方則是淘寶與支付寶共同擁有的3億用戶。在這些用戶中,不少人有著較強的理財需求。相對于其他平臺,招財寶的優(yōu)勢在于掌握了投資方與融資方的信用和交易數(shù)據(jù),在客戶群體上更有針對性。
此前,阿里巴巴已經(jīng)針對平臺上的賣家設(shè)立了小貸公司。據(jù)悉,在對商戶的歷史交易流水進行分析和定量后,阿里小貸的壞賬率由最初的10%下降到了1%左右。
即便大數(shù)據(jù)能幫助企業(yè)預(yù)測及控制風(fēng)險,但不得不說,大數(shù)據(jù)并不是萬能的。
王征宇指出,用數(shù)據(jù)來驅(qū)動決策的思路沒錯,但實際情況是,數(shù)據(jù)采集得越多,審核緯度越多,風(fēng)控流程越復(fù)雜,而由此帶來的“數(shù)據(jù)噪音”也越多,模型越失真。
“你會發(fā)現(xiàn)有的數(shù)據(jù)很有用,有的數(shù)據(jù)幫助不大。但你只有掌握了全部數(shù)據(jù)后,通過分析使用才知道哪些數(shù)據(jù)有用,哪些沒用。”他說道。
在信而富設(shè)置的上千個數(shù)據(jù)緯度中,實際有用的數(shù)據(jù)可能只有100個。況且,不同數(shù)據(jù)緯度間的邏輯關(guān)系,也很有可能產(chǎn)生沖突。這些都是大數(shù)據(jù)在實際應(yīng)用中遭遇的困境。
有業(yè)內(nèi)人士稱,基于全部數(shù)據(jù)的風(fēng)控模型幾乎是建立不起來的,就算建立起來,通過該模型驗證的也極可能是人格完美的人。事實上,小微企業(yè)主通常會有缺陷,一些待人接物態(tài)度不佳的企業(yè)主,很可能信用良好,因為他有議價權(quán)。相反,一些待人接物很禮貌的企業(yè)主,實際金融信用并不好,他可能是為了獲得貸款,而表示出良好的態(tài)度。
值得一提的是,不少P2P公司將用戶在微博、Facebook等社交網(wǎng)絡(luò)上的數(shù)據(jù)作為信用的參考依據(jù),但這么做很可能會產(chǎn)生誤導(dǎo)。首先,互聯(lián)網(wǎng)上的人性是被放大的,許多人在現(xiàn)實中不敢說的話,在網(wǎng)絡(luò)上卻敢說。現(xiàn)實中內(nèi)向的人,在網(wǎng)絡(luò)上或許會很外向。換言之,社交網(wǎng)絡(luò)上的信息很難還原用戶在現(xiàn)實中的信用。
其次,社交信用并不等于金融信用。人的信用是多方面的,有朋友信用、愛情信用、事業(yè)信用、其他社會信用和金融信用等,如果把每一類信用都看成一個面,其他幾個面的信用與金融信用并不一定存在相關(guān)性。
王征宇并不諱言,數(shù)據(jù)分析的過程中,算法和建模的難度很大,而既懂技術(shù)又懂業(yè)務(wù)、知道如何把數(shù)據(jù)轉(zhuǎn)化為商業(yè)洞察力的人才,國內(nèi)幾乎沒有。“這種情況下,要將大量的數(shù)據(jù)轉(zhuǎn)化為實際應(yīng)用,我們的速度還不太跟得上,這是我們當下面臨的最大挑戰(zhàn)。”