傳統(tǒng)信用評(píng)估模型是根據(jù)一個(gè)人的借貸歷史和還款表現(xiàn),通過(guò)邏輯回歸的方式來(lái)判斷這個(gè)人的信用情況。而大數(shù)據(jù)征信的數(shù)據(jù)源則十分廣泛,包括電子商務(wù)、社交網(wǎng)絡(luò)和搜索行為等都產(chǎn)生了大量的數(shù)據(jù)。
大數(shù)據(jù)征信可以通過(guò)我們?cè)诨ヂ?lián)網(wǎng)上留下的這些“足跡”清晰地描繪出一個(gè)人,但如何把控?cái)?shù)據(jù)源的“量”與“度”,各家機(jī)構(gòu)還在不斷嘗試。更重要的是,最終繪制出的人物“肖像”與個(gè)人信用究竟有多大的關(guān)聯(lián)度,至今仍存有爭(zhēng)議。
此前亦有接近監(jiān)管部門(mén)人士對(duì)《第一財(cái)經(jīng)日?qǐng)?bào)》記者表示,個(gè)人征信牌照遲遲未能落地,其原因之一也在于監(jiān)管部門(mén)對(duì)于大數(shù)據(jù)征信的商業(yè)化應(yīng)用存有疑慮。尤其,以人臉識(shí)別為代表的關(guān)鍵技術(shù)的可靠性還有待進(jìn)一步檢驗(yàn)。
此外,“另一個(gè)更重要的癥結(jié)在于行政化監(jiān)管與商業(yè)化發(fā)展之間的矛盾。”該人士表示,現(xiàn)在個(gè)人征信市場(chǎng)的參與者越來(lái)越多,遠(yuǎn)不止申請(qǐng)牌照的八家機(jī)構(gòu),如果該市場(chǎng)要商業(yè)化發(fā)展,那么監(jiān)管方式就要改進(jìn)。
何為大數(shù)據(jù)征信
在FICO中國(guó)區(qū)總裁陳建看來(lái),征信的本質(zhì)就是采集和記錄信用信息并在整理加工后提供給決策者,而如今,得益于大數(shù)據(jù)、云計(jì)算、人臉識(shí)別、深度算法等技術(shù)的進(jìn)步,征信有了更廣泛的意義和用途。
“只要對(duì)消費(fèi)者的特征描繪和風(fēng)險(xiǎn)判斷有顯著作用的就可以叫征信。”陳建認(rèn)為,現(xiàn)在一切信息皆可以成為信用數(shù)據(jù),經(jīng)過(guò)分析后用于證明一個(gè)人或企業(yè)的信用狀況。因?yàn)閿?shù)據(jù)覆蓋廣、維度多,因此形成了廣義的征信,也就是大數(shù)據(jù)征信。
陳建表示,有價(jià)值的大數(shù)據(jù)具備幾個(gè)因素:第一要覆蓋面廣,用戶(hù)足夠多,例如銀聯(lián)、電信的數(shù)據(jù);第二維度要有效,能夠有效轉(zhuǎn)為結(jié)構(gòu)化的數(shù)據(jù),例如電商的數(shù)據(jù);第三信息要穩(wěn)定。
不過(guò),對(duì)于這種日益崛起的征信新業(yè)態(tài),今年7月在上海外灘舉辦的“2015上海新金融年會(huì)”上,央行征信中心副主任王曉蕾直截了當(dāng)?shù)靥岢隽艘蓡?wèn),“我不知道你們說(shuō)的‘征信’是什么”?
央行的征信系統(tǒng)是一個(gè)“放貸人之間的信息共享數(shù)據(jù)庫(kù)”,主要采集的數(shù)據(jù)為身份信息、信貸信息、非金融負(fù)債信息三類(lèi),以及部分公共信息。因此,王曉蕾對(duì)于征信的基本定義為,“從放貸人那里采集借款人信息”。
而另一個(gè)“糾結(jié)”的概念在于,王曉蕾認(rèn)為,放貸機(jī)構(gòu)之“征信”是放貸機(jī)構(gòu)基于內(nèi)部信息的風(fēng)險(xiǎn)管理過(guò)程,而征信行業(yè)之“征信”是為放貸機(jī)構(gòu)的風(fēng)險(xiǎn)管理提供外部信息支持的活動(dòng),征信機(jī)構(gòu)應(yīng)該是一個(gè)純粹的獨(dú)立第三方。
如果按照這個(gè)界定,我們現(xiàn)在所談到的大數(shù)據(jù)征信跳脫了傳統(tǒng)“征信”范疇內(nèi)。不再局限于金融屬性的信息,并且也打破了“采集者與信息產(chǎn)生沒(méi)有任何關(guān)系”的獨(dú)立第三方原則。
例如芝麻信用、前海征信、騰訊征信,一方面它們的數(shù)據(jù)來(lái)源目前還主要來(lái)自母公司阿里、平安、騰訊,而另一方面,它們的兄弟公司又涉足放貸業(yè)務(wù),例如阿里小貸。
盡管有關(guān)大數(shù)據(jù)征信的定義和效用仍爭(zhēng)議不斷,但對(duì)于既無(wú)法接入央行征信系統(tǒng)又面臨快速發(fā)展的互聯(lián)網(wǎng)金融行業(yè)而言,利用大數(shù)據(jù)來(lái)幫助判定風(fēng)險(xiǎn)、開(kāi)拓業(yè)務(wù)已是必然的選擇。
從應(yīng)用范圍來(lái)看,目前大數(shù)據(jù)征信已從金融業(yè)務(wù)向生活服務(wù)蔓延。其中,最核心的兩個(gè)價(jià)值就是:防范欺詐風(fēng)險(xiǎn)和信用風(fēng)險(xiǎn)。簡(jiǎn)單來(lái)說(shuō)就是:既要證明“你是你”,還要描述出“你是什么樣的人”。
如何證明“你是你”
無(wú)論是在傳統(tǒng)金融領(lǐng)域,還是互聯(lián)網(wǎng)金融領(lǐng)域,給客戶(hù)做信用評(píng)估的前提是必須知道這個(gè)人就是他自己。所以,如何利用證明“你是你”是大數(shù)據(jù)征信首先要解決的問(wèn)題。
尤其,隨著越來(lái)越多的金融業(yè)務(wù)互聯(lián)網(wǎng)化,“反欺詐”面臨的挑戰(zhàn)也日益增大。“身份認(rèn)證”的重要性在各項(xiàng)監(jiān)管文件中反復(fù)被強(qiáng)調(diào),而各家機(jī)構(gòu)也在不斷探索如何利用新的技術(shù)在網(wǎng)上實(shí)現(xiàn)身份的核實(shí)。
其中,在指紋、虹膜、人臉識(shí)別等一系列生物識(shí)別技術(shù)中,人臉識(shí)別因技術(shù)的成熟度和準(zhǔn)確率較高,以及其使用的便捷性而被進(jìn)一步普及。包括騰訊征信、芝麻征信在內(nèi)的多家個(gè)人征信機(jī)構(gòu)都有組建自己的人臉識(shí)別技術(shù)團(tuán)隊(duì)。
此前,在騰訊征信的北京媒體溝通會(huì)上,為騰訊財(cái)付通、微眾銀行、騰訊征信等提供圖像和模式識(shí)別技術(shù)支持的優(yōu)圖團(tuán)隊(duì)也向大家展示了“人臉識(shí)別”在“反欺詐”方面的應(yīng)用,即如何證明“你是你”。
根據(jù)現(xiàn)場(chǎng)的演示,在上傳身份證照片、自拍照片并與公安部的信息進(jìn)行比對(duì)之后,“人臉識(shí)別”的另一關(guān)鍵步驟是活體檢測(cè),通過(guò)讀取隨機(jī)的數(shù)字串,分析聲音和唇語(yǔ)等信息來(lái)防范有人用視頻、照片等方式仿冒用戶(hù)。
據(jù)了解,在今年國(guó)際權(quán)威的人臉識(shí)別數(shù)據(jù)庫(kù)LFW上,騰訊優(yōu)圖團(tuán)隊(duì)在人臉驗(yàn)證測(cè)試中達(dá)到了99.65%的準(zhǔn)確率。目前,微信的“人臉識(shí)別”技術(shù)已經(jīng)在騰訊征信、微眾銀行、微證券開(kāi)戶(hù)等場(chǎng)景中開(kāi)始試用。
盡管人臉識(shí)別的準(zhǔn)確率已經(jīng)達(dá)到較高水平,但該項(xiàng)技術(shù)的商業(yè)化應(yīng)用才剛剛起步,它的有效性和安全性仍備受質(zhì)疑。
優(yōu)圖團(tuán)隊(duì)研發(fā)總監(jiān)黃飛躍也表示,該技術(shù)現(xiàn)在還不能說(shuō)100%地成熟,而是適用于某些特定的應(yīng)用環(huán)境中。其中,金融領(lǐng)域的身份核實(shí)條件較好,由于用戶(hù)往往是為了通過(guò)驗(yàn)證所以比較配合。
芝麻信用首席科學(xué)家俞吳杰表示,整個(gè)的反欺詐產(chǎn)品從身份認(rèn)證到信息驗(yàn)證再到網(wǎng)絡(luò)關(guān)聯(lián),每一步的技術(shù)含量非常高。以身份認(rèn)證為例,現(xiàn)在已有很多的途徑,比如信息交叉比對(duì)、人臉識(shí)別技術(shù)、KBA問(wèn)答認(rèn)證等。
他以網(wǎng)絡(luò)關(guān)聯(lián)技術(shù)為例說(shuō)明:它能把所有出現(xiàn)過(guò)違約行為的身份、手機(jī)、設(shè)備等關(guān)鍵點(diǎn)都在風(fēng)險(xiǎn)庫(kù)里面分門(mén)別類(lèi)地保留下來(lái),我們可以通過(guò)一層或者多層關(guān)聯(lián)找出所有的風(fēng)險(xiǎn)點(diǎn)供合作伙伴參考,這對(duì)技術(shù)和硬件要求都非常高。
爭(zhēng)議大數(shù)據(jù)征信
解決了“身份認(rèn)證”的問(wèn)題,接下來(lái)就要評(píng)估你的信用,即描述出“你是什么樣的人”。
在關(guān)于大數(shù)據(jù)征信的文章中,我們經(jīng)常可以看到一些案例,如經(jīng)常半夜上網(wǎng)的用戶(hù)可能被認(rèn)為沒(méi)有穩(wěn)定的工作而降低信用評(píng)分,買(mǎi)雙開(kāi)門(mén)冰箱的用戶(hù)可能因?yàn)橛屑彝ザ庞迷u(píng)分較高,微博更新頻繁的用戶(hù)可能因?yàn)樯缃换钴S而信用評(píng)分較高等。
“這些考量因素被過(guò)度放大了,也許這只是用戶(hù)個(gè)人習(xí)慣而已。但每一個(gè)因素與個(gè)人信用的相關(guān)性有多大?我們還無(wú)法完全解釋?zhuān)绕洚?dāng)數(shù)據(jù)源不足夠豐富時(shí),這些評(píng)判便存在欠缺。”芝麻信用的技術(shù)專(zhuān)家景藝亮表示。
冰鑒科技CEO顧凌云在回國(guó)前曾領(lǐng)導(dǎo)并開(kāi)發(fā)了ZestFinance前四代風(fēng)控模型,在他看來(lái),大數(shù)據(jù)征信的核心并不是對(duì)某個(gè)變量極其依賴(lài),而是把很多個(gè)都只有微小影響的變量通過(guò)非線性的算法整合在一起,從而使模型的整體表現(xiàn)更好。
“大數(shù)據(jù)其實(shí)并不一定就是數(shù)據(jù)量本身大,我們講求的是變量涵蓋的信息維度要多和均衡,然后才是能夠通過(guò)淺度學(xué)習(xí)和深度學(xué)習(xí)等多種復(fù)雜的算法把這些變量更有效地糅合在一起。”他表示。
王曉蕾認(rèn)為,互聯(lián)網(wǎng)記錄了借款人以前不可記錄的行為,獲得了以前無(wú)法獲取或獲取成本很高的數(shù)據(jù),為放貸人了解借款人是誰(shuí)、有沒(méi)有還款能力和還款意愿提供了新的渠道和方法。但是,相關(guān)的信息究竟如何使用有待進(jìn)一步研究驗(yàn)證。
王曉蕾引用2014年美國(guó)政策與經(jīng)濟(jì)研究委員會(huì)(PERC)的一項(xiàng)研究結(jié)果稱(chēng),非金融信息在信貸決策中的作用有限。例如,社交信息對(duì)于判斷借款人的還款意愿和能力暫無(wú)預(yù)測(cè)力。
“諸如水、電、煤、有線電視、手機(jī)等非金融信息納入征信系統(tǒng),顯著地提高了薄信用檔案人群的信貸獲得能力,但對(duì)于厚信用檔案人群而言,邊際作用不大。”她表示。
“只有好樣本,沒(méi)有壞樣本是無(wú)法建立有效的信用評(píng)估機(jī)制的。”宜信至誠(chéng)征信的董事總經(jīng)理趙卉表示,電商、支付、社交等數(shù)據(jù)只能作為信貸審核的參考值,而貸后數(shù)據(jù)才是強(qiáng)參數(shù)。
對(duì)于這種論斷,互聯(lián)網(wǎng)公司們或是不贊同的。
騰訊征信總經(jīng)理吳丹告訴記者,從這段時(shí)間內(nèi)測(cè)的結(jié)果來(lái)看,在模型中加入社交數(shù)據(jù)以后,對(duì)它的風(fēng)控能力有20%~25%的提升,尤其在小額貸款領(lǐng)域。因?yàn)?,通常一筆幾百塊的借款,違約發(fā)生的原因不在于借款人的還款能力而是意愿。
俞吳杰表示,通過(guò)大量的研究證明,人的行為數(shù)據(jù)和他的信用有直接關(guān)聯(lián),因?yàn)樾袨楹茈y撒謊。從這段時(shí)間公測(cè)的結(jié)果來(lái)看,用戶(hù)的芝麻分越高,其貸款的違約率越低,二者呈單調(diào)、線性的關(guān)系,這也證明了芝麻分在信用評(píng)估上的有效性。
不過(guò),僅僅依靠互聯(lián)網(wǎng)上的數(shù)據(jù)并不足以建立一個(gè)強(qiáng)大的信用評(píng)估體系。顯然,所有大數(shù)據(jù)征信的市場(chǎng)參與者都深知這一點(diǎn)。“在未來(lái),把傳統(tǒng)數(shù)據(jù)和創(chuàng)新數(shù)據(jù)結(jié)合到一起,一定是我們要到達(dá)的終點(diǎn)。”芝麻信用的總經(jīng)理胡滔如此總結(jié)到。
顧凌云告訴記者,風(fēng)控模型本質(zhì)上還是對(duì)一個(gè)人金融還貸能力的預(yù)測(cè)和評(píng)估,所以,盡管ZestFinance大量采用非傳統(tǒng)的信用數(shù)據(jù),但在大部分的風(fēng)險(xiǎn)評(píng)估模型中,傳統(tǒng)的信用數(shù)據(jù)(銀行信貸數(shù)據(jù))依然占有一定的比重,平均也在40%左右。