黑市數(shù)據(jù)泛濫,大多還在最初級(jí)的數(shù)據(jù)收集
去年以來,隨著互聯(lián)網(wǎng)金融尤其是消費(fèi)金融的火速發(fā)展,大數(shù)據(jù)風(fēng)控也火爆起來,不少專注于大數(shù)據(jù)風(fēng)控的公司,如百融、量化派、同盾科技、聚信力等頗受資金市場(chǎng)追捧。與此同時(shí),這類公司也存在一系列問題,比如信息源獲取的合法性、利用數(shù)據(jù)的有效性等等。今年5月開始,監(jiān)管也開始了對(duì)大數(shù)據(jù)行業(yè)的清查。再加上近期有媒體稱由中國互聯(lián)網(wǎng)金融協(xié)會(huì)牽頭,包括首批個(gè)人征信試點(diǎn)機(jī)構(gòu)中的芝麻信用、騰訊征信等相關(guān)機(jī)構(gòu),欲攜手打造的個(gè)人征信機(jī)構(gòu)“信聯(lián)”,可以預(yù)見,將對(duì)大數(shù)據(jù)行業(yè)帶來很大沖擊。未來,行業(yè)也將迎來一輪洗牌。
海量數(shù)據(jù)是基礎(chǔ),用于防范欺詐和信用風(fēng)險(xiǎn)
近年來,隨著傳統(tǒng)銀行轉(zhuǎn)型、網(wǎng)貸平臺(tái)限額,消費(fèi)金融、現(xiàn)金貸由于無需抵押可以迅速上量,由此催生了基于大數(shù)據(jù)應(yīng)用的線上精準(zhǔn)獲客和風(fēng)控體系。
據(jù)業(yè)內(nèi)人士介紹,大數(shù)據(jù)風(fēng)控服務(wù),主要包括利用大數(shù)據(jù)技術(shù)來防范欺詐風(fēng)險(xiǎn)和信用風(fēng)險(xiǎn)。
欺詐風(fēng)險(xiǎn)一般就是我們常說的識(shí)別“黑、灰、白名單”,黑名單就是我們俗稱的“老賴”,惡意賴賬的人群,白名單即是信用記錄良好的人群,而灰名單則為兩者之間;防范信用風(fēng)險(xiǎn)則是依托大數(shù)據(jù)描述的用戶圖像,比如受教育程度、行為偏好、工作是否穩(wěn)定等,據(jù)此來綜合預(yù)測(cè)個(gè)人還款能力。
大數(shù)金融首席風(fēng)險(xiǎn)官漆瑾聲曾對(duì)新快報(bào)記者表示,國內(nèi)所說的“大數(shù)據(jù)”,在美國習(xí)慣被稱之為“替代性數(shù)據(jù)”(Alternative Data)。這是源于當(dāng)時(shí)美國有部分人群個(gè)體征信數(shù)據(jù)的缺失,于是水、電、煤等這些替代性數(shù)據(jù)就派上用場(chǎng)了。
他表示,依照與個(gè)人信用關(guān)聯(lián)程度,數(shù)據(jù)可以大體分為兩類:一種是傳統(tǒng)征信數(shù)據(jù),也就是強(qiáng)相關(guān)數(shù)據(jù);另一種是弱相關(guān)數(shù)據(jù),比如社交數(shù)據(jù)、水電煤及經(jīng)營數(shù)據(jù)等。
他表示,現(xiàn)在國內(nèi)注冊(cè)的大數(shù)據(jù)公司有數(shù)萬家,但不少公司的數(shù)據(jù)源都是“替代性數(shù)據(jù)”或弱相關(guān)數(shù)據(jù)。“只有經(jīng)過實(shí)踐驗(yàn)證過的數(shù)據(jù)才是有效數(shù)據(jù),現(xiàn)在市場(chǎng)上普遍流行的社交信息、非還款負(fù)債信息等,嚴(yán)格來說不屬于準(zhǔn)確意義上的征信數(shù)據(jù)。”
由于目前國內(nèi)征信體系的不完善,因此目前行業(yè)中的大數(shù)據(jù)以弱相關(guān)數(shù)據(jù)為多,包括利用一些行業(yè)數(shù)據(jù)、用戶的互聯(lián)網(wǎng)瀏覽數(shù)據(jù)、司法執(zhí)行數(shù)據(jù)、第三方信用數(shù)據(jù)、出行數(shù)據(jù)、電商平臺(tái)的交易數(shù)據(jù)、電話通信數(shù)據(jù)和社交數(shù)據(jù)等等。
數(shù)據(jù)來源大多不明,是否得到用戶授權(quán)是關(guān)鍵
“很多大數(shù)據(jù)風(fēng)控公司的數(shù)據(jù)獲取并未獲得政府部門渠道查詢的授權(quán),數(shù)據(jù)要么是爬取的,要么是各種渠道購買的。”有業(yè)內(nèi)人士表示。
在網(wǎng)絡(luò)上,也有很多售賣用戶信息的公司。這類公司可以公開爬取用戶支付寶、網(wǎng)貸賬號(hào)、郵箱、網(wǎng)銀等信息。行業(yè)中購買數(shù)據(jù)已然成了“公開的秘密”。從各個(gè)渠道挖取用戶數(shù)據(jù),通過電話號(hào)碼、身份證等唯一標(biāo)識(shí)碼(對(duì)某一類數(shù)據(jù)中某個(gè)實(shí)體進(jìn)行唯一標(biāo)識(shí)的代碼),進(jìn)行不同數(shù)據(jù)的整合,最終挖掘出用戶的有用價(jià)值,加以變現(xiàn)。
“公司之間隨意將用戶隱私信息進(jìn)行交換、交易等,這實(shí)在是太正常的情況了。”該負(fù)責(zé)人表示。此前,在販賣個(gè)人信息的QQ群中,新快報(bào)記者也注意到,曾有中介打出0.5元購買一人家庭住址的信息。
不少大數(shù)據(jù)公司的產(chǎn)品說明書中均表述有著大量電商風(fēng)險(xiǎn)名單,但是對(duì)于這類數(shù)據(jù)是否得到合規(guī)授權(quán)卻鮮有披露。比如新快報(bào)記者獲得某知名數(shù)據(jù)風(fēng)控公司業(yè)務(wù)介紹PPT中關(guān)于數(shù)據(jù)概括一欄就顯示“有千萬級(jí)失信名單,來源于合作伙伴反饋的黑名單;10億+的互聯(lián)網(wǎng)泄露數(shù)據(jù)等”,但并未顯示這些數(shù)據(jù)是否得到用戶授權(quán)。
不過,該公司相關(guān)負(fù)責(zé)人則表示前述業(yè)務(wù)介紹為2016年以前的舊版本,“公司業(yè)務(wù)均合法合規(guī),相關(guān)業(yè)務(wù)開展都以授權(quán)和脫敏為前提。”
有業(yè)內(nèi)人士表示,大數(shù)據(jù)公司最需要注意的地方,在取數(shù)據(jù)時(shí)“是否得到客戶授權(quán)”。這決定了數(shù)據(jù)獲取的可持續(xù)性。早在去年征信管理局就出臺(tái)《征信業(yè)務(wù)管理辦法(草稿)》,規(guī)定了信息使用需獲信息主體授權(quán)同意;今年6月開始實(shí)施的《中華人民共和國網(wǎng)絡(luò)安全法》也規(guī)定了任何個(gè)人和組織不得竊取或者以其他非法方式獲取個(gè)人信息,不得非法出售或者非法向他人提供個(gè)人信息。
有業(yè)內(nèi)人士透露,目前行業(yè)中從網(wǎng)絡(luò)獲取大數(shù)據(jù)分為兩種,一種是爬蟲技術(shù),又分為公開信息爬取和授權(quán)爬取。公開信息則可以通過各類公開網(wǎng)站信息獲取,但是后者爬取涉及用戶個(gè)人信息的比如電商網(wǎng)站則需要得到用戶授權(quán)。
此外,除了上述方法外,還有業(yè)內(nèi)人士表示,還有一種技術(shù)是可以通過嵌入某種代碼的軟件開發(fā)工具獲取信息。“這種軟件一旦嵌入后,如果你注冊(cè)登錄了這個(gè)APP并默認(rèn)授權(quán),所有的行為數(shù)據(jù)都能記錄,在神不知鬼不覺的時(shí)候就能爬取手機(jī)通訊錄、聊天記錄、銀行賬號(hào)密碼、定位等信息。”
行業(yè)洗牌在即,將迎來監(jiān)管
雖然行業(yè)中號(hào)稱做“大數(shù)據(jù)”的公司不少,但大多還在最初級(jí)的數(shù)據(jù)收集、買賣階段,真正的數(shù)據(jù)清洗、應(yīng)用技術(shù),還處在探索階段。而黑市數(shù)據(jù)泛濫,個(gè)人隱私泄漏嚴(yán)重的問題,已經(jīng)被監(jiān)管部門治理。
有業(yè)內(nèi)人士表示,不僅僅是數(shù)據(jù)獲取上,在利用數(shù)據(jù)上行業(yè)中各種大數(shù)據(jù)公司也參差不齊。“數(shù)據(jù)清洗,特別是變量衍生的工作,技術(shù)含量其實(shí)是很高的,需要經(jīng)過專業(yè)訓(xùn)練,”該人士表示,最好是有不錯(cuò)的業(yè)務(wù)經(jīng)驗(yàn),對(duì)業(yè)務(wù)有比較透徹的理解,但是當(dāng)前現(xiàn)狀,很多公司從事數(shù)據(jù)清洗的團(tuán)隊(duì)接受的訓(xùn)練和業(yè)務(wù)經(jīng)驗(yàn)往往都不足。“坦白說,在信用風(fēng)險(xiǎn)領(lǐng)域,市場(chǎng)上海量的大數(shù)據(jù)普遍存在著變量相關(guān)性不強(qiáng)、數(shù)據(jù)質(zhì)量良莠不齊的問題。”
早在今年5月,數(shù)據(jù)行業(yè)開始了大清洗,監(jiān)管部門開始清查大數(shù)據(jù)行業(yè)。同樣在5月,最高人民法院通報(bào)了新的司法解釋,明確了“非法獲取、出售或者提供行蹤軌跡信息、通信內(nèi)容、征信信息、財(cái)產(chǎn)信息等個(gè)人敏感信息五十條以上的,即構(gòu)成犯罪,處三年以下有期徒刑或者拘役。”
此外,近日有媒體報(bào)道,由中國互聯(lián)網(wǎng)金融協(xié)會(huì)牽頭,包括首批個(gè)人征信試點(diǎn)機(jī)構(gòu)中的芝麻信用、騰訊征信等,以及百度、網(wǎng)易、360等相關(guān)機(jī)構(gòu),欲攜手打造的個(gè)人征信機(jī)構(gòu)“信聯(lián)”目前的籌建已進(jìn)入實(shí)質(zhì)階段,平臺(tái)架構(gòu)搭建已開始運(yùn)作。
有業(yè)內(nèi)人士表示,“信聯(lián)”的籌建顯然是為了解決目前非銀領(lǐng)域信貸數(shù)據(jù)由于分散不集中衍生的諸多問題,定位在于中國人民銀行征信中心的重要補(bǔ)充,直接作用則是變相解決此前個(gè)人征信牌照“難產(chǎn)”兩年的困局。“此前的試點(diǎn)機(jī)構(gòu),一些企業(yè)本身既有基礎(chǔ)數(shù)據(jù),又做借貸業(yè)務(wù),再出個(gè)人征信報(bào)告,就會(huì)存在既當(dāng)運(yùn)動(dòng)員,又當(dāng)裁判員的問題,在程序上就難以保證公平性,”開鑫金服總經(jīng)理周治翰也表示。
“網(wǎng)聯(lián)的成立,對(duì)于主營業(yè)務(wù)是數(shù)據(jù)買賣的公司而言,生存壓力越來越大。”有業(yè)內(nèi)人士表示,大數(shù)據(jù)行業(yè),進(jìn)入了洗牌期。“一個(gè)行業(yè)的發(fā)展必然會(huì)經(jīng)歷混沌到監(jiān)管再到規(guī)范的過程,期待行業(yè)經(jīng)歷清查、整頓后最終形成一個(gè)良性的環(huán)境。”
中國人民銀行征信中心原資深顧問李銘則認(rèn)為,征信在國內(nèi)是一個(gè)被嚴(yán)重誤解的行業(yè),在當(dāng)前中國很多人還沒有信用歷史的現(xiàn)實(shí)情況下,征信機(jī)構(gòu)使用大數(shù)據(jù)技術(shù)作為風(fēng)控手段是可行的。“考慮到合法合規(guī)和業(yè)務(wù)流程,他推薦可以利用心理測(cè)量學(xué)取得數(shù)據(jù),其在信息相關(guān)性、數(shù)據(jù)主體權(quán)利、許可等方面不會(huì)帶來很多麻煩,預(yù)測(cè)能力也很強(qiáng),”他強(qiáng)調(diào),“我們唯一要注意的是隱私保護(hù)的問題”。