關(guān)于我們聯(lián)系我們

ZestFinance：大數(shù)據(jù)做征信

責(zé)任編輯：editor004 |來源：企業(yè)網(wǎng)D1Net 2014-12-02 11:09:06 本文摘自：36大數(shù)據(jù)

大數(shù)據(jù)

作為“70后”，ZestFinance的CEO 道格拉斯·梅里爾（Douglas Merill）在硅谷已是“元老”級人物。他曾是Google公司的首席信息官，還曾在百代唱片集團任數(shù)字部總裁。2010年，他和來自金融圈的肖恩·布德（Shawn Budde）聯(lián)合創(chuàng)立了ZestFinance（相關(guān)報道見本刊2014年第34期“傳統(tǒng)信用評分挑戰(zhàn)者”）。

ZestFinance系列文：

大數(shù)據(jù)征信應(yīng)用與啟示 ——以美國互聯(lián)網(wǎng)金融公司 ZestFinance為例

ZestFinance，錯誤的信息也是信用數(shù)據(jù)

以大數(shù)據(jù)為基礎(chǔ)分析平臺ZestFinance獲2000萬美元C輪融資

歐美傳統(tǒng)銀行通常采用對所有人都適用的線性回歸模型，其中包含性別、出生地等20個左右變量，對每個人都簡單化處理，以打分卡的形式評分。ZestFinance采用的變量則多達70000個，采用的算法也不是線性回歸模型，而是來自Google的大數(shù)據(jù)模型。

梅里爾接受財新記者專訪時表示，當有一個20個變量的基礎(chǔ)模型時，如果這些數(shù)據(jù)都真實有效，那這個模型就很好用。但問題在于，變量往往有缺失，或不準確。此時，模型給出的分數(shù)就不準確了。“美國之所以有25%的人沒有征信記錄，正是因為這些人數(shù)據(jù)不全。”

目前，共有400萬美國人直接通過ZestFinance申請信用評分，另外在銀行等金融機構(gòu)通過ZestFinance模型獲得信用背書的人數(shù)則遠遠大于該數(shù)字。ZestFinance還有另一個重要組成部分，即ZestCash貸款平臺。ZestCash類似一家小貸公司，直接給那些沒有銀行賬戶或者信用記錄不好的人提供小額貸款。目前，ZestCash直接發(fā)放貸款的客戶數(shù)量約為10萬人。

10個模型和70000個變量

ZestFinance所擅長的，正是在真真假假、或有或無的數(shù)據(jù)海洋里“做游戲”。梅里爾相信，只要池子里的變量多到一定程度，模型給出的分數(shù)就會趨于穩(wěn)定。“舉個簡單的例子，如果你僅買一只股票，你的收入就全都取決于這只股票的漲跌；但如果你分散投資1000只股票，從統(tǒng)計學(xué)角度，即使其中一只股票暴跌，也不會對你的整體資產(chǎn)走勢產(chǎn)生影響。”

同理，當變量足夠多時，即使其中個別變量錯誤或缺失，也不會對最終結(jié)果產(chǎn)生實質(zhì)影響。“所以，只要數(shù)學(xué)邏輯正確，采用的變量越多，模型就越準確。”梅里爾表示。

加拿大傳播學(xué)家麥克盧漢在《理解媒介》一書中提出了著名理論“媒介即是信息”，在梅里爾眼中也有一條類似的理論，“數(shù)據(jù)缺失即是信息”。

在傳統(tǒng)模型中，數(shù)據(jù)缺失意味著盲區(qū)，意味著要用模擬數(shù)據(jù)去“填補”，否則就無法建模。但在ZestFinance的模型中，數(shù)據(jù)缺失本身就可以得出很多有用的結(jié)論。

“數(shù)據(jù)缺失可能是真的缺失，也可能是故意缺失。”梅里爾生動地舉例解釋道，例如，假如在“月消費、壞賬、所用通信網(wǎng)絡(luò)”幾個選項中，如果全部數(shù)據(jù)缺失則是真的缺失；如果前兩項有數(shù)據(jù)，但通信網(wǎng)絡(luò)一欄為空白，說明是申請人故意隱匿信息，從而有欺詐的嫌疑。“正常情況下，電信運營商應(yīng)該可以查到一個人所用的通信網(wǎng)絡(luò)，如果查不到就有問題。”

從模型數(shù)量而言，傳統(tǒng)征信評分通常采用一個模型，而ZestFinance采用十個模型，從不同角度進行計算。

“這十個模型從不同角度衡量申請人的分數(shù)，其中兩個是進行身份驗證防欺詐的，一個是預(yù)測提前還款概率的，其余都是評判還款意愿和能力的。最后我們還會用一個決策模型將十個模型的結(jié)果整合在一起，得到最終的結(jié)果。”梅里爾表示。

在梅里爾看來，模型越多，準確率越高。梅里爾介紹他曾做過的實驗：有兩個模型，對利潤的提升分別是16.9%和9.4%，可能第二個模型往往會被棄用。但如果把這兩個模型放在一起使用，居然利潤提升了38.3%。“如果市場競爭壓力不大，從節(jié)約成本的角度，用第一個模型足矣。但如果市場競爭激烈，兩個模型共用可以大大提高利潤。”

這十個讓梅里爾引以為豪的模型也在不斷進行改進，每個模型平均半年就會誕生一個新版本，替代舊的版本。新版本通常會加入更多的變量和數(shù)據(jù)源。每個新版本模型都以開發(fā)者的名字命名，從而紀念付出勞動與智慧的工程師。

尋找數(shù)據(jù)背后的關(guān)聯(lián)

如今，大數(shù)據(jù)正成為熱門詞匯。關(guān)于大數(shù)據(jù)的定義，梅里爾也給出了自己的定義。“不是數(shù)據(jù)多了就叫大數(shù)據(jù)，我認為大數(shù)據(jù)是指如何將碎片化的信息通過高科技整合應(yīng)用。”

梅里爾不斷強調(diào)，ZestFinance最主要的工作就是尋找數(shù)據(jù)背后的關(guān)聯(lián)。

在ZestFinance模型里，很重要的概念就是“信號”（Signal）。也就是由不同的變量互相碰撞產(chǎn)生的邏輯信息。

ZestFinance模型中大部分信號都是通過機器學(xué)習(xí)找到的。例如，一個人在網(wǎng)上填表喜歡用大寫還是小寫就是一個信號。ZestFinance模型發(fā)現(xiàn)，填表喜歡全部用大寫字母的人違約率更高。

此外，ZestFinance通過機器學(xué)習(xí)發(fā)現(xiàn)，在月收入經(jīng)過驗證的情況下（ZestFinance有一些渠道可以大概獲知一個人的收入狀況），收入越高，違約率越低。然而，在月收入沒有經(jīng)過驗證的情況下，自己填寫月收入7500美元的人違約率是最低的，填寫7500美元以上則數(shù)字越大違約率就更高。

另一個例子，對于傳統(tǒng)金融機構(gòu)而言，月收入可能是他們預(yù)測一個人還款的最重要因素。但梅里爾認為，其實收入高低并不說明問題，收入減去支出的凈收入加上地理因素，才能對還款產(chǎn)生預(yù)測能力。

“有時候不同信號之間的互動可以產(chǎn)生非常有趣的結(jié)果，困難之處在于如何利用數(shù)學(xué)找到信號之間的關(guān)聯(lián)。”梅里爾表示。

“不論收集數(shù)據(jù)還是提取信號，都是機器自動學(xué)習(xí)的過程，在三五秒內(nèi)作出決定，沒有人工參與。”梅里爾說。

盡管硅谷代表著創(chuàng)新，卻同時象征著嚴謹。ZestFinance亦如此。在基礎(chǔ)數(shù)據(jù)的搜集中，ZestFinance并沒有將時尚的社交網(wǎng)絡(luò)視為數(shù)據(jù)寶藏，反而退避三舍，從未將社交網(wǎng)絡(luò)數(shù)據(jù)納入模型。

“很多人將社交數(shù)據(jù)視為神器，但我不這么看。我們主要還是采用結(jié)構(gòu)化和類結(jié)構(gòu)化的數(shù)據(jù)，例如交易信息、法律記錄、租賃信息等，來源主要是從數(shù)據(jù)代理商處購買。”梅里爾坦言，ZestFinance的先進之處并非數(shù)據(jù)來源，“我們有的數(shù)據(jù)銀行都有”，區(qū)別在于，銀行的人有數(shù)據(jù)卻不會用，就好比坐擁大量礦藏卻不會冶煉。相反，ZestFinance最大的優(yōu)勢就是“數(shù)據(jù)冶煉”，同樣的數(shù)據(jù)到了梅里爾手中，就可以碰撞產(chǎn)生無數(shù)有價值的信號。

從無賬戶人群到全民

“我最初的靈感來自我的小姨子。”梅里爾向財新記者追憶道，當時他的小姨子要貸款換一副汽車輪胎，然而銀行因她沒有足夠信用記錄而拒絕。“后來是我給她借了錢。如果我不借錢給她，她就只能去申請高利貸了。”

“ZestFinance的使命就是給這些無銀行賬戶或信用記錄不好的借款人創(chuàng)造透明公正的信用評分。”梅里爾表示。

目前，ZestFinance最主要的服務(wù)對象依然是無賬戶人群和信用記錄不好的人群。

隨著ZestFinance名聲日漸顯赫，不斷有人問梅里爾，“ZestFinance是否將成為FICO的挑戰(zhàn)者？”FICO被譽為美國三大征信公司的“幕后大佬”，三大征信公司和主要金融機構(gòu)采用的信用計算模型都來自FICO。

對于此類問題，梅里爾的回答總是體現(xiàn)著他專注而謙遜的性格。“ZestFinance和FICO，就好比街邊的熱狗攤和麥當勞。”

的確，當前ZestFinance與FICO相比，不能同日而語。FICO占領(lǐng)著美國99%的信用評分市場和絕大部分發(fā)達國家的信用評分市場，而ZestFinance目前尚未走出美國，且主要服務(wù)于無賬戶和信用記錄不好的人群。

ZestFinance的模型天然就適用弱勢群體，因為這類人往往信用數(shù)據(jù)不足，在傳統(tǒng)的FICO模型中，他們會由于數(shù)據(jù)缺失而被拒之門外。但ZestFinance的模型依靠“數(shù)據(jù)缺失即是信息”的理論，依然可給這類人群公正的信用評價。

然而，ZestFinance的確在蠶食著FICO的疆土。根據(jù)惠譽評級公司的研究結(jié)果，F(xiàn)ICO分數(shù)的影響力正在下降。現(xiàn)在美國各個銀行都有自己的模型，他們會用自己的模型去跑征信原始數(shù)據(jù)，F(xiàn)ICO評分只是其中一個參考變量。例如美聯(lián)銀行（Wachovia）對FICO評分的參考比重已經(jīng)下降為零。與此同時，ZestFinance在被越來越多的銀行采用，但梅里爾表示不便透露銀行名稱。

據(jù)投行Keefe，Bruyette &Woods的數(shù)據(jù)，截至2014年6月底，美國六家最大的商業(yè)銀行：富國銀行（Wells Fargo）、美國銀行（Bank of America）、摩根大通（JPMorgan Chase）、花旗（Citigroup）、美國合眾銀行（US Bancorp）、匹茲堡金融服務(wù)集團（PNC Financial Services）合計0.6%壞賬率，較金融危機時期的3.3%大幅下降。

業(yè)內(nèi)人士質(zhì)疑，“傳統(tǒng)金融機構(gòu)的壞賬率已經(jīng)很低，可改進空間很小。”

對此，梅里爾表示，大數(shù)據(jù)模型可以有兩方面用途：可以在同樣通過率的情況下降低壞賬率，或在同樣壞賬率的情況下提高通過率。對于傳統(tǒng)機構(gòu)而言，他們現(xiàn)在的壞賬率已經(jīng)嚴格控在很低的程度，但通過使用ZestFinance，可以使他們的通過率大大提高，這樣對金融機構(gòu)而言意味著更多的收益。

梅里爾的大數(shù)據(jù)模型并非采取傳統(tǒng)的線性回歸方法，而是采取比較復(fù)雜的新方法。所謂新方法，也正是ZestFinance的核心競爭力，也是梅里爾從Google掌握的主要技術(shù)精髓。

梅里爾認為，他從Google學(xué)到的最主要的并非技術(shù)，而是企業(yè)文化。“很多人朝著同一個目標去思考，但思考的角度又各不相同，這就是Google精神。”

在梅里爾看來，團隊是創(chuàng)業(yè)成功的核心。他對大數(shù)據(jù)人才也有著自己的理解和定義。

“大數(shù)據(jù)人才可以來自很多學(xué)科，例如數(shù)學(xué)、心理學(xué)、物理學(xué)等。但學(xué)科背景不是關(guān)鍵，對數(shù)據(jù)的好奇和渴求在我看來才是最重要的。大數(shù)據(jù)人才都應(yīng)該滿懷熱忱，希望用數(shù)據(jù)分析去解決問題和謎團。”梅里爾說。

未必需要“獨立第三方”

梅里爾此次來華是為了參加清華大學(xué)五道口金融學(xué)院的學(xué)術(shù)會議，盡管在中國尚無業(yè)務(wù)，梅里爾表示“常來中國”。每次來華，梅里爾都會和監(jiān)管層、學(xué)者、金融機構(gòu)的人士見面，對中國的征信行業(yè)十分了解。在采訪中，梅里爾也分享了他對中國征信行業(yè)發(fā)展的看法。

按照2013年3月國務(wù)院下發(fā)《征信業(yè)管理條例》和2013年12月央行出臺的《征信機構(gòu)管理辦法》，中國將允許開設(shè)市場化個人征信機構(gòu)。

財新記者獨家獲悉，全國將有不到十家企業(yè)第一批獲得該牌照，候選企業(yè)包括阿里巴巴旗下的芝麻信用、平安集團旗下的前海征信、另外還有騰訊、中誠信、中智信、拉卡拉、深圳鵬元等。

一旦個人征信牌照下發(fā)，獲得牌照的企業(yè)將成為央行征信中心的有力補充，市場也將百花齊放。目前候選企業(yè)都結(jié)合主營業(yè)務(wù)制定了征信業(yè)務(wù)的“特色化道路”，例如阿里側(cè)重線上數(shù)據(jù)挖掘，平安側(cè)重保險行業(yè)，中誠信側(cè)重地方誠信體系建設(shè)等。

令人堪憂的一點是，和美國的三大征信局不同，中國的這批候選企業(yè)大多是“數(shù)據(jù)制造者”。據(jù)央行征信局人士表示，征信機構(gòu)應(yīng)當遵循“兩個第三方”，即數(shù)據(jù)來源于第三方，使用于第三方。這成了很多候選企業(yè)難以逾越的門檻，也成為監(jiān)管層遲遲不肯下發(fā)牌照的隱憂之一。

對此，梅里爾也發(fā)表了自己的觀點。他認為，“第三方”不應(yīng)該成為限制征信業(yè)市場化的桎梏，應(yīng)該允許非第三方機構(gòu)基于自己手中的數(shù)據(jù)對一個人做信用打分。

“征信數(shù)據(jù)原本就是一個個孤島，美國征信業(yè)1980年至2000年期間的發(fā)展，就是從數(shù)據(jù)的孤島逐漸匯聚整合為數(shù)據(jù)池。這是一個很自然的演變過程。中國監(jiān)管層只是站在了一個很有前瞻性的高度，提早對數(shù)據(jù)的客觀性做出了要求。”梅里爾指出。

梅里爾指出，西方世界早期的征信就是很主觀的，靠人際關(guān)系完成。1950年以前，美國評判個人信用的標準完全取決于一個人和征信官員的關(guān)系親疏，極為主觀。直到1950年以后，數(shù)學(xué)評分才逐漸替代了主觀判斷。

“由于中國市場的快速發(fā)展，中國逾越了那段主觀判斷的歷史時期，直接從數(shù)學(xué)評分開始。”梅里爾表示。

目前，P2P網(wǎng)絡(luò)借貸在中國大行其道。據(jù)不完全統(tǒng)計，迄今為止中國約有1200家大大小小的P2P網(wǎng)貸公司。然而，隨著行業(yè)的蓬勃發(fā)展，越來越多的問題浮出水面。數(shù)據(jù)顯示，截至2014年7月，全國總共有156家網(wǎng)貸平臺倒閉或“跑路”，占到網(wǎng)貸平臺總量（1200家）的13%。

梅里爾對P2P也發(fā)表了自己的看法，“在美國有個說法：每個傻子都能借錢，困難的是把錢要回來。這不只是P2P，在任何金融機構(gòu)都適用。”梅里爾說，很多人有很多資本，或者有很好的渠道，但不懂風(fēng)控。在中國，讓信貸能服務(wù)于更廣泛的人群，P2P的作用不容抹殺。然而，在這個游戲中，每家P2P公司是騾子是馬，要靠市場來檢驗。

關(guān)鍵字：ZestFinance 數(shù)據(jù)缺失大數(shù)據(jù)