作為“70后”,ZestFinance的CEO 道格拉斯·梅里爾(Douglas Merill)在硅谷已是“元老”級人物。他曾是Google公司的首席信息官,還曾在百代唱片集團任數(shù)字部總裁。2010年,他和來自金融圈的肖恩·布德(Shawn Budde)聯(lián)合創(chuàng)立了ZestFinance(相關(guān)報道見本刊2014年第34期“傳統(tǒng)信用評分挑戰(zhàn)者”)。
ZestFinance系列文:
大數(shù)據(jù)征信應(yīng)用與啟示 ——以美國互聯(lián)網(wǎng)金融公司 ZestFinance為例
ZestFinance,錯誤的信息也是信用數(shù)據(jù)
以大數(shù)據(jù)為基礎(chǔ)分析平臺ZestFinance獲2000萬美元C輪融資
歐美傳統(tǒng)銀行通常采用對所有人都適用的線性回歸模型,其中包含性別、出生地等20個左右變量,對每個人都簡單化處理,以打分卡的形式評分。ZestFinance采用的變量則多達70000個,采用的算法也不是線性回歸模型,而是來自Google的大數(shù)據(jù)模型。
梅里爾接受財新記者專訪時表示,當有一個20個變量的基礎(chǔ)模型時,如果這些數(shù)據(jù)都真實有效,那這個模型就很好用。但問題在于,變量往往有缺失,或不準確。此時,模型給出的分數(shù)就不準確了。“美國之所以有25%的人沒有征信記錄,正是因為這些人數(shù)據(jù)不全。”
目前,共有400萬美國人直接通過ZestFinance申請信用評分,另外在銀行等金融機構(gòu)通過ZestFinance模型獲得信用背書的人數(shù)則遠遠大于該數(shù)字。ZestFinance還有另一個重要組成部分,即ZestCash貸款平臺。ZestCash類似一家小貸公司,直接給那些沒有銀行賬戶或者信用記錄不好的人提供小額貸款。目前,ZestCash直接發(fā)放貸款的客戶數(shù)量約為10萬人。
10個模型和70000個變量
ZestFinance所擅長的,正是在真真假假、或有或無的數(shù)據(jù)海洋里“做游戲”。梅里爾相信,只要池子里的變量多到一定程度,模型給出的分數(shù)就會趨于穩(wěn)定。“舉個簡單的例子,如果你僅買一只股票,你的收入就全都取決于這只股票的漲跌;但如果你分散投資1000只股票,從統(tǒng)計學(xué)角度,即使其中一只股票暴跌,也不會對你的整體資產(chǎn)走勢產(chǎn)生影響。”
同理,當變量足夠多時,即使其中個別變量錯誤或缺失,也不會對最終結(jié)果產(chǎn)生實質(zhì)影響。“所以,只要數(shù)學(xué)邏輯正確,采用的變量越多,模型就越準確。”梅里爾表示。
加拿大傳播學(xué)家麥克盧漢在《理解媒介》一書中提出了著名理論“媒介即是信息”,在梅里爾眼中也有一條類似的理論,“數(shù)據(jù)缺失即是信息”。
在傳統(tǒng)模型中,數(shù)據(jù)缺失意味著盲區(qū),意味著要用模擬數(shù)據(jù)去“填補”,否則就無法建模。但在ZestFinance的模型中,數(shù)據(jù)缺失本身就可以得出很多有用的結(jié)論。
“數(shù)據(jù)缺失可能是真的缺失,也可能是故意缺失。”梅里爾生動地舉例解釋道,例如,假如在“月消費、壞賬、所用通信網(wǎng)絡(luò)”幾個選項中,如果全部數(shù)據(jù)缺失則是真的缺失;如果前兩項有數(shù)據(jù),但通信網(wǎng)絡(luò)一欄為空白,說明是申請人故意隱匿信息,從而有欺詐的嫌疑。“正常情況下,電信運營商應(yīng)該可以查到一個人所用的通信網(wǎng)絡(luò),如果查不到就有問題。”
從模型數(shù)量而言,傳統(tǒng)征信評分通常采用一個模型,而ZestFinance采用十個模型,從不同角度進行計算。
“這十個模型從不同角度衡量申請人的分數(shù),其中兩個是進行身份驗證防欺詐的,一個是預(yù)測提前還款概率的,其余都是評判還款意愿和能力的。最后我們還會用一個決策模型將十個模型的結(jié)果整合在一起,得到最終的結(jié)果。”梅里爾表示。
在梅里爾看來,模型越多,準確率越高。梅里爾介紹他曾做過的實驗:有兩個模型,對利潤的提升分別是16.9%和9.4%,可能第二個模型往往會被棄用。但如果把這兩個模型放在一起使用,居然利潤提升了38.3%。“如果市場競爭壓力不大,從節(jié)約成本的角度,用第一個模型足矣。但如果市場競爭激烈,兩個模型共用可以大大提高利潤。”
這十個讓梅里爾引以為豪的模型也在不斷進行改進,每個模型平均半年就會誕生一個新版本,替代舊的版本。新版本通常會加入更多的變量和數(shù)據(jù)源。每個新版本模型都以開發(fā)者的名字命名,從而紀念付出勞動與智慧的工程師。
尋找數(shù)據(jù)背后的關(guān)聯(lián)
如今,大數(shù)據(jù)正成為熱門詞匯。關(guān)于大數(shù)據(jù)的定義,梅里爾也給出了自己的定義。“不是數(shù)據(jù)多了就叫大數(shù)據(jù),我認為大數(shù)據(jù)是指如何將碎片化的信息通過高科技整合應(yīng)用。”
梅里爾不斷強調(diào),ZestFinance最主要的工作就是尋找數(shù)據(jù)背后的關(guān)聯(lián)。
在ZestFinance模型里,很重要的概念就是“信號”(Signal)。也就是由不同的變量互相碰撞產(chǎn)生的邏輯信息。
ZestFinance模型中大部分信號都是通過機器學(xué)習(xí)找到的。例如,一個人在網(wǎng)上填表喜歡用大寫還是小寫就是一個信號。ZestFinance模型發(fā)現(xiàn),填表喜歡全部用大寫字母的人違約率更高。
此外,ZestFinance通過機器學(xué)習(xí)發(fā)現(xiàn),在月收入經(jīng)過驗證的情況下(ZestFinance有一些渠道可以大概獲知一個人的收入狀況),收入越高,違約率越低。然而,在月收入沒有經(jīng)過驗證的情況下,自己填寫月收入7500美元的人違約率是最低的,填寫7500美元以上則數(shù)字越大違約率就更高。
另一個例子,對于傳統(tǒng)金融機構(gòu)而言,月收入可能是他們預(yù)測一個人還款的最重要因素。但梅里爾認為,其實收入高低并不說明問題,收入減去支出的凈收入加上地理因素,才能對還款產(chǎn)生預(yù)測能力。
“有時候不同信號之間的互動可以產(chǎn)生非常有趣的結(jié)果,困難之處在于如何利用數(shù)學(xué)找到信號之間的關(guān)聯(lián)。”梅里爾表示。
“不論收集數(shù)據(jù)還是提取信號,都是機器自動學(xué)習(xí)的過程,在三五秒內(nèi)作出決定,沒有人工參與。”梅里爾說。
盡管硅谷代表著創(chuàng)新,卻同時象征著嚴謹。ZestFinance亦如此。在基礎(chǔ)數(shù)據(jù)的搜集中,ZestFinance并沒有將時尚的社交網(wǎng)絡(luò)視為數(shù)據(jù)寶藏,反而退避三舍,從未將社交網(wǎng)絡(luò)數(shù)據(jù)納入模型。
“很多人將社交數(shù)據(jù)視為神器,但我不這么看。我們主要還是采用結(jié)構(gòu)化和類結(jié)構(gòu)化的數(shù)據(jù),例如交易信息、法律記錄、租賃信息等,來源主要是從數(shù)據(jù)代理商處購買。”梅里爾坦言,ZestFinance的先進之處并非數(shù)據(jù)來源,“我們有的數(shù)據(jù)銀行都有”,區(qū)別在于,銀行的人有數(shù)據(jù)卻不會用,就好比坐擁大量礦藏卻不會冶煉。相反,ZestFinance最大的優(yōu)勢就是“數(shù)據(jù)冶煉”,同樣的數(shù)據(jù)到了梅里爾手中,就可以碰撞產(chǎn)生無數(shù)有價值的信號。
從無賬戶人群到全民
“我最初的靈感來自我的小姨子。”梅里爾向財新記者追憶道,當時他的小姨子要貸款換一副汽車輪胎,然而銀行因她沒有足夠信用記錄而拒絕。“后來是我給她借了錢。如果我不借錢給她,她就只能去申請高利貸了。”
“ZestFinance的使命就是給這些無銀行賬戶或信用記錄不好的借款人創(chuàng)造透明公正的信用評分。”梅里爾表示。
目前,ZestFinance最主要的服務(wù)對象依然是無賬戶人群和信用記錄不好的人群。
隨著ZestFinance名聲日漸顯赫,不斷有人問梅里爾,“ZestFinance是否將成為FICO的挑戰(zhàn)者?”FICO被譽為美國三大征信公司的“幕后大佬”,三大征信公司和主要金融機構(gòu)采用的信用計算模型都來自FICO。
對于此類問題,梅里爾的回答總是體現(xiàn)著他專注而謙遜的性格。“ZestFinance和FICO,就好比街邊的熱狗攤和麥當勞。”
的確,當前ZestFinance與FICO相比,不能同日而語。FICO占領(lǐng)著美國99%的信用評分市場和絕大部分發(fā)達國家的信用評分市場,而ZestFinance目前尚未走出美國,且主要服務(wù)于無賬戶和信用記錄不好的人群。
ZestFinance的模型天然就適用弱勢群體,因為這類人往往信用數(shù)據(jù)不足,在傳統(tǒng)的FICO模型中,他們會由于數(shù)據(jù)缺失而被拒之門外。但ZestFinance的模型依靠“數(shù)據(jù)缺失即是信息”的理論,依然可給這類人群公正的信用評價。
然而,ZestFinance的確在蠶食著FICO的疆土。根據(jù)惠譽評級公司的研究結(jié)果,F(xiàn)ICO分數(shù)的影響力正在下降。現(xiàn)在美國各個銀行都有自己的模型,他們會用自己的模型去跑征信原始數(shù)據(jù),F(xiàn)ICO評分只是其中一個參考變量。例如美聯(lián)銀行(Wachovia)對FICO評分的參考比重已經(jīng)下降為零。與此同時,ZestFinance在被越來越多的銀行采用,但梅里爾表示不便透露銀行名稱。
據(jù)投行Keefe,Bruyette &Woods的數(shù)據(jù),截至2014年6月底,美國六家最大的商業(yè)銀行:富國銀行(Wells Fargo)、美國銀行(Bank of America)、摩根大通 (JPMorgan Chase)、花旗(Citigroup)、美國合眾銀行(US Bancorp)、匹茲堡金融服務(wù)集團(PNC Financial Services)合計0.6%壞賬率,較金融危機時期的3.3%大幅下降。
業(yè)內(nèi)人士質(zhì)疑,“傳統(tǒng)金融機構(gòu)的壞賬率已經(jīng)很低,可改進空間很小。”
對此,梅里爾表示,大數(shù)據(jù)模型可以有兩方面用途:可以在同樣通過率的情況下降低壞賬率,或在同樣壞賬率的情況下提高通過率。對于傳統(tǒng)機構(gòu)而言,他們現(xiàn)在的壞賬率已經(jīng)嚴格控在很低的程度,但通過使用ZestFinance,可以使他們的通過率大大提高,這樣對金融機構(gòu)而言意味著更多的收益。
梅里爾的大數(shù)據(jù)模型并非采取傳統(tǒng)的線性回歸方法,而是采取比較復(fù)雜的新方法。所謂新方法,也正是ZestFinance的核心競爭力,也是梅里爾從Google掌握的主要技術(shù)精髓。
梅里爾認為,他從Google學(xué)到的最主要的并非技術(shù),而是企業(yè)文化。“很多人朝著同一個目標去思考,但思考的角度又各不相同,這就是Google精神。”
在梅里爾看來,團隊是創(chuàng)業(yè)成功的核心。他對大數(shù)據(jù)人才也有著自己的理解和定義。
“大數(shù)據(jù)人才可以來自很多學(xué)科,例如數(shù)學(xué)、心理學(xué)、物理學(xué)等。但學(xué)科背景不是關(guān)鍵,對數(shù)據(jù)的好奇和渴求在我看來才是最重要的。大數(shù)據(jù)人才都應(yīng)該滿懷熱忱,希望用數(shù)據(jù)分析去解決問題和謎團。”梅里爾說。
未必需要“獨立第三方”
梅里爾此次來華是為了參加清華大學(xué)五道口金融學(xué)院的學(xué)術(shù)會議,盡管在中國尚無業(yè)務(wù),梅里爾表示“常來中國”。每次來華,梅里爾都會和監(jiān)管層、學(xué)者、金融機構(gòu)的人士見面,對中國的征信行業(yè)十分了解。在采訪中,梅里爾也分享了他對中國征信行業(yè)發(fā)展的看法。
按照2013年3月國務(wù)院下發(fā)《征信業(yè)管理條例》和2013年12月央行出臺的《征信機構(gòu)管理辦法》,中國將允許開設(shè)市場化個人征信機構(gòu)。
財新記者獨家獲悉,全國將有不到十家企業(yè)第一批獲得該牌照,候選企業(yè)包括阿里巴巴旗下的芝麻信用、平安集團旗下的前海征信、另外還有騰訊、中誠信、中智信、拉卡拉、深圳鵬元等。
一旦個人征信牌照下發(fā),獲得牌照的企業(yè)將成為央行征信中心的有力補充,市場也將百花齊放。目前候選企業(yè)都結(jié)合主營業(yè)務(wù)制定了征信業(yè)務(wù)的“特色化道路”,例如阿里側(cè)重線上數(shù)據(jù)挖掘,平安側(cè)重保險行業(yè),中誠信側(cè)重地方誠信體系建設(shè)等。
令人堪憂的一點是,和美國的三大征信局不同,中國的這批候選企業(yè)大多是“數(shù)據(jù)制造者”。據(jù)央行征信局人士表示,征信機構(gòu)應(yīng)當遵循“兩個第三方”,即數(shù)據(jù)來源于第三方,使用于第三方。這成了很多候選企業(yè)難以逾越的門檻,也成為監(jiān)管層遲遲不肯下發(fā)牌照的隱憂之一。
對此,梅里爾也發(fā)表了自己的觀點。他認為,“第三方”不應(yīng)該成為限制征信業(yè)市場化的桎梏,應(yīng)該允許非第三方機構(gòu)基于自己手中的數(shù)據(jù)對一個人做信用打分。
“征信數(shù)據(jù)原本就是一個個孤島,美國征信業(yè)1980年至2000年期間的發(fā)展,就是從數(shù)據(jù)的孤島逐漸匯聚整合為數(shù)據(jù)池。這是一個很自然的演變過程。中國監(jiān)管層只是站在了一個很有前瞻性的高度,提早對數(shù)據(jù)的客觀性做出了要求。”梅里爾指出。
梅里爾指出,西方世界早期的征信就是很主觀的,靠人際關(guān)系完成。1950年以前,美國評判個人信用的標準完全取決于一個人和征信官員的關(guān)系親疏,極為主觀。直到1950年以后,數(shù)學(xué)評分才逐漸替代了主觀判斷。
“由于中國市場的快速發(fā)展,中國逾越了那段主觀判斷的歷史時期,直接從數(shù)學(xué)評分開始。”梅里爾表示。
目前,P2P網(wǎng)絡(luò)借貸在中國大行其道。據(jù)不完全統(tǒng)計,迄今為止中國約有1200家大大小小的P2P網(wǎng)貸公司。然而,隨著行業(yè)的蓬勃發(fā)展,越來越多的問題浮出水面。數(shù)據(jù)顯示,截至2014年7月,全國總共有156家網(wǎng)貸平臺倒閉或“跑路”,占到網(wǎng)貸平臺總量(1200家)的13%。
梅里爾對P2P也發(fā)表了自己的看法,“在美國有個說法:每個傻子都能借錢,困難的是把錢要回來。這不只是P2P,在任何金融機構(gòu)都適用。”梅里爾說,很多人有很多資本,或者有很好的渠道,但不懂風(fēng)控。在中國,讓信貸能服務(wù)于更廣泛的人群,P2P的作用不容抹殺。然而,在這個游戲中,每家P2P公司是騾子是馬,要靠市場來檢驗。