作為互聯網金融當中最熱門最活躍的領域,P2P現在發展速度非???。P2P模式最早誕生于英美,它的發展主要依據兩個重大條件,一是互聯網技術使得交易效率提高,這個中國有;二是征信數據的廣泛適用及覆蓋,這個中國沒有。正是由于這兩條,中國P2P行業內對于征信問題及大數據挖掘的探討熱鬧非凡。
在中國,由于征信體系不健全且不向P2P機構開放,這使得征信成本高昂。業界現在熱議大數據,電子商務也好,互聯網金融也好,無疑都視之為一座商機無限的金礦。
那么什么是大數據?對于P2P機構來說,大數據能夠幫助解決哪些問題?
數據多不一定是大數據
討論大數據的第一個邏輯是,什么是大數據?簡單來說,大數據指的應該是數據很多,但為什么不叫“多數據”而叫做“大數據”?因為這個名稱來自英文翻譯“Big Data”。
很多的數據是否就是大數據的基礎?全世界最大的銀行是工商銀行,全世界最大的移動運營商是中國移動,工商銀行和中國移動積累的客戶數和數據量在全世界無可比擬,它們自然有很多數據,但它們是不是大數據呢?
現在手機是聯網的,但通過中國移動查詢異地手機用戶的費率是查不到的,它們互相之間是隔開的,無從知道這個客戶的生活方式,如果它有這種技術手段的話,做出微信的就應該是中國移動而不是騰訊。
從根本上來說,簡單地使很多數據堆積在一起不叫大數據。大數據主要表示一種技術手段,來使得數據的存取、分析可以非常高效進行。首先需要技術框架,其次是分析手段。
技術框架是指,這樣的技術方式只能在現代環境下產生,比如說云計算、云存儲等算法在以前是不可能實現的。分析手段是指,以前要么就是不具備分析工具,有數據卻算不出來,要么就是分析占的時間太長,沒有實施的可能性,要么就是算法沒有實質解決問題的空間,這些隨著現代計算機技術的發展,網絡技術的發展都解決了。
除了技術框架和分析手段,更重要的是一種大數據理念。舉個例子,如果我想獲得一個房間內每個人的身份證號碼,不同想法的人解決這個問題的思路是什么樣的?
想象一下在傳統銀行工作的人會怎么解決這個問題?他們會堵在門口說,把身份證給我看一下,確認看了你的身份證號碼以后記下來核對你的照片,這么做費時費力還沒有準確性。
大數據的做法是怎樣的呢?我們會給每個人發一個電腦,讓你輸入你的身份證號碼。想象一下,一個人從接到電腦以后5秒鐘就開始輸入數據,在10秒鐘之內18位數字輸完遞交,后臺檢查正確。另外一個人,他從20秒鐘以后開始輸入數據,輸入兩個數字以后輸到第三位把前面兩個數字刪掉,再接下來輸幾位,輸第十位的時候把前面十位再刪掉,再開始輸入。運用大數據的方法,后臺會記錄你每一個按鍵的速度、時間、屬性,我在后臺制定一套計算方法,把這個過程描述出來。從而就可以判斷哪個人的身份證號碼可能是真的,哪個人的身份證號碼可能是假的。
這個例子說明了,大數據是一種技術手段,不是簡單的數據堆積,并不是公司越大就自然而然有大數據了,也并不是說公司小就沒有大數據。
大數據的局限性
大數據問題的由來比較技術化,它是從概率論開始發展,然后延伸到數理統計、人工智能、數據倉庫、數據集市。大數據現在最前沿的幾個技術包括,機器學習、類型識別、神經網絡。
大數據在信貸風險管理中的作用是回答兩方面的事情。
首先,大數據解決現狀分析,即發生了什么。這個客戶的生活方式、喜好,比如說移動電話上裝了可定位的設備。移動公司可以根據定位信息知道,恰好有一批人在同一個時間點出現在一起了。它會聚集這一批人的信息,搜索你平時發表什么言論,寫了什么樣的微信,據此判定你的職業,你的任務是什么,這也就是發生了什么。
第二,大數據解決會發生什么的問題。從信貸關系角度上看,知道你今天下午要干什么幾乎沒有意義。信貸分析、風險管理所關心的問題是,給你一筆錢有多大的概率會不還,如果給你1萬塊錢會怎么樣,如果給你10萬塊會怎么樣。
基于當今的互動網絡數據,個人資料其實很難被掩飾,這恰恰是說很多互聯網公司或者大數據的機構試圖說用“知道你是誰”來做從事商業模式的主要考慮。
在“你是誰、你是做什么的”這些問題得到答案之后,這時候能不能做一個信貸決策呢?這要畫一個巨大的問號!答案是不一定的。
大數據在這個領域當中回答的問題跟征信局可以回答的問題是不同的。傳統的征信局可以回答的是三個問題——你的還款意愿、還款能力和穩定性,這是信貸授信過程中最重要的三個問題,可是大數據回答不了。
交易數據和社交網絡數據不能直接轉換為信貸決策,這個在歷史上有很多著名的案例可以證明。美國運通曾試圖通過交易數據發行信用卡業務,基于這種方式提供信貸產品,這造成了巨大的失敗。美國著名P2P公司Lending Club,利用Facebook的社交網絡數據來確定客戶的信用度,在遭受巨大的損失之后改用了征信局的數據,導致了后來業務發生巨大的變化,壞賬率下降很多。
所以大數據有用,但是跟征信數據不一樣,它們回答的問題是不同的。在國際上,美國和英國的征信體系相對比較完善,互聯網金融機構可以向征信局購買數據發起客戶營銷。但在中國內地,征信局的覆蓋是比較局限的。中國人民銀行征信數據覆蓋8億人,但是只有2.9億人有信貸記錄。由于目前征信體系尚不健全,且不對P2P機構開放報送和查詢數據,行業首要的是解決征信覆蓋的問題。
“Test And Learn”
顯然,大數據在互聯網金融領域已經成為熱詞,但是如何利用對于開采者來說,卻是“八仙過海、各顯神通”。在信而富看來,“Test And Learn”,才是大數據應用于P2P風險管理的核心方法。
“Test And Learn”,意思為“測試與獲知”,對信而富來說,意味著在放款實踐中收集數據,通過建立風險模型和目標變量,研究客戶數據與信用行為之間的關系,從而調整授信策略。
目前信而富借款人大概幾十萬。我們在客戶數據分析當中對每個借款個體采集的數據項超過1500個,并須在“細枝末節”中尋找線索。比如,關注申請人的郵政編碼最近12個月是否變更,關聯的信用卡張數是否變化,最近3個月、6個月的信用卡消費總額、交易類別與交易次數是否出現異常等。這些變量構成了信而富CDS(自動化授信決策系統)的重要依據。
總體來說,我們在自動化授信決策中主要依據幾個緯度,根據不同的借款類型、不同的地區,借款金額、借款用途等,這個緯度結構具體組成了一個網狀型的決策機制。
第一個緯度是預測你還款的可能性。
第二個緯度是,你這個申請從根本上來說有多大可能是假的。也許你的數據很好,看上去很漂亮,但是借款人的名字填的不是你。也就是說你有多大可能性在你的申請過程中采用了假的數據。說輕一點叫數據不真實,更嚴格來說叫“欺詐”。
第三個緯度是,假定借款人借給你錢以后,你所產生的風險調整后的收益是多少,你可以為整個交易貢獻多少,你可以為借給你錢的人提供多少收入。
但是數據的紛繁復雜會讓開采者遭遇困境。在信而富設置的上千個數據緯度中,實際有用的數據可能只有100個。不同數據緯度間的邏輯關系,也很有可能產生沖突。不斷地測試并且獲取正確的數據維度和信息,構成了信而富的大數據應用的核心機密。