大數(shù)據(jù)征信可以極大的豐富目前P2P行業(yè)的征信系統(tǒng),雖然無法起到替代作用,但是可以從更多維度進(jìn)行判斷。但是排除政策等系統(tǒng)性障礙,大數(shù)據(jù)征信目前還面臨著幾個嚴(yán)峻的問題,導(dǎo)致不能完全發(fā)揮效用。
9月23日,由上海市經(jīng)信委、上海市金融辦指導(dǎo),上海市信息服務(wù)行業(yè)協(xié)會牽頭編纂的《2014上海網(wǎng)絡(luò)信貸服務(wù)業(yè)白皮書》發(fā)布。白皮書顯示,目前央行征信中心針對擁有信用記錄公民收集的信息共包含兩類。一類是個人基本信息,另一類是信用卡消費(fèi)及還款記錄。但P2P網(wǎng)貸行業(yè)判斷借款人信用評價的數(shù)據(jù)包含手機(jī)清單、個人收入證明、社保信息、家屬身份信息、駕照信息等多達(dá)34個信息類別。這一現(xiàn)象充分顯示了央行征信系統(tǒng)的局限性,因此,一直備受關(guān)注的P2P行業(yè)大數(shù)據(jù)征信再次引發(fā)關(guān)注。借這個機(jī)會,陽光寶利市場研究部希望對P2P行業(yè)大數(shù)據(jù)征信進(jìn)行一次前瞻分析,簡單解讀這一趨勢的特點與動態(tài)。
在討論大數(shù)據(jù)征信問題之前,首先要明確所謂大數(shù)據(jù)的概念。很多人以為,數(shù)據(jù)規(guī)模大就是大數(shù)據(jù),這種觀點是錯誤的。所謂大數(shù)據(jù),不但數(shù)據(jù)規(guī)模大,而且最重要的是要數(shù)據(jù)結(jié)構(gòu)復(fù)雜。正如前文提到的央行征信系統(tǒng),其中包含了8億居民的信用卡信息,規(guī)模巨大,然而由于只包含這一類信息,數(shù)據(jù)結(jié)構(gòu)極其簡單,因此并不能稱之為大數(shù)據(jù),充其量只能稱其大型數(shù)據(jù)庫。數(shù)據(jù)結(jié)構(gòu)復(fù)雜要求針對數(shù)據(jù)庫中每一個實體都有非常多屬性的數(shù)據(jù),以個人來說,不但要有各種社會學(xué)背景、財務(wù)數(shù)據(jù)等等,還應(yīng)包括上網(wǎng)習(xí)慣、操作行為、移動路徑等等一系列的數(shù)據(jù),達(dá)到這種復(fù)雜程度的數(shù)據(jù)結(jié)構(gòu)才能被稱為大數(shù)據(jù),才是P2P征信需要的大數(shù)據(jù)。
目前,有這種復(fù)雜數(shù)據(jù)積累并且已經(jīng)具備大數(shù)據(jù)分析基礎(chǔ)的公司只有兩家——百度和阿里巴巴。幾乎所有中國網(wǎng)民都會使用百度或阿里巴巴的產(chǎn)品,因此這兩家公司有足夠的數(shù)據(jù)儲備。同時,這兩家公司都在至少五年以前就開始投入大量資源探索大數(shù)據(jù)業(yè)務(wù)。百度公司已經(jīng)有一系列探索性質(zhì)的大數(shù)據(jù)分析結(jié)果公布出來,根據(jù)這些分析結(jié)果判斷,百度在大數(shù)據(jù)分析技術(shù)上已經(jīng)趨于成熟。其研究成果最具代表性的就是百度經(jīng)濟(jì)指數(shù)預(yù)測。百度通過大數(shù)據(jù)對未來三個月進(jìn)行經(jīng)濟(jì)指數(shù)預(yù)測,其預(yù)測結(jié)果與三個月后國家統(tǒng)計局公布的統(tǒng)計結(jié)果重合度極高:
圖一:百度經(jīng)濟(jì)指數(shù)預(yù)測
阿里雖然始終沒有公布其大數(shù)據(jù)的研究成果,但是阿里巴巴已經(jīng)開放大數(shù)據(jù)平臺,同時保持每年暑假都舉辦大數(shù)據(jù)競賽,吸引了大量優(yōu)秀人才參與大數(shù)據(jù)分析工作中,又將這些人才的個人電腦納入了大數(shù)據(jù)云端處理系統(tǒng),增強(qiáng)了數(shù)據(jù)處理能力。在阿里巴巴成功IPO后,更是將大數(shù)據(jù)列為其募集資金的三大投資領(lǐng)域之一,因此即便其還沒有成型的大數(shù)據(jù)研究成果出爐,但是可以預(yù)見阿里巴巴在這一領(lǐng)域應(yīng)該很快就會有所建樹。
從目前阿里巴巴和百度擁有的數(shù)據(jù)資源判斷,筆者認(rèn)為未來P2P大數(shù)據(jù)征信的數(shù)據(jù)框架大概如下:
社會學(xué)背景:最基礎(chǔ)的分析維度,通過用戶注冊信息獲得;
現(xiàn)金流:判斷經(jīng)濟(jì)狀況的基礎(chǔ)維度,通過寶寶類產(chǎn)品、第三方支付等數(shù)據(jù)獲得;
操作習(xí)慣:不同職業(yè)的用戶操作習(xí)慣有非常顯著的差異,可以用來佐證用戶職業(yè)類型,通過用戶操作習(xí)慣記錄系統(tǒng)獲得;
信息偏好:不同階層用戶信息偏好同樣有顯著差異,通過用戶搜索習(xí)慣獲得;
消費(fèi)習(xí)慣:消費(fèi)習(xí)慣代表消費(fèi)能力,通過用戶消費(fèi)記錄獲得;
人際網(wǎng):根據(jù)社會分層理論,社會人總是在和自己同一層次的人互動,通過APP讀取聯(lián)系人信息獲得;
遷徙特征:可判斷是否為本地人、旅游目的地偏好等,通過APP發(fā)送定位信息獲得;
消費(fèi)場所信息:消費(fèi)場所檔次特征可以代表消費(fèi)能力,通過APP發(fā)送定位信息獲得。
可見,大數(shù)據(jù)征信可以極大的豐富目前P2P行業(yè)的征信系統(tǒng),雖然無法起到替代作用,但是可以從更多維度進(jìn)行判斷。但是排除政策等系統(tǒng)性障礙,大數(shù)據(jù)征信目前還面臨著幾個嚴(yán)峻的問題,導(dǎo)致不能完全發(fā)揮效用。
第一,非結(jié)構(gòu)化數(shù)據(jù)處理。在年初的百度大數(shù)據(jù)論壇上,百度公司的數(shù)據(jù)科學(xué)家就曾提到,目前百度大數(shù)據(jù)面臨的最大問題就是無法從海量非結(jié)構(gòu)化數(shù)據(jù)中篩選出有價值的數(shù)據(jù),百度公司每天凈增數(shù)據(jù)量大約為1PB,其中至少99%是無效數(shù)據(jù),如何從中篩選出有效數(shù)據(jù)目前還是一個無法攻克的難關(guān)。
第二,自然語義分析。大數(shù)據(jù)征信中有大量需要應(yīng)用到自然語義分析的工作,如信息偏好等,都需要將文字轉(zhuǎn)化為可以量化的數(shù)據(jù),然而由于漢語不是進(jìn)制語言,計算機(jī)無法直接識別,所以只能依靠自然語義分析,但漢語詞語組合極其復(fù)雜,自然語義分析最基礎(chǔ)的工作分詞依然無法通過計算機(jī)完成,目前所有自然語義分析都是基于詞庫分詞,效率極其低下,完全無法適應(yīng)用戶互聯(lián)網(wǎng)使用習(xí)慣的快速變化。
第三,大數(shù)據(jù)分析與市場研究的鴻溝。這一點是目前大數(shù)據(jù)征信面臨最大但也最容易被人忽略的問題。當(dāng)大數(shù)據(jù)還只停留在數(shù)據(jù)層面上時,對于P2P征信是沒有意義的,必須有人將數(shù)據(jù)轉(zhuǎn)化為結(jié)論,有何種上網(wǎng)行為的人按時還款的可能性更高,有哪些信息偏好的人更容易違約等等,這些問題無法直接反映在大數(shù)據(jù)的分析結(jié)果上,此時就需要有善于解讀和分析客戶行為的市場研究方通過市場研究手段進(jìn)行數(shù)據(jù)解讀與建模,然后才能被P2P公司應(yīng)用。因此,大數(shù)據(jù)能夠完全應(yīng)用到P2P征信領(lǐng)域的前提是大數(shù)據(jù)部門與市場研究部門的對接融合,將數(shù)據(jù)轉(zhuǎn)化為結(jié)論。但目前這兩個部門之間存在非常嚴(yán)重的鴻溝,試想,一群連馬斯洛都沒聽說的數(shù)據(jù)分析工程師與一群連oracle都不會讀的市場研究人員之間在溝通時如何相互理解?因此目前中國整體大數(shù)據(jù)領(lǐng)域面臨的最大問題就是數(shù)據(jù)分析工程師已經(jīng)寫出了大量的算法代碼,但不知應(yīng)該怎么用,而市場研究人員也做了大量假設(shè)和建模,但不知道怎么實現(xiàn),雙方在溝通的時候都在自說自話,溝通之后都發(fā)現(xiàn)自己什么都沒聽懂。這也就導(dǎo)致了大數(shù)據(jù)還只停留在一些有成型模型的宏觀層面應(yīng)用,無法深入到像P2P征信這種細(xì)化到個人行為判斷的深度。
因此,陽光寶利市場研究部認(rèn)為,可以預(yù)期,在將來個人征信牌照發(fā)放之后,P2P大數(shù)據(jù)征信應(yīng)該首先通過社會學(xué)背景和現(xiàn)金流這兩個簡單維度進(jìn)行探索,同時等待自然語義研究的發(fā)展以及數(shù)據(jù)分析與市場研究單位打破雙方之間的技術(shù)壁壘順利對接,才能開始真正意義上的大數(shù)據(jù)征信時代。