隨著大數(shù)據(jù)時(shí)代的快速發(fā)展,到目前為止,在大數(shù)據(jù)領(lǐng)域當(dāng)中的投資已經(jīng)越來越熱,而且做得公司越來越多。有多少公司到底真正使用的是大數(shù)據(jù)?我相信幾乎沒有太多。
大數(shù)據(jù)在美國(guó)金融當(dāng)中最直接的場(chǎng)景,就是所謂的信用評(píng)估體系。美國(guó)的信用體系評(píng)估很簡(jiǎn)單,就幾樣?xùn)|西:債務(wù)歷史、債務(wù)、信用歷史時(shí)間、相關(guān)的其他因素。這些東西全部加起來形成了美國(guó)現(xiàn)有的評(píng)分體系。
一般來說,如果變量放得太多了,模型處理起來就會(huì)比較麻煩。最主要一點(diǎn)它的深度比廣度要重要。所以,過去20年的記錄,和最近一年當(dāng)中才有記錄,二者之間是不一樣的。
另外,關(guān)注用戶的歷史遠(yuǎn)遠(yuǎn)多于現(xiàn)在,也許這個(gè)人一開始是個(gè)屌絲,最近突然發(fā)財(cái)了,可能他的償還能力就會(huì)有巨大的改變,但是這樣的因素有沒有體現(xiàn)在這個(gè)里面?很多人不知道。怎樣把縱向和橫向廣度上的東西都放進(jìn)來,這個(gè)就會(huì)顯得相對(duì)來說比較重要一點(diǎn)。
大數(shù)據(jù)到底在金融當(dāng)中有什么用處?同樣一個(gè)人在不同的應(yīng)用和領(lǐng)域當(dāng)中也不一樣。比如今天在這個(gè)公司當(dāng)中呆了20年,不一定說明他是個(gè)好員工,很有可能是他沒有能力跳槽。如果你用另外一個(gè)角度評(píng)判這個(gè)人的話,你的評(píng)判標(biāo)準(zhǔn)和應(yīng)用變量應(yīng)該完全改變。但是非常可惜,沒有人從這個(gè)角度上衡量一個(gè)人。
為什么最終會(huì)把風(fēng)控放到一個(gè)這么重要的角度上來?像在中國(guó)的P2P公司,6個(gè)月或者一年之后,能剩下四分之一都是一個(gè)奇跡,很多P2P公司一定會(huì)死掉,或者被并購(gòu)掉。在所有的熱潮慢慢退去的時(shí)候,風(fēng)控就會(huì)放到最顯著的地位上來。
直接征詢用戶的答案也是很重要的。你可以在一個(gè)地方撒謊,你可以在兩個(gè)地方撒謊,但是如果我大數(shù)據(jù)采了千千萬(wàn)萬(wàn)的點(diǎn),很難把千千萬(wàn)萬(wàn)的點(diǎn)在互相不矛盾的情況之下,把它給偽裝起來,如果真的能偽裝成這樣,那就不是一個(gè)欺騙的過程,所以很難通過大數(shù)據(jù)的方法讓一個(gè)人還能夠完全的編造一個(gè)不被識(shí)破的謊言,很難。
大數(shù)據(jù)模型理念,一切數(shù)據(jù)皆為信用數(shù)據(jù)。所有的那些關(guān)鍵變量,如果單獨(dú)知道提出來一個(gè),沒有太大的用處能夠判斷出來這個(gè)人怎么樣,但是如果把所有的這些細(xì)小的因素全部結(jié)合在一起,就會(huì)發(fā)現(xiàn)最后是非常強(qiáng)的指向,可以很準(zhǔn)確的判斷出來這個(gè)人到底在做什么。只看關(guān)聯(lián)不看因果,這是一個(gè)非常重要的觀點(diǎn)。
同樣名字聽起來很好,機(jī)器學(xué)習(xí),咱們都會(huì)深刻的體會(huì)到,實(shí)際上是我們很悲催的學(xué)習(xí)機(jī)器,根本不是機(jī)器在學(xué)習(xí)我們。如何能夠更好的跟機(jī)器進(jìn)行溝通,我們給他一個(gè)方法,或者給他一個(gè)事實(shí),他能夠更快的從當(dāng)中提取出來,更多的是一種互動(dòng)。
大數(shù)據(jù)的模型之二,我們認(rèn)為是數(shù)據(jù)的來源。即使錯(cuò)誤信息也是信息,也體現(xiàn)了一個(gè)人的素質(zhì)。
第三點(diǎn)就是所謂的建模,總而言之,大數(shù)據(jù)當(dāng)中對(duì)所謂特征的變化,特征的提取和最后所謂獨(dú)立模型細(xì)節(jié)的建立,最后模型的整合都跟以前傳統(tǒng)統(tǒng)計(jì)上的理論有很大的區(qū)別。
最后這個(gè)是比較有意思的事情,這件事情在中國(guó)基本上不存在,但是在美國(guó)相對(duì)比較麻煩,大數(shù)據(jù)和相關(guān)立法之間的關(guān)系。相信中國(guó)在今后立法越來越完善也會(huì)碰到這樣的問題,信用評(píng)估上有些禁區(qū),這些禁區(qū)不能碰的。第一性別絕對(duì)不可以用的,來決定這個(gè)人到底信用值怎么樣,這是絕對(duì)不可以的。第二年齡,年齡沒有性別那么嚴(yán)重,但是年齡有要求,只能作為一個(gè)加分因素,而不能作為減分因素,年齡大家現(xiàn)在很多人也是不用的。第三種族,絕對(duì)不能觸碰的紅線,絕對(duì)不能根據(jù)是亞洲人、黑人、白人還是拉丁裔,判定你的信用是好是壞。比如在中國(guó)你在街上開車或者在美國(guó),墻上寫著字告訴你這個(gè)地方不能原地掉頭,就是因?yàn)樘嗳嗽谶@個(gè)地方原地掉頭了,所以才會(huì)樹個(gè)牌子,如果這個(gè)地方窄,你不用寫,也不會(huì)有人原地掉頭。禁止使用的這些東西,其實(shí)真正最能體現(xiàn)一個(gè)人的本質(zhì)。實(shí)際上從我們模型當(dāng)中能看得出來,這些不準(zhǔn)用的東西,如果用的話,比千千萬(wàn)萬(wàn)的信息加在一起都有用。
D1Net評(píng)論:
此外,大數(shù)據(jù)另外一個(gè)比較奇怪的應(yīng)用,就是它可以幫助你繞過一些法律上的紅線,這并不是打法律的擦邊球,而是因?yàn)槭挛锏谋举|(zhì)就是由這幾個(gè)因素來決定的,A可以突出C,B又可以突出C,A和B之間必然有相關(guān)的。