到目前為止,在大數據領域當中的投資已經越來越熱,而且做得公司越來越多。有多少公司到底真正使用的是大數據?我相信幾乎沒有太多。
大數據在美國金融當中最直接的場景,就是所謂的信用評估體系。美國的信用體系評估很簡單,就幾樣東西:債務歷史、債務、信用歷史時間、相關的其他因素。這些東西全部加起來形成了美國現有的評分體系。
一般來說,如果變量放得太多了,模型處理起來就會比較麻煩。最主要一點它的深度比廣度要重要。所以,過去20年的記錄,和最近一年當中才有記錄,二者之間是不一樣的。
另外,關注用戶的歷史遠遠多于現在,也許這個人一開始是個屌絲,最近突然發財了,可能他的償還能力就會有巨大的改變,但是這樣的因素有沒有體現在這個里面?很多人不知道。怎樣把縱向和橫向廣度上的東西都放進來,這個就會顯得相對來說比較重要一點。
大數據到底在金融當中有什么用處?同樣一個人在不同的應用和領域當中也不一樣。比如今天在這個公司當中呆了20年,不一定說明他是個好員工,很有可能是他沒有能力跳槽。如果你用另外一個角度評判這個人的話,你的評判標準和應用變量應該完全改變。但是非常可惜,沒有人從這個角度上衡量一個人。
為什么最終會把風控放到一個這么重要的角度上來?像在中國的P2P公司,6個月或者一年之后,能剩下四分之一都是一個奇跡,很多P2P公司一定會死掉,或者被并購掉。在所有的熱潮慢慢退去的時候,風控就會放到最顯著的地位上來。
直接征詢用戶的答案也是很重要的。你可以在一個地方撒謊,你可以在兩個地方撒謊,但是如果我大數據采了千千萬萬的點,很難把千千萬萬的點在互相不矛盾的情況之下,把它給偽裝起來,如果真的能偽裝成這樣,那就不是一個欺騙的過程,所以很難通過大數據的方法讓一個人還能夠完全的編造一個不被識破的謊言,很難。
大數據模型理念,一切數據皆為信用數據。所有的那些關鍵變量,如果單獨知道提出來一個,沒有太大的用處能夠判斷出來這個人怎么樣,但是如果把所有的這些細小的因素全部結合在一起,就會發現最后是非常強的指向,可以很準確的判斷出來這個人到底在做什么。只看關聯不看因果,這是一個非常重要的觀點。
同樣名字聽起來很好,機器學習,咱們都會深刻的體會到,實際上是我們很悲催的學習機器,根本不是機器在學習我們。如何能夠更好的跟機器進行溝通,我們給他一個方法,或者給他一個事實,他能夠更快的從當中提取出來,更多的是一種互動。
大數據的模型之二,我們認為是數據的來源。即使錯誤信息也是信息,也體現了一個人的素質。
第三點就是所謂的建模,總而言之,大數據當中對所謂特征的變化,特征的提取和最后所謂獨立模型細節的建立,最后模型的整合都跟以前傳統統計上的理論有很大的區別。
最后這個是比較有意思的事情,這件事情在中國基本上不存在,但是在美國相對比較麻煩,大數據和相關立法之間的關系。相信中國在今后立法越來越完善也會碰到這樣的問題,信用評估上有些禁區,這些禁區不能碰的。第一性別絕對不可以用的,來決定這個人到底信用值怎么樣,這是絕對不可以的。第二年齡,年齡沒有性別那么嚴重,但是年齡有要求,只能作為一個加分因素,而不能作為減分因素,年齡大家現在很多人也是不用的。第三種族,絕對不能觸碰的紅線,絕對不能根據是亞洲人、黑人、白人還是拉丁裔,判定你的信用是好是壞。比如在中國你在街上開車或者在美國,墻上寫著字告訴你這個地方不能原地掉頭,就是因為太多人在這個地方原地掉頭了,所以才會樹個牌子,如果這個地方窄,你不用寫,也不會有人原地掉頭。禁止使用的這些東西,其實真正最能體現一個人的本質。實際上從我們模型當中能看得出來,這些不準用的東西,如果用的話,比千千萬萬的信息加在一起都有用。
大數據另外一個比較奇怪的應用,就是它可以幫助你繞過一些法律上的紅線,這并不是打法律的擦邊球,而是因為事物的本質就是由這幾個因素來決定的,A可以突出C,B又可以突出C,A和B之間必然有相關的。