摘要:在互聯網技術和信息技術的推動下,大數據在金融行業的風控中獲得了引人注目的進展,但是在實際運用中其有效性還需進一步提高。當前大數據風控有效性不足既有數據質量的障礙,也有大數據風控的理論性障礙,還有數據保護的制度障礙。消除這些障礙、提高大數據風控的有效性,需要金融企業、金融研究部門和政府監管部門的共同努力。
大數據已經撼動了世界的方方面面,從商業科技到醫療、政府、教育、經濟、人文以及社會其他各個領域。早在1980年,阿爾文?托夫勒(Alvin Toffler,1980)在《第三次浪潮》一書中就預言大數據將成“第三次浪潮”。奧巴馬政府將大數據定義為“未來的新石油”。凱文?凱利(Kevin Kelly,2014)認為所有的生意都是數據生意。2013年互聯網金融將“大數據”推向了新的高度。金融的核心是風險控制,將風控與大數據結合、不斷完善和優化風控制度和體系,對于互聯網金融企業和傳統金融企業而言都同等重要。
一.大數據風控發展迅速,但有效性不佳
在應用層面,金融行業利用大數據進行風控已經取得了一定的成效。使用大數據進行風控已成為美國等發達國家互聯網金融企業的標準配置。
美國ZestFinance公司開發的10個基于學習機器的分析模型,對每位信貸申請人的超過1萬條原始信息數據進行分析,并得出超過7萬個可對其行為做出測量的指標,而這一過程在5秒鐘內就能全部完成。
為網上商家提供金融信貸服務的公司Kabbage主要目標客戶是ebay、Amazon、PayPal等電商,其通過獲取這些企業網店店主的銷售、信用記錄、顧客流量、評論、商品價格和存貨等信息,以及他們在Facebook和Twitter上與客戶的互動信息,借助數據挖掘技術,把這些店主分成不同的風險等級,以此來確定提供貸款金額數量與貸款利率水平。
中國互聯網金融企業對于大數據風控的運用也如火如荼。
阿里推出了面向社會的信用服務體系芝麻信用,芝麻信用通過分析大量的網絡交易及行為數據,對用戶進行信用評估,這些信用評估可以幫助互聯網金融企業對用戶的還款意愿及還款能力做出結論,繼而為用戶提供相關的金融和經濟服務。
騰訊的微眾銀行推出的“微粒貸”產品,其風控核心就是,通過社交大數據與央行征信等傳統銀行信用數據結合,運用社交圈、行為特征、交易、基本社會特征、人行征信5個維度對客戶綜合評級,運用大量的指標構建多重模型,以快速識別客戶的信用風險。
對于大數據風控的理論研究尚處于萌芽階段,本文以“大數據風控”為主題在CNKI數據庫進行搜索,與此相關的文獻數量可以從側面反映大數據風控的理論研究現狀。
CNKI數據庫中以“大數據風控”為主題的文獻共46篇。在這些文獻中,以報道性的文章較多,重要報紙全文庫和特色期刊總共為33篇,占比72%;而理論研究的文章較少,中國學術期刊總庫為12篇,占比26%;尚沒有CSSCI2014—2015年的來源期刊(如圖1)。
圖1 CNKI數據庫與大數據相關的文獻數量和分類
雖然大數據風控在實踐上已經有所進展,但是其有效性也受到一些挑戰。
例如,以大數據風控為基石的P2P平臺就頻頻暴露出各種各樣的問題來。對于P2P平臺來說,由于其純線上操作的特點,大數據風控的有效性是決定其經營狀況的重要因素,如果大數據風控有效性較差,則面臨的壞賬壓力較大,容易出現提現困難甚至跑路的問題。
網貸之家的數據顯示,2015年上半年新增問題平臺419家,是2014年同期的7.5倍,已超過2014年全年問題平臺數量。截至2015年10月底,全國問題平臺數累積已達1115家。
二.當前大數據風控有效性不足的原因分析
一些學者對于大數據風控的有效性問題進行了研究。
王強(2015)指出當前個人大數據征信的問題,一是數據的真實性,二是數據收集的法律障礙,三是壞賬的不可預測性問題。
甚至有作者認為大數據風控是無效的,陳宇(2015)援引各種證據認為大數據風控是無效的。
總體而言,當前大數據風控有效性欠佳的原因主要有以下幾個方面:
(一)數據的質量問題
當前大數據風控的有效性欠佳,其首要原因就是數據的真實性不高,包括社交數據和交易數據兩個方面。
1.社交數據的真實性問題
美國lendingclub和facebook合作獲取社交數據,在中國宜信也曾大費周折的收集借款人的社交數據,最后兩者得出的結論都是社交數據根本就不能用。美國很多大數據征信公司的信息錯誤率高達50%,垃圾進、垃圾出。
2.交易數據的真實性問題。
當前許多電商平臺的刷單現象非常嚴重,這將導致交易數據的嚴重失真。隨著網購的火爆,有關電商平臺“刷單”的報道屢見報端。
電商“刷單”有兩種方式,一種是商家找所謂的消費者進行“刷單”。賣家買快遞單號,其收件人和寄件人與實際的買家、賣家不一致。
另一種是快遞公司發空包,但快遞公司并未完成配送,而幫助商家完成平臺上的物流信息。
(二)大數據風控的理論有效性問題
從IT技術層面論證大數據風控的實踐性案例已經很多,但是在經濟金融的理論層面,大數據風控還面臨一些問題需要解決。
1.金融信用與社會信用的相關性不確定
目前大數據主要來源于互聯網,而人們在網絡中的表現并不能完全反映其真實的一面。相同的人群在不同場合呈現的特征是不一樣的,尤其是目前人們在線上、線下割裂的狀態,其行為方式往往會出現強烈的反差。
例如有些人不善交際,卻將自己做的美食展示在微博上,吸引大量關注,粉絲暴增。因此網絡并不能確切地證明某人的社交圈子,也就是說互聯網的數據很難還原用戶現實中的信息。
2.大數據對于“黑天鵝”事件的滯后性
在現實世界,總會出現不可預測的“黑天鵝”事件,一旦出現則有可能沖擊大數據風控模型的基本假設,進而影響大數據風控的有效性。大到美國的次貸危機,小到個人意外事件的發生,在某種程度上大數據風控是無法預測的,但這些事件的發生,對宏觀經濟和微觀主體都會產生重大的影響。
例如,2008年美國次貸危機后產生了一種“策略性違約”行為——貸款主體本身有能力還款,但是其在房價遠低于貸款總額的時候,重新購買一套房子,并對之前的房貸斷供,貸款者可以此方法進行“套利”。
雖然此類違約者會因此有不良信用記錄,但是這對信用報告的影響有限,因為其他的債務按期償還。而大數據對這種突變事件的預測能力則非常有限。
(三)大數據收集和使用的制度問題
在數據收集和使用的過程中也面臨著合法使用的問題。如何高效、適度地開發和使用大數據,不僅僅是一個技術問題,也是一個社會問題,這些泄露的數據大量流入數據黑市,造成了用戶安全、企業安全甚至國家安全方面的連鎖反應。數據的收集和使用在很多時候都沒有征得數據生產主體的同意,這導致了數據的濫用和隱私的泄露。
近年來,個人數據泄露事件頻頻發生,因個人數據泄露而造成損失的新聞屢見報端。獵豹移動安全實驗室發布的《2015年上半年移動安全報告》顯示,截至2015年上半年,獵豹共監測到496起數據泄露事件,影響超過544萬人。2015年10月19日,烏云網發布消息稱,網易的用戶數據庫疑似泄露。
圖2 2005-2014年國內外數據泄密情況
資料來源:上海漢均信息技術有限公司《2005—2014年全球泄密事件分析報告》
數據安全問題也將越來越多的企業推向風口浪尖。
上海漢均信息技術有限公司發布的《2005—2014年全球泄密事件分析報告》顯示,10年間,全球泄密事件中,我國泄密事件數量占比為58.5%,其中高頻發地域主要是東部沿海經濟較發達、產業格局以高技術含量為主的一二線城市(如圖2)。
Verizon發布《2015年數據泄露調查報告》,報告覆蓋95個國家,其中有61個報告了問題,涉及79790個安全事件(Security Incident),超過2000個(2122個)確認數據泄露(Data Breach)。
三.提高大數據風控有效性的路徑
盡管大數據風控的有效運用尚處在諸多障礙,但這并不能成為大數據風控無效的理由。因為對于數據這個資源的挖掘尚處于初級階段,在消除障礙、解決問題中前行,是大數據風控發展的必然趨勢。有效掃除當前大數據風控的障礙需要各方面的共同努力,其中金融企業、金融研究部門和政府監管部門的角色尤為重要。
對于金融企業而言,要從基礎數據上保證客戶數據的多樣化、連續性和實時性,確保數據真實可靠。
對于金融研究者而言,可從經濟學、數學等多個角度綜合論證大數據風控的有效性,為大數據風控提供理論支持。
對于政府監管部門而言,需要從法律制度、會計制度等方面進行建設,構建數據合理運用的良好環境體系。
(一)對于金融企業而言,要構建多樣化、連續性和實時性的基礎數據
1.多維度的收集數據,互聯互通,打破數據的孤島
美國征信系統的完善是因為美國政府對其擁有的大數據資源的開放程度日益透明化。
目前我國的大數據風控系統還沒有實現互通互聯,阿里、銀聯、平安、騰訊以及眾多的P2P公司,都是各自為政,P2P公司拿不到央行的數據,幾家大的互聯網平臺在相關大數據的分享上彼此也未互通有無。
因而,各金融企業要建立互聯互通機制,打破數據孤島,從而能多維度地收集數據,確保數據之間能夠相互驗證。
2.從供應鏈交易環節獲取數據
獲取真實數據最好的途徑就是要切入客戶的交易環節,尤其是穩定可持續的交易環節,即供應鏈。
一方面,經過了幾十年的發展,當前的供應鏈都有一套完整上下游進入和退出機制,數據的真實性對于核心企業而言至關重要,因而這些數據的質量非常優異。
另一方面,這些數據和數據維度對于供應鏈中的企業評價是可靠的,金融企業可以此為基礎,加上自身的風險控制經驗,構建一套全新的基于數據的信用評價機制。
3.積極布局“物聯網+”
物聯網覆蓋了產品生產、交易和使用的環節,因而互聯網只是物聯網的一部分。在物聯網下,不僅要獲取交易環節的數據,更重要的是獲取生產環節和使用環節的數據。
因而,金融企業要積極布局“物聯網+”,為獲取更為全面的數據打下基礎。例如,企業機器運行數據,可以收集客戶汽車駕駛數據,可穿戴設備的身體狀況數據,等等。這些數據都是大數據風控不可或缺的部分。
(二)對于金融研究部門而言,可從經濟、金融等多個角度綜合論證大數據風控的有效性,為大數據風控提供理論支持
當前對于大數據風控模型的構建大多是從技術的角度探討的。但是,從經濟、金融角度進行的探討亟待加強,不同的經濟假設會使模型推導的結果產生截然不同的變化。因而,從經濟、金融等角度對大數據風控有效性的研究就顯得很有必要了。比如大數據風控如何順應經濟周期的變化,如何從統計上論證過去的數據對于未來行為判斷的準確性,如何解決道德風險所帶來的不確定性。例如,唐時達(2015)提出要把數據提升至與傳統抵質押品同等重要的高度,建立“數據質押”風控體系。
(三)對于政府監管部門而言,要推動和完善與數據相關的制度建
1.法律制度的建設,對數據的收集和使用予以法律上的保護
我國對于數據保護的制度性舉措散見于多部法律中,如憲法、刑法、侵權責任法等,多是以保護個人隱私、通信秘密等形式出現,尚缺乏一部數據保護的專門性法律。這導致了數據的法律邊界不明,數據保護法律的操作性不強、數據保護執法機制滯后等問題,制約了數據收集和運用的發展。
對此,最理想的狀況是出臺一部《信息保護法》。在完善個人信息保護法律制度的道路上,應出臺《個人信息保護法》,明確國家機關、商家和其他法人、自然人掌握個人信息的邊界和使用的范圍[6-7]。齊愛民、盤佳(2015)認為要構建數據主權和數據權法律制度[8]。2014年最高人民法院頒布的《關于審理侵害信息網絡傳播權民事糾紛案適用法律若干問題的規定》(以下簡稱《規定》)就是此領域的進展之一,《規定》首次明確了個人信息保護的范圍。
2.會計制度建設,對數據資產予以明確的計量
隨著數據重要性的提升,數據列入企業資產負債表只是時間問題,數據將和土地、勞動力和資本一樣,成為一種生產要素(Viktor Mayer-Schnberger,2013)。越來越多的理論界和實務界的研究者都傾向于認為數據將成為個體的財產和資產。
2012年達沃斯世界經濟論壇發布的《大數據,大影響》報告認為,數據已經成為一種新的經濟資產類別。
姜建清在2014達沃斯世界經濟論壇上發表觀點,其認為個體的數據其實就是個體財產的一部分,沒有經過本人同意不應該被濫用。
因此,需要建立相應的會計制度對于數據價值進行科學有效的評估。有學者對此進行了初步研究。例如,劉玉(2014)從會計的角度對數據的資產可行性進行了分析,探討了數據資產的計量方法,研究了大數據資產的折舊、披露等問題。