精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

程學旗:運用大數據發展互聯網金融

責任編輯:editor004

2014-11-28 11:18:06

摘自:中國電子銀行網

我的報告可能跟整天的報告不太一樣,我的報告里可能沒有太多的涉及到跟支付相關的工作,希望能夠從數據以及數據處理技術角度給大家一些參考。再舉一些具體的例子,比如金融大數據和互聯網金融,比如基于數據的征信、支付、風控、投資和危機預警。

2014年11月26日,2014中國支付清算與互聯網金融論壇在京舉行,本屆論壇以“支付變革與互聯網金融發展”為主題,重點研討了支付變革的創新、互聯網金融治理等熱點問題,為行業發展具有重要引領作用,中國人民銀行潘功勝副行長出席論壇并發表了重要講話,中國人民銀行支付結算司研究部門及中國銀監會創新監管部等領導也做了主題演講,來自銀行、保險、中國銀聯、非金融支付機構、互聯網金融機構、互聯網企業、基金公司等企業負責人及科研院所的國內外專家都做了精彩的分享。

中國科學院技術研究所副總工程師程學旗在會上作主題演講,他表示,支付、金融、ONLINE、OFFLINE的核心是數據,對于金融支付大數據,不僅僅要考慮大數據通用的處理技術,還要考慮特定的大數據應該用什么技術處理,能夠把大數據的價值挖掘出來。

數據價值是什么呢?程學旗表示,在垂直領域里有很多價值,比如做分析、做預測,比如征信體系的制定,或者做用戶行為的挖掘、信息的推介、產品的推介,而這些東西基于大數據和數據管理可歸成三類,一是對現狀進行分析和感知;二是對未來的趨勢進行預測和判斷;三是在對現狀感知、對未來預測時候,形成的決策調控行為。感知現在、預測未來、決策調控三大類應用,無論在科學發現,還是智慧政府、智慧城市,包括重大疾病檢測、網絡安全以及金融領域,都面臨相對共性的需求。

對于大數據計算的挑戰性問題,程學旗認為,第一個問題是數據復雜性問題;第二個問題是數據的多樣性;第三個問題是數據的傳輸、存儲和處理;最后一個問題是基于所謂的數據復雜性度量、復雜性的優化和系統復雜性的設計。在這其中怎么處理好數據的安全和隱私,程學旗認為,在金融領域是一個非常重要的問題,無論是監管,還是個人隱私、商業機密,或是數據從數據權屬角度講,都非常重要。

他表示,要讓數據價值放大,通過某種程度有償的數據共享實現這個行業生態更大規模的發展,構建更好的生態體系,是特別需要重點關注的一個問題。在技術層面,基于大數據的金融產品的推薦,基于大數據發展態勢的推薦和預測也許比傳統的數據分析、數據挖掘更有價值。程學旗認為,大數據和金融的結合是非常有前途的,也許未來還有很多預想不到的新的模式創新。

大數據也在密切影響著金融新浪潮,互聯網金融的核心在于大數據,但哪些數據對互聯網金融可能是有作用的呢?程學旗認為,一個是通信數據,包括用戶實名信息、用戶通訊時的地理位置信息,以及用戶歷史上產生的事件信息,二是銀行數據,比如通過手機支付數據,還有互聯網瀏覽日志,比如社交網絡上的行為日志,三是電商數據。通過這些數據,可以給用戶一個精準的畫像,比如年齡、興趣愛好、收入、誠信度等。歸類好、組織好這些數據,最后就能產生價值。

程學旗

以下為發言實錄:

程學旗:各位下午好!

我的報告可能跟整天的報告不太一樣,我的報告里可能沒有太多的涉及到跟支付相關的工作,希望能夠從數據以及數據處理技術角度給大家一些參考。

首先,講數據的問題。前面講到支付、金融、ONLINE、OFFLINE,核心是數據,我們首先要理解數據來源于哪里,我們把數據分成一個類別,從物理世界產生的數據,包括地理信息產生的數據、物理空間的數據,還有人與人之間交互的數據,以及信息空間里的數據,比如電商產生的數據,產生了交織關系,叫做數據界,所謂的數據,來源于哪里呢?存在數據界,叫信息世界、物理世界、信息空間。

數據是客觀存在的,存在什么呢?它的形式是什么呢?是關聯和網絡化的,在關聯和網絡化數據情況下,我們講所謂的大數據,大數據里,在不同領域我們所分析的數據對象本身的特征是不一樣的,比如在金融領域的數據和醫療領域的數據其實在規模、數據類型、數據質量、數據的變化方面本身的特點是不一樣的。我們金融支付大數據的時候,我們不僅僅講大數據通用的處理技術,還是要考慮我們這個領域的大數據應該用什么技術處理,能夠把大數據的價值挖掘出來,怎么樣有針對性的選擇我們的系統、選擇我們的IT技術,把IT價值挖掘出來。

數據價值是什么呢?在垂直領域里有很多價值,比如我們做分析、做預測,比如征信體系的制定,或者做用戶行為的挖掘、信息的推介、產品的推介,我們把這些東西歸成三類,基于大數據和數據管理,一個是對現狀進行分析和感知,這是第一類數據價值的利用;第二類,對未來的趨勢進行預測和判斷;第三類,對現狀感知、對未來預測時候,我們希望形成一些行為,比如在股市或者在經濟環境里邊,我們用什么政策、用什么手段能夠讓它往上漲或者往下降,預測與決策。感知現在、預測未來、決策調控三大類應用,無論在科學發現,還是智慧政府、智慧城市,包括重大疾病檢測、網絡安全以及金融領域,都面臨相對共性的需求。

大數據計算的挑戰性問題,我們認為數據有四個復雜性,構建這樣一個大的數據,在社會、物理和信息空間里交互,交織在一起,互相產生一些演變性的東西,導致我們對數據的度量越來越復雜。剛才,社科院一位老師講到在金融領域的數據大部分是結構化數據,金融領域目前用的大部分是結構化數據,其實還有大量非結構化數據,只是沒有很好的利用起來。如果把結構化數據和非結構化數據關聯起來一起用,數據怎么進行度量?比如支付日志數據和網上的輿論數據和產品競爭對手的情報數據能不能關聯起來做綜合分析,這樣的話,直接帶來一個問題,第一個問題叫數據復雜性問題。第二個問題,我們看到的數據是多樣的,多樣的數據,我們要處理的時候,計算復雜性。第三個問題,數據在哪里,我要存下來,比如Paypal的數據,有智能終端,這些數據是不是全傳到數據中心里做綜合的設計分析,還是在智能終端上直接處理和判斷,尤其是在線上的實時交易過程中,數據系統怎么構建?數據的傳輸、數據的存儲、數據的分析以及數據在不同終端的應用,整個數據體系怎么構建,這是系統復雜性問題。最后一個問題,基于所謂的數據復雜性度量、復雜性的優化和系統復雜性的設計,最后,我們要用數據干什么?做預測,或者做征信,或者做判斷,帶來的是對數據結果的感知和學習,叫學習復雜性。我們歸納為四個復雜性,進一步講所謂的數據復雜性問題,上面有些報告中講到小微有多大的數據量、淘寶有多少數據量,數據量當然是對數據復雜性的一個關鍵要素,但是,它不是唯一要素,數據之間的復雜關聯是帶來數據復雜一個更重要的要素,數據的復雜關聯和數據的聚集變化對數據復雜性的影響遠遠超過多大量的數據帶來的數據復雜性的影響。比如在多空間里,在支付寶里,在不同空間,比如在社區里,比如在新聞里,比如社交媒體里,大家都要用這個東西,這種行為在不同空間里進行數據源頭的相互交互,如果我們發現它的規則和規律的話,帶來多數據空間模式的判定,這種模式的判定,比單空間復雜性要大規模提高,指數級的放大,我們做分析和處理的時候,首先要解決大規模網絡模式數據復雜性精簡的表達和度量。計算復雜性,在金融支付領域,最大的是流式數據計算,如果在很短做決策,所有數據傳輸過來之后快速地做決策,不僅僅是基于當前流過來的數據,還有歷史上的數據,帶來計算處理模式上的難點,現在有各種處理軟件,由于計算機體系結構的限制,使得計算過程中沒辦法實時精準的計算流式數據的規則,我們需要給出一種基于全模態流式數據的簡約計算與增量計算方法,在當前的領域里還沒有成熟的技術。系統復雜性,大部分看作后臺日志,更多的只考慮傳輸,存下來之后,分析時候時拿存下來的數據進行處理,現在系統處理架構把存儲、感知、計算分離,存儲、感知、計算分離,導致大量數據存下來之后在線上的價值利用比較有限,在這種情況下,能不能從感知存儲計算變成流式全生命周期新的系統架構,這種新的系統架構要考慮到系統自身存儲計算資源的調度和實時響應能力。學習復雜性,更多的是從數據里面挖掘知識,從知識推斷出結論。在大數據里面臨的挑戰是什么?一是要認識數據的內在規律,二是對數據的復雜性要進行新的度量,在此基礎上,數據在哪里?怎么感知?這是第一個階段,叫數據感知,數據拿來之后在哪里存?怎么查詢?叫存儲管理,還有怎么判斷?怎么決策?怎么做出像征信這樣的處理?這是計算推斷的問題。

剛才,對數據進行了一些思考,涉及到的技術是哪些呢?從文件到對數據的查詢,還有其它各種高級的技術,比如數據的分析、挖掘。互聯網領域、電商領域是大規模的數據,在金融領域是非常大規模的數據,比如國內技術到底應用到什么程度?進展到什么程度?這是中國計算機協會大數據專家委員會每年會投票,這是去年年底對2014年大數據發展技術方面的預測,這個月底下個月初會發展2015年大數據發展技術預測,跟大家分享一下我們去年的預測,看看目前的技術處理到了什么手段。

第一,應用驅動的大數據價值。第二,大數據處理的架構是多樣化的,包括類似Hadoop、MapReduce這樣的體系,多模式并存對目前數據處理架構帶來一種新的挑戰,結構化數據是一種模式,非結構化數據是模式,結構化數據和非結構化數據結合是一種模式,文本數據和語音數據、音頻數據怎么結合,我們很難用單一結構處理這樣的數據,目前狀況是多種架構共同解決一個問題,比如關于查詢的問題,關于判定的問題,關于預測的問題,多家融合處理。第三,安全和隱私,在金融領域是一個非常重要的問題,無論是監管,還是個人隱私,還是商業機密,還是數據從數據權屬角度講,這是非常重要的問題,今年您出的時候,國務院報告里提到一個很重要的方面,比如在線金融支付的安全問題,實際上傳統金融一樣存在安全問題,大數據帶來的價值和便利的同時,安全的問題也可能是非常關鍵的問題,目前,從技術手段來講,可能還沒有從理論上證明是完備性的手段,關于安全隱私問題是我們需要重點關注的。數據分析與可視化,還有數據本身的共享,在座有很多金融界的大公司,自己有很多數據,支付是不是只有靠大公司才能真正做的起來呢?我們有大量第三方數據分析,可不可以利用我們的數據做三次價值放大,能不能通過某種程度有償的數據共享實現這個行業生態更大規模的發展,構建更好的生態體系,這是特別需要重點關注的一個問題。技術問題,基于大數據的金融產品的推薦,基于大數據發展態勢的預測等等,推薦和預測也許比傳統的數據分析、數據挖掘更有價值,這是非常有前途的技術。深度學習和智能處理,包括行為的深度挖掘和學習,包括用戶畫像,涉及到一系列算法層面的學習和智能技術,當然,還有數據規則問題,最后是生態問題,移動互聯網帶來的大數據生態逐步擴大的問題。我們說了十個問題,原來我們并不是完全針對金融或者針對支付這個小的垂直領域說的,剛才,聽了大家發言之后,我覺得那十個問題在我們這個領域一樣存在,我們做數據處理是為搞工具的人提供工具和平臺支持的,搞IT的人一直在想辦法解決這些問題,但是,如果沒有跟具體領域需求和數據結合的話,我們提的觀點和問題可能永遠解決不了,永遠被可能被我們的領域所使用,包括隱私的問題、預測的問題、可視化的問題。我們講的十個問題在金融領域如果能夠結合起來,將產生重要的價值。從分析角度來講,深度學習,只是鏈接,社會計算,強可視化,對數據價值進一步產生提升的分析技術。

最后,舉幾個例子,在中國當前領域里,在產業上能看到的比較大的有前途的大數據應用領域里,包括網絡、電信網絡和互連網絡,網絡大數據、金融大數據、健康醫療、企業管理、政府管理和安全,首先,數據規模比較大,其次,基礎比較大,金融排第二位,金融放大體量也許排第一位。大數據和金融的結合是非常有前途的,也許未來還有很多預想不到的新的模式創新。

再舉一些具體的例子,比如金融大數據和互聯網金融,比如基于數據的征信、支付、風控、投資和危機預警。互聯網金融,前面已經有些專家講到互聯網金融和大叔據金融到底是什么關系?互聯網金融的核心在于大數據,到底是哪些數據呢?我嘗試進行了歸納,不見得一個公司能夠拿到所有數據,但是,這些數據對互聯網金融可能是有作用的,一個是通信數據,包括用戶實名信息、用戶通訊時的地理位置信息,以及用戶歷史上產生的事件信息,這是通信數據,還有銀行數據,比如通過手機支付數據,還有互聯網瀏覽日志,比如社交網絡上的行為日志,還有電商數據,這些數據怎么使用呢?通過這些數據,可以給用戶一個精準的畫像,比如年齡、興趣愛好、收入、誠信度,比如我們有一個例子,比如不知道一個人銀行對象,也許取他最親密50個朋友的中值就能了解到他個人大概的畫像數據,什么意思呢?這個人是不是誠實可靠,他50個朋友如果誠實可靠,這個人也可能就誠實親靠,我們不僅僅看交易數據,不僅僅看銀行存多少錢,以及有多少不動產,還要看行為、社交,看日常活動就可以推導出另外的一些數據。怎么樣歸類好、組織好?最后產生價值,營銷、信貸、信用,包括風險管理,比如陸金所講的風險有6%,如果把更多的數據利用起來的時候,是不是降低為3%?比反過去催款可能更有價值,把更多的數據比較好的用起來,這是一方面。

在線推薦,Qzone流量變現平臺“廣點通”,無論廣告推薦,還是產品營銷,還是用戶的朋友推薦,比如用戶畫像的問題,比如基本屬性、愛好、用戶在網絡上面的行為、用戶當前的狀態等等,這些數據都可以通過ONLINE的數據來畫像,可以跟通訊行為的數據結合起來。下面的幾個例子是我們自己做的,一個例子是病毒式營銷,什么叫病毒式營銷呢?我們把一個產品推廣出去的時候,一種做法是在中央電視臺打廣告,尤其是新聞聯播的時候,多少人同時看,這是一種推銷模式。另外一種模式是在社交網絡里通過點對點的傳播,其實小米的營銷就是典型的病毒式營銷方法,不是找一個很大的集中式的媒體往外擴散,而是通過人對人口舌相傳的模式進行營銷,這種營銷也有成本問題,在中央電視臺打廣告時候,可能一個億、兩個億,占黃金時段多少秒。影響力最大化,從計算角度來講,它是什么問題呢?是典型的組合爆炸問題,如果一億人之間進行點對點傳播的話,找到最優傳播路徑是很難的,大家做的基本是近似性算法,花很高高價擴散,最后可能沒有達到理想的覆蓋度,在全局和局部之間怎么做優化判定的問題,在靜態、動態之間做一個平衡型建模,使得算法可依提高一千倍,比傳統經典算法可依提高三個數量級,可以快速找到最有影響力的人,在快速時間內把你的價值和產品推銷出去。

功勞分配,投入資本,回收利潤的時候,投入多少資本回收多少利潤,很簡單,有人投入資金,有人投入智慧,有人投入平臺,這些人投在一起的時候,最后收益怎么分給大家?我們提前制定一個協議,你5%,他8%,拍腦袋也許是一種做法。能不能利用更加科學合理的辦法進行判定,這是很有意思的問題,馬克思講勞動分配是我們的三大基本關系,從數據上也能發現一個有意思的新問題,從論文發表的角度來看,現在科學論文、技術論文發表的時候,現在有特別多的作者,好多作者一起寫一篇文章,排第一的貢獻大?還是排第二的貢獻大?很難說,早期寫論文的時候,不需要分配,一個人搞定,功勞、利益一個人得,現在合作越來越多,以諾貝爾獎為例,2007年諾貝爾獎、1997年諾貝爾獎和2012年諾貝爾獎,獲獎論文是這樣幾篇文章,有第一作者的,有最后作者的,有第三個作者的,文章獲獎了,誰的貢獻是最大的?隨機一看好象是擲篩子的過程,沒有任何規律,怎么讓分配或者貢獻的評價更加科學合理,現在的辦法要么均分,要么按照所謂固定的約定規則來做,比如企業發展初期,可能資本是第一位的,企業發展的第二階段,可能平臺是第一位的,到第三階段,可能市場是第一位的,最后上市的時候,很難說誰的貢獻大。我們提出一個新的階段,涌現只能與群體決策,通過社會決策給公平合理的分配。我們預測諾貝爾獎獲得者,標志宏觀的都是預測對的,對一百年來以來諾貝爾化學獎和物理獲得者進行預測,準確率在86%,比如這篇文章中最后一個作者獲獎,有些文章中的第一名作者獲獎了,利用群體智慧進行判定。

大家知道,政治也是一種期貨,我們做大選預測的時候,尤其是西方國家一些財團到底支持誰,預測誰能當選的問題是非常有意思的問題,對每一個選舉人的政治觀點、經濟觀點、歷史上各方面情況做分析,也許是非常復雜的問題,你可能拿一千個特征做判定,最后可能只能選擇因素里1%,你不知道哪個因素決定了他能當選,你不知道哪個因素決定他能比另外一個當選者搞一個百分點、兩個百分點。這時候怎么辦?從數據角度看這個問題,先不管這些人到底是什么經濟政策、什么外交政策、什么政治理念,我們就看他在網民中的口碑如何,通過口碑直接判定。包括我們預測臺灣、美國的,準確率基本在99%,很簡單,用社會媒體的數據直接做決策,不對候選人做經濟、政治方面能力做分析,只對網民對他的傾向性進行預測。另外,我們做股票預測,我們做了兩個事情:一方面,我們跟結算中心合作時候的例子,哪些股票是被操縱的?就是內幕交易,莊家操縱,如果利用結構化數據測算很難挖掘出這個是被操縱的,只能看到股票突然上去了、突然下去了,我們往往找人談話有沒有涉及到欺詐、不對稱信息披露等等,事后破案性的分析很難對這個問題做有價值的科學判定,我們直接針對交易網絡,交易網絡其實可以揭示操縱行為,我們發現一個很有意思的問題,在股票交易網絡里面,股票交易往往在節點強度和頻度之間是隨機性的,頻度和強度往往是隨機變化的,帶來的是線性關系,沒有被操縱的股票是線性關系;在右圖中,如果一支股票被操縱,交易量和交易頻度之間產生非線性關系,只要一發生,基本判定是非常準確的,可以通過交易相關度做判定。另外,對股價做預測,這是所有人關心的問題,華爾街幾千個數學家做這個事情,用各種模型做組合,像投票大選預測一樣,也存在這個問題,對股價做預測,正常情況下,是連續變化,非正常情況下是離散變化,比如能源股的變化,如果哪個地方出了颶風或者亞丁灣出現什么事情或者政治事件,比如中東發生一個政治事件,股價立馬變成跳躍性變化,能不能提前預測到?這是很重要的問題,比如結構化數據、非結構化數據加上各種政治因素、軍事因素影響,很多人做組合因素分析,有一種分析是直接對股民情緒進行判定,這是我們對中國市場分析的結果,中國90%是散戶,往往帶有情緒化,他往往在網絡空間里把自己的想法說出來,投票之前先告訴別人他要怎么出手,匯集所有信息之后,我們只對網上股民信息情緒做分析,可以對股價的走勢進行漲跌的判定。我們對一支股票上證指數的預測,基本提前三天,越往后預測,股票價格預測不準確了,但是走勢還是相對比較清晰的,為什么對價格預測不準確呢?因為我們根本沒有用結構化數據,比如這支股票現在多少錢,我根本沒有用這個數,完全用股民情緒化數據做預測,至少對漲跌可以作出否終程度的預測,結果是什么?有了這些數據之后,有了多元異構數據之后,也許還有新的商業模式的創新,這是我的建議,謝謝大家!

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 房产| 滨海县| 错那县| 远安县| 嘉善县| 元江| 敦化市| 宁南县| 象州县| 德昌县| 无棣县| 万安县| 枞阳县| 陵水| 仁化县| 如东县| 察雅县| 龙海市| 吴堡县| 台州市| 仁寿县| 新河县| 乐平市| 清涧县| 密山市| 宁阳县| 济源市| 邵阳县| 渝北区| 印江| 武清区| 高平市| 乌什县| 紫阳县| 东莞市| 铁岭市| 林州市| 红原县| 循化| 安宁市| 明溪县|