2014年將是大數據的回歸之年。之前讓人感覺無所不能的大數據,將真正面對實施階段的考驗。今天,51CTO將與張子良老師共同探討傳統行業大數據中的金融大數據。
金融大數據的四步走
金融大數據,目前有四個階段。第一階段是基于數據存儲;第二階段是分布式計算;第三階段是大數據挖掘與分析;第四階段是數據服務。對于商業銀行,包括工商、建設、農業、交通和中行這國有五大行來說,都處于第一階段。其中,建行處于平臺選型階段。農業銀行已經完成數據存儲方面的工作,但還未上線。而張子良老師負責的光大銀行項目,在2013年10月上線,是國內第一家真正意義上將金融大數據應用到銀行核心業務系統的案例。
銀行的大數據處理
銀行等金融機構,對大數據的處理需求有其特殊性。第一個就是結構化數據存儲,第二個是數據挖掘。下面我們將逐一為您解開。
結構化數據存儲,商業銀行有實時查詢數據庫,用來處理歷史金融數據。受限于傳統ROE(Oracel、DB2、Sybase等)數據庫的單表數據量瓶頸。銀行數據超過一定上限就會影響查詢效率。解決瓶頸的方法只能通過提高成本,大量購買高性能硬件和應用軟件來解決。雖然銀行IT部門預算豐富,但也還是需要平衡性能與成本的關系。
另一方面,銀行需要在現有的數據上進行增值挖掘。如果依靠傳統VR,對成本的影響巨大。采用大數據技術、采用分布式集成框架、采用開源框架,一方面滿足了成本依賴,另外一方面運算性能方面有所提升。
在業務數據模型方面,商業銀行分為兩個層面。第一個層面就是面向業務層面,我需要選擇哪些參數來構成我參與預算的數據模型。這是業務層面上面,這一部分是與以前的模型一致。
另外一部分就是針對數據模型還有什么樣的計算方式,需要哪些數據的輸入,這方面發生了變化。因為你傳統離岸模式是單機的,運算性能始終都是它無法突破的東西。所以說它對數據處理的時候,往往是基于銷量數據的,基于出讓數據做小批量的數據嘗試,然后得出一些規律性的東西,然后再反向推導到其它數據,這是傳統的模式。在這個環境里面有了一種突破,就是我可以去全量數據,構建數據模型的參考體系,這個數據量更大。另外一塊性能更高一些,比單機模式要快。
金融大數據安全性
數據安全其實是一個相對的改變。因為在這里面大數據技術與數據安全性能整個要求本身沒有直接的關系。怎么說呢?如果不采用大數據技術,安全性是不是一樣面臨同樣的問題呢?對于傳統模式,無論你采用什么樣的技術,同樣面臨數據安全性的問題。
所以在這個里面包括各個環節,像存儲的安全,傳輸的安全,展現的安全。這種模式,傳統的銀行采用的模式里面,不包括物理網站的隔離,包括訪問權限的控制,包括軟加密這些都是在傳統的模式里面適用的。大數據技術,與銀行數據安全性沒有直接的關系,只不過區別是什么呢?
大數據技術是一個新的技術體系,銀行原來需要單機處理的東西,現在需要在多個節點去參與進來,這樣帶來一個什么樣的挑戰呢?就是必須保證集群是能夠被特定的用戶去訪問,而且特殊的節點不能夠被假冒。如果這個節點正在自動化處理,如果黑客冒充我的某個節點,要保證不會導致數據的泄露。這種情況下其實是大數據在安全方面特殊的要求點,必須做到物理網站的隔離。只有授權節點能夠參與到我集群的工作中,這就是訪問的安全。
節點數據的傳輸,這一塊目前來講銀行的解決辦法還是基于物理網隔離和用戶的授權。這里面還是有瓶頸的,節點與節點之間,數據在共享的時候,速度還是瓶頸。這種加密需要去改造現有的大數據框架,目前來講還沒有看到國內銀行有解決這個問題的。
總結
金融大數據,目前還處于一個逐步實施的階段。商業銀行中的金融大數據,既包括傳統的BI結合,也包括對大數據環境底下數據分析挖掘。相信在2014年,金融大數據在歷史數據存儲和歷史數據倉庫存儲這兩個領域,會有更多落地實施的案例出現。大數據回歸之年,就在2014。