中國建設銀行信息技術管理部資深經理林磊明
1、銀行壓力越來越大
從十二五走到十三五期間,銀行業面臨的各方面的壓力越來越大,從我們的年報數字可以看出去年四大行的利潤增長基本上趨近于零增長。在這樣的情況下,我們怎樣通過IT的引領提升傳統銀行的競爭力,這是擺在我們面前的一個很重要的課題。
2、過去十多年期間,銀行業務出現兩個拐點
大數據怎么樣能夠在智慧銀行的方向上起到更大的作用呢?
通過銀行的歷程佐證這樣一個觀點。過去十多年期間銀行基本上有兩個拐點, 第一個拐點就是發生在互聯網銀行慢慢取代柜員,IT支持從支持幾萬十幾萬的柜員到支持面向所有的互聯網客戶,這里面發生了一個根本性的變化,無論是服務的形態還是IT的支撐,都發生了很根本的變化,這是移動和云要在里面發揮作用。 下一個拐點是什么?銀行要從原來做的賬務性的、交易性的處理轉向能夠滲透到經濟生活的方方面面,這是一個場景化,如果抓不住這個拐點,銀行就要被互聯網金融顛覆或者管道化。
3、三大互聯網渠道已建立,具備大數據基礎
這幾年銀行三大互聯網渠道已經建立: 手機銀行,已達到1.8億多; 網上銀行,我們有2億; 微信銀行,它占的客服服務總量已經超過了傳統的客戶服務。 這意味著我們的渠道、我們場景化的實踐已經見到了效果,另外我們做大數據要具備的基礎已經存在。
4、大數據要解決3大問題
談大數據,對傳統銀行來講,要解決3大問題: 怎么樣提升對于客戶的識別? 怎么樣對于客戶的營銷? 怎么樣提升對于風險的防范?
所以,無論是用傳統的結構化的數據,還是用現在互聯網形態下面非結構化的數據,要解決的問題都是這些,只不過我們現在有了更豐富的數據源,有了更好的對于數據處理的方法。 目前,建設銀行已經成立了上海大數據分析中心,這不屬于技術部門,屬于信息管理部門。
5、建行大數據平臺設計思路
從設計目標有這幾條:
策略上架構先行,我們已經有很好的基礎架構。1、基礎能力上,我們在做一些基礎的大數據分析工具的搭建。2、要想明白用數據做什么?我一直不太同意你先不要管你做什么,先把平臺搭起來,我不太清楚有多少人從做數據倉庫過來,當時提的很多的概念是垃圾進垃圾出,到了大數據時代沒人提這個事情了,好像所有大數據都是質量很高的,但這方面要警惕。
功能架構設計,和大家都差不多,從采集、存儲、分析、展現到應用。我要強調的是從這個結構來說,這是很完美的一個結構,但要能夠實時或者及時地反映到你的業務流程當中去,反映到你的營銷當中去。不要拘泥于一個結構。
數據設計,我們有一個演變過來的整體的結構。這里面我想強調一點,大數據是數據的一部分,結構化的數據是大數據的一部分,這兩個東西不要割裂來看。
6、建行大數據成果
我們的大數據平臺取得了一些成果: 實時的數據倉庫上:我們能夠對客戶經理做實時的數據提供和交付,提供無論是并發的訪問還是實時服務方面。 從數據的應用模式上:我們總結了六類數據應用模式,包括挖掘類、數據實驗室、機器查詢、儀表盤、固定報表、自動查詢等等。
建立“模型實驗室”:現在越來越發揮了更大的作用,我們能夠基于結構化和非結構化的數據支持大數據模型的研發,這個模型研發出來我們能夠很快地把它部署到生產當中去,能夠為一些決策,未風先管理服務。
在非結構化大數據的應用方面,做探索:比如客戶行為偏好的數據,錄音文本、地理數據的應用、能耗數據的應用、媒體信息、員工行為數據等等。通過位置服務終端識別的新技術新數據的采用,拒絕可疑風險事件,上半年避免1.9萬起,避免客戶損失1.4億,這種數據越來越大。
7、未來,場景化、標準化、平臺化
剛才我提到了場景化,我們希望能夠把金融數據的服務將來標準化和平臺化,平臺化之后能夠在基礎的大數據能力、基礎數據的提供甚至一些分析數據的提供,基礎應用,客戶花香、征信評級的監測,為無論是內部的客戶還是外部的客戶提供更好的大數據技術,這是從技術方面來看大數據下一步做的工作。
中國工商銀行軟件開發中心信息科技專家王曉平
1、工行大數據面臨的挑戰
如何處理數據量的快速增長?首先全行的數據量的快速增長,包括我們現在工行每天的交易量,外部互聯網金融,工行的三大互聯網平臺造成用戶的交易數據和行為數據有大幅的增長。 如何快速智能分析歷史數據? 工行從2000年開始建立數據倉庫以來,擁有了龐大的歷史數據資產,在新的環境下怎么能夠快速地智能分析,對我們提出了更高的挑戰。 如何使用內外數據,描述客戶特征?在數據源方面,除了本單位數據,也需要采納外部的數據來配合進行分析。工行已經引入了征信數據、稅務數據等,怎么做到比較全的數據去描繪我行的客戶特征,這是作為我們的一個新的課題。
2、工行大數據戰略思路
工行整個的戰略思路是通過我們行的兩庫一司的建設來完善大數據體系。 兩庫是信息庫和數據倉庫,數據倉庫在工行的建設和銀行的建設中都是比較傳統的,主要是應對我們之前的銀行交易數據、賬戶數據,采用結構化的數據存儲來進行相關的處理。前兩年的時候工行啟動了信息庫的建設,主要指非結構的數據。 通過兩庫的建設,我們還建設了一支分析師隊伍,能夠對這些龐大的數據進行相關業務的加工處理和分析。
3、發展階段
工行大數據的發展歷程可以分幾個階段,從TB級已經進入了PB級的建設階段,接下去在可預見的幾年內會進入EB級的龐大體量
最早工行是2000年初,那個時候大數據的領域更多的還是應用在一些報表的快速展現,所以那個時候我們是基于比較傳統的Oracle和SaaS,做了T+1的動態報表,行領導和管理層能夠在第二天上班前看到我們行昨天的經營數據,這是最早建立的。
2007年工行基于當時最先進的企業級的數據倉庫的體系架構啟動了工行的企業級數據體系的建設,做了全行統一的管理數據的大集中。
2010年基于我們的數據倉庫的數據支持,我們推出了工行的MOVA管理會計系統,做了全行績效考核的管理系統。 2013年隨著外部形勢的發展,大量數據爆發式的出現,我們引進了大數據領域在業界最流行的Hadoop技術,在Hadoop基礎上搭建了信息庫,發展是非常快的。
2014年工行基于大數據,原來的大數據采用連機異部批量的方式,通過文件存儲的方式,不管是數據倉庫還是信息庫,在時效上相對來說比較慢,所以自主研發了一個流數據平臺,能夠提供實時或者準實時的流數據處理。 2015年下半年和今年正在推動分布式數據庫的落地工作,會和企業級數據倉庫做一個互補。這是大數據的主要技術演進。
4、大數據體系
在大數據平臺上,我們可以把它抽象成如下幾層:
第一層是數據采集,統一針對外部和內部的數據進行相關的數據收集,包括日志信息、行為信息和業務信息。
再上面一層計算層,是我們不單單提供了傳統數據倉庫的批量計算的能力,也通過一些流數據的技術提供了實時的計算能力。
再上面一層應用層,抽象了大數據相關的應用,包括用戶可以自定義的查詢功能。通過這些信息的服務,把這些服務抽象到我們的業務系統中,通過我們的管理會計系統,通過分析師平臺、風險系統、營銷系統,為我們在數據的運營、風險控制和營銷方面都提供相關的支持,這就是主要的大數據分層體系。
4、分布式、開源、通用成為趨勢
從大數據的起源開始,數據倉庫到目前的大數據新形勢下,數據倉庫已經在做非常大的升級換代和變化。2014年工行從高成本封閉的專業系統(如:Teradata),開始向高性價比、通用設備和開放技術的系統轉變。
轉型有兩個原因:
第一是數據量太大了,原來只需要處理TB級已經轉向需要處理PB級甚至以后EB級的數據量。如果是這么大的數據量,運用傳統的設備沒有辦法進行相關的處理。
第二,性價比,我們做過測量,通過開放式的彈性可擴展的普通PC服務器的方式,比傳統設備在成本上介紹十幾分之一或者幾十分之一。我們在新平臺上一方面引進了Hadoop平臺基于普通的PC服務器進行搭建,短短一兩年的時間已經擴展到150個節點,存儲空間已經超過1PB,超過建設了十幾年二十年的Teradata的數據容量。
另外我們在研究也會盡快落地的分布數據庫,會基于開源的底層架構,基于普通的PC服務器完成數據倉庫體系的擴充。后續在大數據的處理加工方面會基于分布數據庫進行處理。
從目前的分析角度來看,Teradata會保留,著重在高端的分析師分析挖掘的探索性的工作方面。后續工行的大數據體系會采用多種技術路線、多種技術平臺共存的方式。
5、非結構化數據信息庫,通過搜索
非結構化數據信息庫的建設情況,建行已經介紹了,工行也有點像。信息庫的建設原則,因為非結構化的數據的量是非常大的,所以我們的原則是信息庫建設沒有把非結構化建設進行物理存儲的集中,我們只是通過統一的搜索引擎讓用戶能夠快速地搜索找到他需要的非結構化的信息。
6、風險防控,是落地最快、最有成效的應用
工行在大數據應用方面主要側重在風險方面。
工行通過大數據在事前、事中、事后三個環節的運用進行風險的柔性控制。簡單地舉一個例子,事前,比如銀行卡的授信過程中,或者信貸要進行發放做凈值調查中,數據能給它一個支撐。事中,比如銀行卡最近比較多地發生盜刷行為,我們可以在事中通過大數據的方式發現銀行卡的盜刷行為。事后,可以根據事后的交易或者發生的事件進行相關的分析,分析我們后續在業務的拓展或者風險控制方面有哪些需要進一步改進或者補救的工作。
這里舉了幾個簡單的案例。非常好的大數據的應用場景,
第一,交易反欺詐,需要利用大數據流數據的技術,用戶在做交易的過程中采用主機旁路技術,交易沒有完成之前通過大數據在內存中進行一個判斷。
第二,大數據怎么運用模型,通過比較好的用戶特征的總結和模型做一個監控。通過標簽信息,比如我們定義了兩個標簽,一個是用戶開戶的地區比較廣泛,另一個他持有比較多的借記卡,我們可以認為他涉嫌倒賣銀行卡的嫌疑,我們通過大數據的計算可以把這些人員抓出來,可以進行后續的業務處理和防空。這也是大數據應用的比較好的方面。
第三,現在各個銀行業碰到的比較大的困境,信貸資產的質量問題。工行持續在推動運用大數據驅防控信貸風險,工行成立了信貸防控中心,運用大數據技術在進行相關的防控。
中國農業銀行軟件開發中心的專家趙維平
1、銀行在技術選擇上,相對保守
我們在2003年初開始搞大數據,當時有很多困惑,首先感覺到大數據到來了,現在各個行業,中央臺什么東西都用大數據說話,我們在銀行業我們能做什么呢?
早期在十幾年前我們大家做數據倉庫的時候,大家可能選擇面都很窄,四大行除了我們沒用TD其他都是用TD做的數據倉庫。我們當時某系統也很痛苦,計算資源可以擴,但IO能力就在那里。當時覺得列存儲帶來很大的優勢,處理通用的數據量減少了很多IO。平臺選用什么?還用傳統的嗎?新型的怎么樣?
金融在有些技術的選擇上還是相對比較保守的,我們不會用最新的技術,不會用最新的版本,這也因為金融工委和國家人民銀行對于我們的連續服務要求特別高,一旦出了事情領導交不了差。
2、自主可控,我們從幾點入手
在自主可控上,基礎硬件、基礎軟件、數據模型、工具平臺和制度管理都是自主可控的。
硬件方面,采用華為的RH2288系列,2C、docore、256內存、12 4T硬盤,不同時期買的硬盤的容量是不一樣的,后來是4T,之前是3T。
基礎軟件方面,我們引進了國產的南大通用做的MPP架構數據庫,我們在原形試運行階段從2013年圓形環境開始投產,采用28個數據節點,2014年3月份把它擴到56個節點。非結構化,結構化的數據上游生產數據基本都是放在MPV架構數據庫里,使用起來技術上更流暢,效率更好。Hadoop方面,非結構方面目前使用的是CDH開源版,大概有100個左右的Datanode。
數據模型方面,我們結合先進的建模理論,我們融合了范式和維度的思路。我們在主庫核心層面基本是范式建模減少重復。維度方面由業務驅動的方式建立維度模型為主。
基礎的工具方面,大家知道有ETL、批量調度、源數據的管理,這些東西都是我們自主開發的。我們制定了一套比較完備的規范、制度、方法、標準。
3、整體邏輯架構圖
這是我們整體的邏輯架構圖
數據源層,上游的生產系統,幾乎全行所有的生產系統的數據到今年底已經全部進來了,金融交易類百分之百都進來了,現在有60多個上游系統,通過一個交換平臺,交換平臺不僅僅為大數據服務,負責上游生產和下游數據消費系統總分行之間、總行各應用系統間數據交互的平臺。
數據處理層,淡黃色指關系型的數據庫,也就是MPP架構數據庫。操作數據區、非結構化數據區、歷史數據平臺、流計算,流計算用Hadoop Stam架構。
下面是Hadoop的東西。我們在整個大數據平臺的結構化主庫里分了基礎數據庫、共性加工區和指標區,非結構化有操作數據區、非結構化處理和歷史數據平臺。影像那部分早期已經建好了,為了減少網絡壓力基本上存在分行。
跟傳統不一樣的是,大數據平臺的日加工時間目前在七八個小時,早期批量一個是優化不到位,一個是處理的分層,所以用了Hadoop把ETL和操作數據區都放在Hadoop里,因為可以節點多、計算能力強,完成了ET的過程,上游來的全量數據在這里做了歸類,生成了一個純層量的數據,減少了一天的批量時間幾個小時,提升33%的性能。
數據集市層,現在規劃8個數據集市,跟其他行沒有太多區別,客戶營銷、風險管控、外部監管,對分行服務的集市,各行服務的對象都是一樣的。底下研了數據提取平臺,外部監管和數據提取任務特別重,早期都得到生產去導帶生成,現在我們通過單獨建一個環境,把一些數據預加工好,基本以寬表的模式,以前做加法的事情變成了做減法,至少80%的提出需求都在我的環境里直接提取,大大減輕了人力。
底下是分析挖掘平臺,ODM、SaaS都是農行已有的云,大數據只是它的用戶而已,我們在Hadoop分裝了應用,為全行的分期挖掘提供服務支撐。對上層應用的服務有直接訪問,數據文件和外部服務和數據快速復制等技術和應用進行連接。應用主要是對資產負債領域、電子銀行領域、信用卡和個人金融領域、風險和財務提供了一些支撐。
大數據平臺和集市,我們建成了4個集市,有3個集市在建的過程中,今年分行下半年要搞分行集市的試點。應用,我們提供統一的數據展示和服務。展示服務一個是對所有全行業的用戶,對所有行業監管的各種報送,因為各種報送比較零亂,點也比較多,趨向不同部署也不一樣,底層做了統一調度、統一監控和ETL,對全行描述類數據進行了統一管理,包括我們的數據標準和數據質量管理都在這里統一進行。
4、硬件環境如何進行有效支撐?
這是硬件的環境
在Gbase方面,56是生產環境,現在實現了56環境的雙活,這兩個56環境同時在工作,一個做T+1當天的數據加工,一個做隔一天的連級服務,這樣的話連級服務的能力,按實側的話會比以前做TD的測試中更強一點,另外個人客戶集市、資產負債集市,還做了數據挖掘層次,Gbase集成了WODM和SaaS。Hadoop的生產環境是92個datanode和2個namenode。我們現在Gbase有236個節點,庫內主副本的整個容量有5.2PB數據,Hadoop的集群是150個節點,容量是4.3PB。
56+8是56個數據計算環境,8個是加載機,56個環境每個節點是12塊3T的硬盤,有2塊做Read1,是存放操作系統和重要的參數信息和數據庫環境,其他10個環境是Read5來存放數據,一個節點存放有效數據10幾個T,56的環境里有效數據將近300個T,Gbase有5到10的壓縮比,各個字段可以選擇壓縮去,300個TB的數據換算成倉外的文本量,就算簡單乘以300T也是1.5PB以上,現在折算成1.8PB左右,是PB級的。
我們跟Gbase從這個時候開始合作,我們在八方面跟他們共同做了一些優化工作,跟Gbase做了大量優化,有近百個優化的細項。MPP數據庫,我們搭建了雙活機制,兩個庫之間的同步加驗證現在每天大概是22TB的數據,僅需要3小時。早期在給主庫做備份的時候,100TB的數據有小40個小時,后來我們用了Hadoop做備份,100TB用了不到10小時,大家用TB備份一直是比較難的事情,在Hadoop方面我們做了大量基礎性的工作,非結構化的數據、文件的服務、數據的備份等等。
我們做了MPP和Hadoop的交互,有些應用要交互,我們做了非結構化MPP和HDFS之間的融合。后來啟用了MPP和Hadoop之間的備份,大大提高了效率,300T也需要將近20個小時,所以我們做了雙活,如果雙活穩定的話我們就不用備份數據了。開發的基礎工具包括ETL工具、批量調度、整個的監控和統一訪問層,監控這塊我們還做了健康檢查,通過SaaS把半年的日志交過去,最后生成一些模型,給我預測整個系統運行的安全狀況。數據混搭的模型設計,我們有一套完整的方法論,能保證數據的準確、穩定、完整和可用。同時我們在方法論、開發規范、數據規范和流程規范都積攢了一系列文檔。整個模型是分層的,操作數據區、基礎數據區、共性加工區、指標層和集市層,完成了客戶的統一試圖、產品的統一管理和客戶的精準營銷和風險管控等等。
通過6個方面對大數據平臺的數據進行了全生命周期的管理,包括建模、驗證、清理、準入、數據地圖和一些規范。
4、如何充分體現大數據的價值?
我們在大數據的建設中充分體現了數據的價值:
分析挖掘上,跟業務融合,分別在多個領域寫出了20多份分析報告,有精準營銷和業績價值等九個方面都落到不同的應用去嘗試實現。
培養的人才,對SaaS、Spack、R語言,熟悉這些算法,對聚類、分類、回歸、神經網絡等等進行了研究,
要好用,建立一套多場景的實驗環境,流水線式的作業、組建化的模型集脫拉拽式的服務,使業務人員能更快地使用我的系統。多個技術對用戶來講是透明的,用戶要使用的話非常方便。我們展示了非常完整的服務,對基礎環境融合,對資源的管理展現進行全覆蓋,部署的模式也是收放自如的,展現也突破了傳統的思維,我們在報表展示層面是可交付的、動態的,可以放大縮小,可以按某一列去排序,可以鎖定表頭,不是一個靜態的頁面,報表是可操作的。
中國銀行總行軟件中心上海分中心副總經理牛曉峰
1、思考:大數據沒有成功的原因是什么?
2015年下半年將近年底,Ganner對這1000多家企業和機構做了另外一次調查,大數據項目成功上馬的不到9%,為什么?Ganner對他們沒有成功做了原因的分析,其中比較重要的幾條是這樣的。 排在第一位的是無法挖掘出數據的價值是什么, 第二位是企業或機構沒有明確的大數據的戰略目標和戰略規劃, 第三是缺乏核心技術, 第四是無法有效的整合數據資源, 第五是企業的內部無法對大數據的實施和規劃達成共識。 總結了這樣一些不太順利的原因之后,我覺得有一個清晰的完整的系統性的戰略規劃,對中國銀行以后大數據的建設的作用是非常巨大的。
2、中行特別之處
中行的戰略方向: 以平臺為支撐構建大數據的技術體系; 以數據為基礎充分整合數據資源; 以應用為驅動深入挖掘數據價值; 以人才為核心提升數據分析能力; 以平臺為支撐構建大數據的技術體系。我們把大數據的技術體系分成戰略層面、規劃層面和設計及交付層面,在這里面最重要的是大數據的體系架構,分為業務架構、應用架構、信息架構和技術架構四個不同的架構,在這四個不同的架構里分別支撐我們的業務流程和端到端的場景及應用的組建及分析模塊,最后是設計跟交付。
我們在實施的方面采用分行試點的模式,有很多的調查機構在對大企業實施大數據項目做了總結之后發現大數據的項目實施方法上分兩個流派,一個流派是自頂向下的,上來規劃很大的大叔據的東西,從地層往下逐漸延伸,累了大量的數據,在這里面做清洗分析,在這里面找規律,再看這個企業怎么從數據里得到什么樣的東西。另一個流派是從底向上的,先看需要哪些東西,再對這些數據進行整合。我看了很多相關的實例之后,后一個方法在現階段的效果會更明顯,有了清晰的需求才會更準確的對位需求的產品。所以我們在大數據實施的策略上采取小步快跑、快速迭代、迅速試錯的方式。
3、中銀開放平臺,是中行大數據實施例子之一
中銀開放平臺,2014年IDC金融的大獎,去年獲得人民銀行的獎,亞洲金融家組織把它評為今年最佳的金融云服務產品,這個產品是我們對大戰略的落地實施的例子。這個產品的主要設計思路是我們把整個中國銀行的大數據進行了歸并整理之后,開發了1000多個標準的API接口,這些API接口可以用與我們的分行甚至我們的客戶,在我們規劃的未來里,可以通過這些API訪問和使用中國銀行的數據,用于加工得到自己想要的相關結果。
目前已經有很多分行利用這樣的平臺開發出了很多比較受歡迎的產品,大家如果有興趣的話可以在蘋果的APP Store或者安卓的平臺下載這個產品看一下。
4、讓數據發揮最大價值
1、我們非常希望在合規的前提下充分利用銀行外部的數據服務。因為銀行或者金融企業的數據在深度上不是一般的互聯網企業能夠比擬的,如果我們金融行業跟其他的相關企業進行有效的數據交換,大家彼此利用對方的優勢,就能夠使我們這個數據得到更完美的使用。
2、以應用為驅動,深入挖掘數據價值。做大數據應用的場景產品。此外中國銀行還推出來口碑貸、中銀沃金融的服務,都是按照這個思路去進行我們產品的組合規劃和設計。
3、精準地建設客戶的營銷平臺,把線下的客戶信息和線上的客戶行為統一在一起,把結構化的數據和非結構化的數據有機地提煉并且整合,爭取能夠精確地描述客戶的各項屬性特征。
注:4月28日,本文系工業和信息化部指導、中國信息通信研究院主辦的"2016大數據產業峰會" 上的現場演講,特大號(ID:ITXXXL)據IDC圈報道綜合整理, 部分演講內容有刪減。