“大數據(Big Data)”的概念在過去幾年里引起了各個行業的充分關注。以信息處理能力作為核心競爭力之一的商業銀行,如能引入大數據的理念和相關技術,將有效提升自身的信息化水平,促進信息化銀行的建設和發展。因此,有必要基于商業銀行經營特點和現有IT架構,對“大數據”的概念加以分析和探討。本文以商業銀行的視角,從大數據的核心思想、數據特點、技術要領、實施要點四個方面切入,以六組問答的形式對商業銀行大數據相關的思想、概念、方法、對策等進行辨析和討論。
大數據的核心在于“大”嗎?
體量大、維度高、形態多、價值高但密度低是公認的大數據四大特點(即大數據的“4V”定義)。需要指出的是,這四大特點的概括,是出于理論研究的需要,對“數據”本身特點進行的概括。而對于商業銀行的業務應用而言,則應從具體效用的角度來理解大數據思想及技術。
大數據之于商業銀行,在于對既有數據分析系統的升級,顯著提升數據分析和商業決策的效率。大數據的思想追求數據在商業決策中的“無處不在”,講求數據分析與具體業務的緊密銜接。從商業智能(Business Intelligence, BI)的角度來看,大數據技術是原有BI的升級,將傳統的“具體業務—商業數據—BI分析—報表—決策—具體業務”的BI流程進行了再造,壓縮了整個流程的信息鏈條,同時提升了鏈條各個環節及整體的運轉效率。
大數據之于商業銀行,在于提供了一種有效的手段,提高商業銀行對客戶的理解與認知能力。大數據技術支持商業銀行對大量日志數據進行統計和建模,從而了解客戶的行為習慣、風險偏好、健康情況、消費能力、渠道喜好、信用狀況及人口統計學等多方面的信息,進而為客戶“貼標簽”、“畫像”;亦可整合多種信息反饋渠道的數據,幫助商業銀行實時關注、理解客戶的真正業務需求。
大數據之于商業銀行,在于能夠低成本、批量地實現較高水準的個性化客戶服務,增加客戶粘性。如能有效地將大數據分析系統與移動互聯網技術、線上線下一體化服務體系進行緊密融合,就可為商業銀行的客戶提供“千人千面”的個性化服務。例如,對于低凈值長尾客戶,可用較低的成本,批量化地通過電子渠道提供隨身的知心服務,提高產品和服務的覆蓋率;對于高凈值客戶,提供“客戶經理+電子渠道”的隨身貼心服務,提升客戶的業務貢獻。
可見,從具體效用的角度來看,衡量一個商業銀行是否真正應用了大數據、發揮了大數據的價值,就是要看其大數據系統是否能夠顯著提升數據分析和商業決策的效率,是否能夠提高對客戶的理解與認知能力,是否能夠低成本、批量地實現較高水準的個性化客戶服務。如果商業銀行的大數據系統未能實現上述效用,那就需要認真審視自身的大數據戰略并加以調整。
大數據就是外部數據嗎?
在國內,以阿里、騰訊、百度為代表的互聯網企業,以各自的核心業務(例如,阿里的電子商務、騰訊的社交娛樂、百度的網絡搜索)為切入點,通過并購、自主開發等方式,不斷推出種類繁多的網絡服務,在網絡空間中搭建了“全業務”的數據平臺,收集了海量的客戶數據,并以此為基礎開發出了一系列客戶征信、消費貸款、網絡保險等大數據產品,向商業銀行的相關產品提出挑戰。
與上述互聯網企業相比,商業銀行在網絡空間中缺少類似的“全業務”平臺,因此短期內難以依靠自身的電子渠道獲取類似的客戶信息。對此,商業銀行是否應該將大數據的戰略重點放在從自身體系之外獲取客戶數據呢?應從以下三個角度進行分析。
數據價值的角度。京東白條、天貓分期、阿里小貸、支付寶運費險、百分點個人征信、金電聯行“企業客觀信用”等業務的成功實踐已經驗證了互聯網客戶大數據在維度、粒度、活性方面的優勢和價值,如果這些數據能與商業銀行的既有數據進行融合分析,將有望獲得更加精準的數據分析結果。
自身大數據體系的建設。一方面,應以內部數據為重點,做好自身既有數據的價值深鉆和分析架構的大數據改造,而不應以引入外部數據作為大數據發展的戰略重點;另一方面,要放開眼界,積極引入外部數據,增強商業銀行與互聯網企業IT架構方面的交流,以期加快自身大數據體系的建設進度,提升其兼容性與可用性。
數據交換的合規性。客戶在使用互聯網服務期的行為信息、購物記錄、健康信息等數據理應屬于隱私數據,客戶在注冊期間簽署的網絡服務協議是否能夠有效支持互聯網企業采集、商用并交換,尚屬法律空白。因此,商業銀行在引進外部數據之前,應首先做好合規工作。
可見,對于商業銀行而言,合規合理地引入外部數據,有助于提升自身數據的多樣性、細化數據粒度,并可通過數據交換提升自身大數據體系的兼容性與可用性。但是也應充分認識到,商業銀行多年積累的業務數據的價值還遠未完全發揮,尚待深鉆、分析和應用,應將基于內部數據的分析應用作為當前自建大數據能力的核心;與此同時,也要及時開展預研預估,做好外部數據交換的合規準備工作,為“內外兼修”的大數據平臺建設做好準備。
大數據是否等同于非結構化數據?
“非結構化數據”是在大數據的“4V”定義中作為數據多樣性的一個典型例子而被提出的,因此受到了普遍關注,在眾多關于大數據的文獻中,“非結構化數據”也占據著比較重要的地位。那么,商業銀行是否也應將“非結構化數據”的處理作為現階段自建大數據體系的重點?
對于這一問題,要結合“非結構化數據”的特性進行分析。非結構化數據的本質特性是所包含信息的豐富、復雜程度遠遠高于結構化數據。典型的“非結構化數據”包括文本、音樂、語音、圖像、視頻等類型的數據,這些數據所包含的信息極其豐富,不能使用數據表進行無損耗轉化。因此,非結構化數據無法使用數據表或者類似的結構化的方式進行無損轉化,所以只能以數據包、文件集的方式進行存儲,也無法使用與結構化數據相同的數據分析方法進行統計、分析、建模,往往需要通過專門設計的預處理算法將其轉化為結構化數據。這就增加了數據管理和分析的難度,也提高了對數據存儲、計算資源的需求。對于非結構化數據的分析,至今仍是學術界的研究熱點,在學術領域尚屬“進行時”,在商用領域的應用則更是鳳毛麟角。
可見,現階段自建大數據體系,對于非結構化數據應按照“量體裁衣”的原則,根據自身IT架構的存儲、計算資源和技術人員投入分步實施。對于資源緊張的商業銀行,可采取“存儲—外購預處理模塊—自行研發”三步走的路徑積累非結構化數據的分析能力;對于資源較豐富的商業銀行,則可按照“預研一批、實用一批、儲備一批”的策略,采用“外購預處理模塊+產學研合作+自行研發”的方式進行嘗試,緊跟技術前沿,適時引入成熟的非結構化處理技術(例如語音識別技術、基于詞頻統計的自然語音理解技術等),但也應注意資源配比,不應將非結構化數據作為現階段自建大數據體系的重點。
大數據等同于數據倉庫嗎?
如前所述,商業銀行是否具備大數據能力,應依據數據及數據分析系統所發揮的具體效用來判斷。以“顯著提升數據分析和商業決策的效率”,“顯著提高對客戶的理解與認知能力”,“低成本、批量地實現較高水準的個性化客戶服務”三條標準來衡量,目前商業銀行數據倉庫建設還需在以下幾個方面加以強化。
建設異構的數據倉庫平臺。多年來,商業銀行的數據倉庫以存儲業務、交易數據為主,因此采購了存儲成本較高的專業數據倉庫服務,數據在進入倉庫之前的ETL規則相對比較嚴格,并采用了“時間換空間”的策略進行主題拆分以節約存儲空間,這就導致在執行諸如交易鏈恢復、交易場景還原等分析任務時消耗較高的計算資源,降低整體的分析效率。與用戶行為數據緊密相關的日志數據,具有典型的“數據量大、頻度高但價值密度低”的特點,可針對這一需求,搭建低成本的PC集群、內存數據庫等,與既有的數據倉庫融合起來,構成對數據源和分析端透明的異構數據倉庫,提高其響應速度和處理能力。
搭建業務指標提取邏輯的共享平臺。目前商業銀行基礎數據的標準化工作已經取得了長足的進展,但在實際應用中,尚存在“業務邏輯信息孤島”現象(即由于缺乏一個共享平臺,而造成不同的分析師之間無法互通業務指標的提取邏輯,每個分析師、每個數據分析部門就形成了一座座孤島)。這一現象不僅造成業務指標“多態”問題,也誘發了數據倉庫訪問請求的重復提交,影響數據分析的效率和準確性,因此需盡快搭建權限控制合理的業務指標提取邏輯分享平臺,解決“業務邏輯信息孤島”問題。
建立由信息治理部門主導、以業務部門為中心的大數據創新立項機制。大數據應用要求盡量壓縮數據分析業務鏈條,進一步提高具體業務與數據分析環節結合的緊密程度,對此,可以探索建立由信息治理部門主導、以業務部門為中心的大數據創新立項機制。簡言之,就是將數據分析師融入具體業務部門,由數據分析師和具體業務部門共同發起大數據應用的創新項目立項,經信息治理部門審批后,給予相應的計算資源,并依據數據應用項目在具體業務中產生的效果進行評估和激勵。
大數據只需要海杜普平臺嗎?
Apache 軟件基金會(ASF)旗下的海杜普(Hadoop)開源項目對于大數據應用無疑有著巨大的推動作用,基于Hadoop的HDFS系統也是目前主流大數據平臺的重要基礎設施,那么是不是有了Hadoop平臺,商業銀行就擁有了大數據處理能力了呢?
首先,從軟硬件平臺的完備性來看,還需持續投入,配置更多的軟件模塊,以提升大數據分析平臺的能力。Hadoop只是大數據分析平臺的基礎設施,除了基于Hadoop及Yarn的Hive、HBase、Pig、Storm之外,mahout、Hadoop-R、Hadoop-weka等數據分析、數據挖掘套件對于大數據分析也是必不可少的,另外速度更快、性能更高的Spark體系也在互聯網企業獲得了成功的應用,值得商業銀行關注和借鑒。
其次,從數據的來源來看,還需改造前端,以獲取更多維度、更高頻次、更細粒度的數據。商業銀行的數據分析系統長期以來重視業務數據的存儲,而對于系統運行狀態的日志、客戶個人信息的收集并不重視,而這些信息恰恰是大數據分析得以理解客戶、排查業務問題的關鍵所在。因此,商業銀行需要系統性地進行應用前端改造,借鑒互聯網企業、電商企業的做法,設法獲取更多維度、更高頻次、更細粒度的數據,更好地滿足大數據分析對數據源的需求。
最后,從項目的執行過程來看,還須形成“數據分析+業務應用”的數據分析模式,以迭代方式優化分析結果和具體業務。傳統的BI模式下,數據分析的業務流程可以概括為:接受業務部門提出的分析需求=>數據分析=>形成報告。而大數據分析的很多項目需要數據分析師與業務人員一起進行持續迭代,有的項目甚至很難確立一個明確的終止時間點(例如電商的推薦系統一般由一個團隊持續優化),這就需要商業銀行能夠允許在特定的大數據分析項目上,采取“數據分析+業務應用”的數據分析模式,以迭代方式優化分析結果和具體業務。
可見,Hadoop平臺并不是商業銀行具備大數據能力的充要條件,商業銀行不僅需要在軟硬件平臺上持續投入,還需要在前端設計、數據分析模式等方面加以改造,才能更加適應大數據分析的要求。
大數據只是數據分析部門的事?
如前所述,大數據能力是以數據分析為基礎的,融合商業決策、客戶感知、個性化服務為一體的綜合競爭力,因此,大數據能力建設就不應僅由數據分析部門來承擔。
要從戰略層面將大數據能力建設納入發展規劃。應做好頂層設計,把大數據能力建設與信息化銀行建設結合起來,與線上線下一體化建設結合起來,與互聯網金融發展戰略結合起來,協同業務、渠道、科技、數據分析等多個部門,做好頂層設計和統籌規劃,形成“全員大數據”的氛圍,從數據源梳理、數據分析平臺搭建、分析模式確立、外部數據交換規則等多個層次制定明確的方針與操作標準,加快大數據能力建設的進度。
要重視數據分析流程的效率提升。大數據分析的效用大小,很大程度上取決于數據的活性以及分析結果投入具體業務的速度,因此,要盡可能壓縮傳統BI的業務鏈條。可在電子渠道和自助渠道盡可能地實現數據采集與分析結果應用的一體化(例如,基于客戶個性的產品關聯推薦、基于場景的實時定價、自助設備界面個性化自適應等),也可在傳統的BI領域中,應用大數據的處理模式,以高實時性的中間數據層為媒介,建立效率更高、實時性更強、管理者自定義程度更深的商業智能系統,實現商業報表的實時化、移動化、定制化。
要重視人才儲備和技術積累。大數據技術的發展日新月異,數據的人才儲備和技術積累卻不能一蹴而就,需要相當力度的持續投入。人才儲備方面,應本著“引進一批,培養一批,儲備一批”的原則,引進一小批高層次技術人才,通過具體的項目實施,培養大量的存量技術人員,并通過面向高校和社會的大數據技術競賽、資助開源社區等方式,形成廣泛而有效的人才儲備。技術積累方面,應按照“開放并包,為我所用”的思路,組成大數據預研團隊,積極開展開源項目的篩選、驗證、吸收工作,沿著“引入并消化大數據開源項目—資助大數據開源項目—提出并主導大數據開源項目”的路徑,不斷強化自身在大數據技術方面的優勢,形成自身的核心競爭力。