零售銀行為了給客戶提供更加優質的服務,需要通過分析銀行系統本身數據庫所保留的客戶資料信息,對客戶進行分類管理。
近年來,大數據已成為科技界和企業界關注的熱點,越來越多的企業和研究者正在關注大數據的應用。大數據的分析與挖掘技術在科學界正在如火如荼的展開,各種大數據的新算法被開發研究出來,例如近年來發展比較完善的一種數據分析挖掘算法支持向量機。
與此同時,大數據分析在商業中的運用受到人們的追捧,各種大數據在商業中成功運用的案例層出不窮,比如美國大型零售商target公司的廣告精準推送。本文將對大數據分析技術以及大數據分析技術在零售銀行行業的作用進行一番探討。
什么是大數據
2011 年,麥肯錫在題為《海量數據,創新、競爭和提高生成率的下一個新領域》的研究報告中首次提出大數據的概念。報告認為數據已經滲透到每一個行業和業務職能領域,數據中蘊含著巨大的價值,這些價值將導致數據成為重要的生產因素。2012年《紐約時報》的一篇專欄中寫到,“大數據”時代已經降臨,在商業、經濟及其他領域中,最終決策將日益基于數據和分析而作出,而并非基于經驗和直覺。2012年3月,美國奧巴馬政府宣布投資2億美元啟動“大數據研究和發展計劃”,這是繼1993年美國宣布“信息高速公路”計劃后的又一次重大科技發展部署。美國政府認為大數據是“未來的新石油”,將“大數據研究”上升為國家意志,對未來的科技與經濟發展必將帶來深遠影響。
進入21世紀,互聯網的興起促成了數據量的大規模增長。互聯網時代,幾乎全民都在制造數據,與此同時,數據的形成也極其豐富。一方面,既有社交網絡、多媒體、協同創造、虛擬服務等應用所主動產生的數據;另一方面,又有搜索引擎、網頁瀏覽過程中被記錄、被收集的數據。該階段數據的特點是用戶原創、主動、交互。
根據國際數據公司(IDC)的研究報告,2011年全球被創建和被復制的數據總量為1.8ZB(數據存儲單位,澤字節,等于1024艾字節或270個字節),且增長趨勢遵循新摩爾定律,預計到2020年,全球數據量大約每兩年翻一番,全球將擁有35ZB的數據量。正是由于信息技術的發展,大數據才能生成和發展。大數據技術正是從海量的、多樣化的數據中,快速獲得有價值信息的能力。
大數據指的是所涉及的數據量規模巨大到無法通過人工,在合理時間內達到截取、管理、處理、整理成為人類所能解讀的信息。在維克托?邁爾-舍恩伯格及肯尼斯?庫克耶編寫的《大數據時代》中,大數據分析是指不用隨機分析抽樣調查的方法,而采用對所有數據進行分析的方法。
基于目前對大數據的認識,通常認為大數據具備了4V特點,即Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。這四個特點從四個方面描述了大數據分析技術:第一,數據體量巨大。從TB級別到PB級別,甚至躍升至EB乃至ZB級別;第二,數據類型多樣。包括網絡文本、日志、視頻、圖片、地理位置信息等各種結構化和非結構化的數據都有,一切信息皆為數據。第三,處理速度快。利用各種大數據分析工具,比如hadoop和SPSS,可從各種類型的數據中快速獲得高價值的信息,這一點和傳統的數據分析技術有著本質的區別。第四,只要合理利用數據并對其進行正確、準確的分析,挖掘出數據內部隱藏的相關關系將會帶來很高的價值回報。
與傳統的邏輯推理研究不同,大數據研究是對數量巨大的數據做統計性的搜索、比較、聚類和分類等分析歸納。大數據分析比較關注數據的相關性或稱關聯性,所謂“相關性”是指兩個或兩個以上變量的取值之間存在著某種規律。“相關分析”的目的是找出數據集里隱藏的相互關系網(關聯網)。因此大數據是側重找出相關關系而不是找出因果關系。也許正是由于大數據分析側重于尋找相關關系,才促使大數據分析技術在商業領域廣泛應用。商業的運用在于盈利,因此只要從數據挖掘中發現某種因素與增加盈利有較強的關聯性,然后全面開發該相關因素就行。
大數據分析建模的基本思路技巧
有了大量數據之后,下一步就是分析這些數據,期望通過合適的數據分析挖掘技術建立模型找到蘊藏在數據下面的客觀規律。大數據分析技術經過這么多年的發展,已經形成了一些分析建模的基本思路。CRISP-DM(即“跨行業數據挖掘標準流程”的縮寫)是一種業界認可的用于指導大數據分析挖掘工作的方法。
CRISP-DM認為在大數據分析中存在一個大數據分析挖掘生命周期模型。在這個生命周期模型中存在著商業理解、數據理解、數據準備、建立模型、模型評估和結果部署這六個階段。圖1中展示了這六個階段的關系,其中箭頭的多少表示各個階段間依賴關系的使用頻率和重要程度,每個階段之間并不一定要嚴格遵守順序。實際上,大多數項目都會根據需要在這些不同的階段之間來回移動。
商業理解通常是指理解業務的實際類型,業務上的實際問題并且嘗試盡可能多地了解數據挖掘的業務目標。數據理解是指數據理解階段包含深入了解可用于挖掘的數據,此過程包括初始數據的收集,初始數據的描述以及數據質量的驗證。數據準備是數據挖掘最重要的階段之一,通常需要花費大量的時間。據估算,實際的數據準備工作通常占50-70%的項目時間和工作量。
數據準備通常包含以下任務:合并數據集和記錄、選擇數據子集樣本、匯總記錄、導出新的屬性、排序數據以便建模、刪除或替換空白值或缺失值、分為訓練數據集和測試數據集等。經過數據準備,下一階段就是建立模型。建模時通常會執行多次迭代,選擇合適的模型算法,運行多個可能的模型,然后再對這些參數進行微調以便對模型進行優化,最終選擇出一個最佳的模型。在模型評估階段,需要對項目結果是否達到業務成功標準進行評估。此步驟的前提條件是對聲明的業務目標有清晰的了解,因此在前期的商業理解越發顯得重要。模型評估完成之后就進入到結果部署階段,在該階段就是將前期選擇出來的最佳模型應用到實際業務中去,并得到最終報告。
大數據分析通過預測未來趨勢及行為,做出知識的決策。大數據分析挖掘的主要目標功能有以下幾個:
第一,自動預測趨勢和行為。數據挖掘自動在大型數據庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數據本身得出結論。比如在GOOGLE流感分析案例中預測流感爆發的時間和地點。
第二,關聯分析。數據關聯是數據庫中存在的一類重要的可被發現的知識,若兩個或多個變量的取值之間存在某種規律性,就稱為關聯。關聯分析旨在找出具有強相關關系的幾個屬性。典型案例是啤酒和尿布的關聯分析,關聯分析經常用在電子商務的產品推薦中。
第三,聚類。數據庫中的一些相類似的記錄可以劃歸到一起,即聚類。聚類常常幫助人們對事物進行再認識。在社交網絡分析中經常用到聚類技術。
大數據分析技術經過這幾年的發展,已經形成了一些比較成熟穩定的模型算法。常見的模型算法有關聯規則分析(Apriori)、決策樹、神經網絡、K-MEANS聚類、支持向量機、多元線性回歸、廣義線性回歸、貝葉斯網絡、Cox以及K近鄰等。這些算法模型有的適合預測趨勢和行為,有的適合關聯分析,有的適合聚類分析;每種模型算法都有各自的優劣性,我們可以針對不同的場景選擇合適的算法模型進行大數據分析挖掘。一些常用的模型算法的優劣性和適用場合如表1所示:
表1:大數據常用模型算法的特征分析
模型算法 優點 缺點 應用場合
關聯規則分析(Apriori) 算法容易理解,能夠用簡單的if-then 規則描述數據之間的完備關系;得出的規則具有可讀性;能處理連續和離散的數據 數據間可能不存在強規則;由于要查找整個數據庫中的所有可能規則,可能會出現組合爆炸問題 數據形式規范,分組容易;零售業和時間序列分析,電子商務中的產品推介
決 策 樹 最容易理解,當求解基于多個復雜屬性的特定目標值時其性能較佳,可以產生相互獨立的規則 預測連續屬性值時性能較差;不能分析和時間有關的屬性變量 用于進行分類的場合;要求模型具有較強的解釋性的時候
神經網絡 通用性強,對非線性、有噪音的復雜數據分析效果良好;能處理規模較大的數據庫,能預測連續數據,分類或聚類離散數據;能處理有噪音或屬性值有缺失的數據 無法直觀解釋得到的規則,結果較難解釋;算法收斂得太早,容易出現局部最優解或者過擬合現象 用于進行分類預測的場合,并且變量之間線性關系難以解釋的情況下
聚類(K-MEANS) 應用簡單,無需先驗知識,能處理分類型數據,數字型數據和字符型數據 聚類的個數需要人為事先定好,難以選擇適當的距離函數和屬性權值 對數據按照屬性進行歸類,發現離群數據和不符合預測模型的數據
支持向量機 對數據適應性比較強,魯棒性強 經典的算法只能分為兩類,分多類比較麻煩 用于進行分類預測的場合,在神經網絡不好用的情況下
零售銀行中的大數據類型
在現代經濟生活中,個人和家庭生活與銀行零售業務聯系密切,比如投資理財、電子商務、移動支付、家居生活以及外出旅游無不與銀行零售業務緊密相連。正因為零售銀行的客戶龐大、分布廣泛、業務量大且復雜,因此零售銀行對業務的管理、風險的控制、客戶的營銷都有不同的要求。并且隨著互聯網金融的發展,銀行零售業務越來越受到其他非銀機構的挑戰,零售銀行對其業務的穩固及發展面臨著新的壓力并提出了新的要求。要應對這種挑戰,不斷擴展業務,創造新的利潤空間,就必須對市場需求進行周密的調查研究,并且在調查研究的基礎上發現價值點,而這些正好是大數據分析的用武之地。
零售銀行經過了這么多年的發展,尤其是在最近幾年互聯網和移動互聯網快速發展的前提下,本身已經積累了大量的數據,這些數據幾乎涵蓋了市場和客戶的各個方面。零售銀行的這些數據主要包括以下幾個方面:
第一,現有客戶的屬性數據。客戶的屬性數據包括客戶的性別、年齡、收入以及客戶的職業。這些數據是客戶在開戶或者購買產品時留下來的屬性數據,通過這幾個屬性基本上可以描述客戶的大概情況,比如收入水平、資產狀況等。
第二,客戶的賬戶信息。客戶的賬戶信息里包含了客戶的賬戶余額、賬戶類型以及賬戶狀態。客戶的賬戶信息記錄了客戶當前的一種資產狀態,對零售銀行分析客戶以及挖掘客戶起到了重要作用。
第三,客戶的交易信息。客戶的交易信息里包含了客戶交易的日期和時間,交易的金額以及交易的類型。通過這些我們可以知道客戶交易的頻度及總額,由此可以推斷出客戶的交易喜好以及資產能力。
第四,客戶的渠道信息。渠道信息是指客戶是偏好去銀行柜臺辦理業務,還是通過互聯網客戶端或者移動互聯網客戶端來辦理業務。客戶的渠道信息對客戶的管理及拓展至關重要。
第五,客戶的行為信息。在互聯網時代,各個零售銀行都有網銀日志和手機銀行日志,這些日志記錄了客戶辦理業務的行為信息。相對于前幾個方面的數據信息,網銀日志和手機銀行日志信息是一種非結構化的數據信息。
對比以上數據來源,可以發現零售銀行的數據信息主要包括以下幾類:客戶的屬性、交易習慣、渠道偏好以及行為信息。這些數據信息儲存于零售銀行的網銀系統、客戶管理系統、電子支付平臺、ECIF系統、核心銀行系統或者其它系統里面。這些系統對數據的保存及分析提供了極大的便利性和準確性。
大數據分析對零售銀行的商業價值
近幾年來,大數據分析在各個相關領域飛速發展,零售銀行也不例外。鑒于零售銀行的業務類型以及零售銀行的數據類型,大數據分析在零售銀行的商業價值主要存在于以下幾個方面。
第一,客戶的精細分類和檔案管理。零售銀行為了給客戶提供更加優質的服務,需要通過分析銀行系統本身數據庫所保留的客戶資料信息,對客戶進行分類管理。
相關統計表明,只有大約20%的客戶能給銀行帶來最大收益,因此找到這20%的優質客戶就成為零售銀行的一大主要目標。而根據客戶的數據信息資料找出客戶背后的社會、經濟、消費特征,進而可以推斷出客戶的消費能力、消費水平和消費習慣,并可以計算出各個客戶對銀行的貢獻率,最終根據這些特征對客戶進行精細化的分類及管理。通過這些分類和管理能給零售銀行帶來最大的收益,而這些操作只能通過大數據分析才能實現。
第二,客戶流失的預防和精準營銷。從行業經驗來看,發展一個新客戶的成本遠遠大于維持一個原有客戶的成本,尤其是優質客戶。如今,銀行零售業務的競爭非常激烈,市場區域飽和,因此維持原有客戶防止客戶流失顯得愈發重要。如何保留原有的客戶并且不斷為這些客戶提供優質的增值服務是零售銀行業面臨的一項重要挑戰和機遇。目前大數據分析可以幫助零售銀行精細的定位和劃分客戶,從而找出具有潛在流失可能性的現有客戶。通過對數據進行分析,挖掘和整理出客戶流失的具體原因,客戶不滿意哪些產品和服務,客戶消費行為的定位等等。通過大數據分析可以對不同的客戶提出具有強烈吸引力的個性化營銷方案,進而幫助零售銀行預防客戶流失進行精準營銷。
第三,產品的分析和管理。零售銀行有眾多的產品,這些產品適合不同的客戶群體,如何對產品進行分析、管理和優化也是零售銀行面臨的一個難題。以往的產品分析和管理只是單純的利用統計分析來對產品的當前狀態進行描述,缺少的是深入的挖掘。而在如今的大數據時代,通過大數據分析不僅可以對產品的覆蓋人群、產品的盈利能力、用戶的反應、用戶的留存率、產品的營銷推廣、產品的優化升級進行全方位的挖掘,還可以在此基礎上找到新的價值增長點。通過大數據分析,零售銀行對產品的把控能力必將得到更大的提高。
第四,風險控制和管理。信用卡的使用就是零售銀行面臨的風險之一,客戶惡意透支信用卡,逾期不還款這些都是銀行面臨的潛在風險。因此,如何提前識別有風險的客戶,如何預防客戶的惡意透支以及如何進行風險管控,這些都是零售銀行面臨的難題。在大數據分析大規模應用之前,銀行只是簡單的通過用戶的背景資料來進行預防,這種方法既被動又無效。而如今,在大數據的幫助下,銀行可以從客戶的歷史數據中分析出客戶的消費行為習慣,一旦客戶出現非常規的消費行為,即可認為風險指數超標從而中止交易,進而有效地防止風險的出現。
另外,通過大數據分析也可對用戶的信用等級進行評估,對信用評估得分低的客戶可以重點進行風險管理和控制;對信用評估得分高的客戶可以進一步挖掘出這部分客戶的消費潛力進而提高零售銀行的業績。
第五,銀行經營狀況分析。大數據分析不僅可以對零售銀行的客戶進行精準定位、營銷和風險管理,也可以對零售銀行的總體經營狀況進行深度分析。通過數據挖掘及時了解營業狀況、資金情況、利潤情況等重要信息。同時,還可以結合歷史同一時間的經營狀況數據,挖掘出現階段經營狀況的問題以及改進的策略,進而提出在該條件下最大收益的經營方式。
以上五點只是大數據分析對零售銀行商業價值存在的主要方面,也是大數據分析對零售銀行影響最大的幾個層面。隨著大數據分析在零售銀行業的應用與發展,大數據分析對零售銀行其它業務的商業價值必將得到更大的顯現。
總而言之,大數據是創新、競爭和提高生產率的新領域,蘊含著許多市場機會與利潤空間;大數據所蘊藏的巨大價值必將引起包括零售銀行在內的諸多行業的經營創新和企業管理的重大變革。今后,大數據分析對零售銀行的影響會越來越大,零售銀行業在大數據的推動下必將迎來一個新的增長機遇。
[page]
說起大數據,可能很多人都知道這是未來互聯網時代發展的一個大發向。但是大數據的興起卻不是因為互聯網,也不是因為移動互聯網,而是因為萬物互聯。
互聯網可以說是信息1.0時代,而移動互聯網則是信息1.5時代,物聯網呢,則是信息2.0時代。在這個萬物互聯的時代,它將是一個信息爆炸的時代,大數據將會在這個時代掀起一個突飛猛進。
目前,各種智能硬件、聯網設備、傳感器如雨后春筍般地冒出來了。智能家居、智能可穿戴、智能汽車、智能小區、智能城市等很快就將在全球范圍流行起來。而在這個萬物聯網的背后,數據的分析、處理、識別、預測等就變得尤為重要。
眼下阿里云在金融云、政務云、企業云服務方面已經跑在前面,而百度云則在個人云服務、物聯網數據方面領先,騰訊呢,自然在這方面要略顯落后了。不過進入到今年以來,騰訊云正在加速追趕百度和阿里。
不過在物聯網時代,誰能真正玩轉大數據,目前不管是亞馬遜、還是谷歌等科技巨頭,目前都沒有誰敢真正說這個領域將會是自己說了算。而第一個嘗到大數據甜食的又會是誰,我們拭目以待。