由于內部部署的容量漸漸耗盡,KeyBank銀行將分析工作轉移到了云端。由于查詢成本和數據傳輸所產生的成本,這一轉變將意味著其用戶的工作方式將發生重大變化。
由于內部分析基礎設施的容量已達到極限,總部設于俄亥俄州克利夫蘭市的KeyBank銀行已轉向云計算,這家大型區域銀行認為此舉將明顯提升性能并且很有可能節省成本,但此舉要求他們對公司培訓和管理用戶的方式進行反思。
該銀行每晚處理約40億條記錄。數據被加載到Hadoop數據湖中,然后被下放到40多個下游系統,包括Teradata所使用的10到12個數據集市。KeyBank銀行的首席數據官,部門首席信息官兼企業架構主管Mike Onders說:“這是流行于當下且傳統的內部部署體系結構。我們在Hadoop數據湖環境中擁有數以拍字節計的數據,在Teradata環境中擁有30多拍字節的數據。”
該系統可以為400個SAS和Teradata用戶以及4000個Tableau用戶提供服務,雖然它運行十分順暢,但是一年多以前,KeyBank銀行的Teradata設備開始達到容量極限。
Onders說:“硬件設計本身仍然可以執行預期的工作:即高性能的分析。但是在內部部署的基礎設施中,你需要控制容量。由于你沒有讓容量發生變化,因此性能將根據不同的負載而變化”。對KeyBank銀行而言,這意味著在執行月末和季度末任務時會遇到性能和排隊方面的問題。
此外,Onders的團隊預計,KeyBank銀行需要在2021年使其Teradata環境煥然一新,而這正是KeyBank銀行想極力避免卻終將發生的事情。從那一刻起,Onders和他的團隊要做這樣一個決策,即把銀行的分析數據遷移到云端是否是更好的選擇。
遷移到云端
在2018年底,Onders的團隊使用云數據平臺Snowflake推出了一個概念驗證(PoC),隨后在2019年初使用Google Cloud Platform推出了概念驗證。他承認Snowflake在性能方面略有優勢,但Google Cloud Platform承諾單個供應商的架構就可以管理ETL、可視化、數據存儲、數據訪問和機器學習,因此谷歌成了KeyBank銀行的不二之選。
KeyBank銀行現在在谷歌生態系統的各個測試階段擁有五個數據集市,Onders的團隊發現其查詢性能比該銀行的本地查詢快三四倍。但是KeyBank銀行的高級副總裁兼企業體系結構以及企業數據和信息服務總監Onders和Doug Kanouff不約而同地指出,滿負荷呈現數據將成為真正的考驗。
Kanouff說:“我們已經調查了許多集市和用戶,以獲取其正在執行的指示性查詢。我們正在實時運行這些數據。因此,我們可以將實際數據,實際數據量用于這些比較查詢。到目前為止,這種做法挺不錯的。但是,一旦數據呈現滿載,批量執行就會啟動,最終用戶的查詢也會生成,一切將顯得與眾不同,我們必須做出反應并深入研究這些卷的內容,以確保環境能夠按需運行。”
培訓人們對成本進行細微調整
進行這一轉變可謂困難重重,也許最大的困難就體現在業務流程和文化方面。Google Cloud前景無量,因為它幾乎提供了無限的容量。但這也意味著從性能可變的固定成本模型轉變為成本可變的容量模型。
Onders說:“我們必須非常認真地對這種轉變進行管理和監督,因為我認為我們財務團隊的高層領導者并不需要真正的可變成本模型。他們希望能夠預測下個月和此后一個月的費用是多少。”
使用Google BigQuery,你需要為每個查詢付費,而費用則取決于查詢所需訪問的數據量。在內部部署的Teradata或Hadoop環境中,如果某個用戶對為期三年的交易數據運行了一個錯誤的測試查詢,而他本可以使用為期30天的交易數據,則成本不會發生變化。但這將消耗大量的算力,并且其他用戶可能會在查詢運行時遇到性能不夠用的問題,僅此而已。由于使用了BigQuery,這不會影響其他用戶的性能,但需要花錢。
Onders說:“在谷歌的環境中,我們必須實施更多的監視和培訓并確保這樣一件事,既然人們可以以不同的方式做事,那么他們就不要做任何勞民傷財的事情。”
許多用戶還必須接受培訓,從而使他們能以不同的方式工作。尤其是SAS用戶,他們要找到自己所需的數據,將其復制并加載到分析工作區中。但是谷歌對數據出口收取費用(大多數云提供商也一樣)。在本地環境中,復制這些數據集不會增加成本,盡管這確實會造成數據一致性和治理方面的問題。要成功遷移到Google Cloud就必須對這些用戶進行培訓,使他們能夠對數據進行分析。
Onders說:“在遷入谷歌時,我們將在所謂的‘數據學院’上投入更多的資金。不僅要聘請精通數據的人,而且還要培訓人員,對其進行認證,讓他們回答實際問題,讓他們在筆記本電腦上貼上標簽,以表明他們知道如何使用我們的客戶端分析市場,交易市場或風險市場。你“已經通過了認證,我們已經教給你更好的使用途徑,因為我不想在Google Cloud普及人們在大型機SAS架構已經習慣了的同一個模式。”
Kanouff補充說:“最大的成本考量因素在于對查詢的執行,我們需要切實轉變思維方式并集中精力研究這樣一些問題,即什么人在做什么事,什么人在查詢什么東西以及我們如何對這些查詢進行優化。”
Anders考慮將數據湖也遷到Google時,數據出口的成本也是他在思考的問題。他希望在云創建一個單一的平臺架構,但事實證明,數據出口的成本是一個問題。
Onders說:“從Teradata流出的數據很少,因為它更像是集市和分析最終要處理的對象,我們會將分析工具遷移到Google Cloud,因此數據出口并不多。但是當我們將數據湖遷入云端時,我們確實將數據發送到40多個下游系統。這種用法存在更大的問題,因為我們仍在對此展開對話。你不得不對某個模型展開認真思考,弄清楚它要花多少錢。”
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。