昔日的數據架構已經無法滿足當今對速度、靈活性和創新的需求。成功升級的關鍵(也是巨大的潛在回報)是敏捷性。
在過去的幾年中,組織不得不迅速在原有基礎設施的基礎上部署各種新的數據技術,從而推動由市場驅動的各種創新,例如定制化的報價、實時警報和預測性維護。
但是,數據湖、客戶分析平臺、流處理等技術的加入極大地增加了數據架構的復雜性,這些技術往往嚴重妨礙了組織提供新功能,維護現有基礎設施以及持續確保人工智能模型的完整性。
當前的市場動態不容放緩。亞馬遜和谷歌等先進的公司一直在利用人工智能技術創新來顛覆傳統的商業模式,而這就要求落后者重新構想自身業務的各個方面以跟上發展的步伐。云提供商已經推出了最前沿的產品(例如可以立即部署的無服務器數據平臺),這些產品使采用者享有更快的上市時間并且具備更高的敏捷性。Analytics(分析)用戶要求使用更多兼容性強的工具(如自動模型部署平臺),以便他們可以更快地使用新模型。許多組織已經采用了應用程序編程接口(API),使來自不同系統的數據能夠接觸到數據湖并迅速將洞察直接集成到前端的應用程序中。如今,隨著各大公司紛紛開始研究由冠狀病毒(COVID-19)大流行所引起的前所未有的人道主義危機并為下一次正常運轉做準備,它們對靈活性和速度的需求只會增加而不會減少。
對于要加強競爭優勢(甚至是保持同等優勢)的公司,它們必須以一種新的方法來定義、實施和集成數據棧,同時利用云(除了基礎架構即服務)以及各種新的概念和組件。
打造顛覆性數據架構的六個轉變
我們發現,各大公司正在對其數據體系結構藍圖做出六項根本性的轉變,這些轉變可以更快地交付新功能并大大簡化現有的體系結構方法。這些轉變幾乎涉及所有的數據活動,包括采集、處理、存儲、分析和公開。盡管組織可以在實施一些轉變的同時使其核心技術棧不受任何影響,但許多組織仍需要對現有數據平臺和基礎設施進行仔細的架構調整,包括以前使用的各種遺留技術和比較新的技術。
這樣的工作并非微不足道。為創建基本用例(例如自動報告)的功能而進行的投資往往高達數千萬美元,而用于部署尖端功能的體系結構組件(例如為了與最具創新力的顛覆者競爭的各種實時服務)的投資則可能高達數億美元。因此,對于組織而言,制定清晰的戰略計劃至關重要,數據和技術領導者必須做出大膽的選擇,以優先考慮那些將直接影響業務目標的轉變,并投資于復雜度適中的體系結構。因此,各大公司之間的數據架構藍圖往往看起來截然不同。
如果投資得當,投資回報將非常豐厚(有一家美國銀行每年可賺取5億多美元,一家石油和天然氣公司則實現了12%至15%的利潤率增長)。我們發現,這類收益來自方方面面:節省IT成本、提高生產率、降低法規和運營風險以及提供全新的功能,新服務乃至整個業務。
那么,組織需要考慮哪些關鍵變革?
1. 從本地數據平臺到基于云的數據平臺
云可能是一種全新的數據架構方法的最具顛覆性的推動力,因為它為公司提供了一種快速擴展人工智能工具和功能以獲取競爭優勢的方法。亞馬遜(Amazon Web Services)、谷歌(Google Cloud Platform)和微軟(Microsoft Azure)等主要云提供商已經徹底改變了各大組織大規模采購,部署和運行數據基礎設施、平臺和應用程序的方式。
例如,有一家公用事業服務公司將基于云的數據平臺與容器技術相結合,該技術用微服務(例如搜索賬單數據或向帳戶添加各種新屬性)將應用程序功能模塊化。這使公司能夠在幾天(而不是幾個月)的時間內向大約100000個業務客戶部署新的自助式服務功能,為最終用戶提供大量的實時庫存和交易數據以進行分析并通過在云中(而不是在更昂貴的本地舊系統上)“緩沖”交易來降低成本。
管用的概念和組件
•無服務器數據平臺(如Amazon S3和Google BigQuery)使組織可以無限地創建和運行以數據為主的各種應用程序,而無需安裝和配置解決方案或管理工作負載。此類產品可以降低專業門檻,將部署時間從數周縮短至幾分鐘,而且幾乎沒有產生任何運營開銷。
•由于使用了Kubernetes的容器化數據解決方案(可通過云提供商以及開放源代碼獲得,并且可以快速集成和部署),公司能夠脫離其他計算能力和數據存儲系統的部署并將這項工作自動化。此功能可以確保設置高度復雜的數據平臺(例如,將數據從一個應用程序會話保留到另一個應用程序會話所需的數據平臺,以及具有復雜備份和恢復要求的數據平臺)可以擴展以滿足需求,因此它特別有用。
2. 從批處理到實時數據處理
實時數據通信和流媒體功能的成本已大大降低,這為其主流使用鋪平了道路。這些技術實現了一系列新的業務應用:例如,運輸公司可以在出租車到達時向客戶提供精確到秒的抵達時間預測;保險公司可以分析來自智能設備的實時行為數據,從而將費率客制化;而且制造商可以根據實時的傳感器數據來預測基礎設施方面的各種問題。
訂閱機制等實時流媒體功能使數據消費者(包括數據集市和數據驅動的員工)可以訂閱各種“主題”,以便他們可以獲取所需交易的持續更新。通用數據湖通常充當此類服務的“大腦”,它保留了所有細粒度的事務。
管用的概念和組件
•Apache Kafka之類的消息通信平臺提供了完全可擴展,持久且具備容錯能力的發布/訂閱服務,該服務每秒可以處理和存儲數百萬條消息,以供立即使用或以后使用。與傳統的企業通信隊列相比,這可以支持實時用例,繞過現有的基于批處理的解決方案并且占用的空間更少(占用的成本基礎也更少)。
•流處理和分析解決方案(例如Apache Kafka流、Apache Flume、Apache Storm和Apache Spark流)實現了實時對消息進行直接的分析。該分析可以基于規則,也可以包括高級分析,從而在數據中提取事件或信號。分析往往會整合眾多歷史數據以比較各種模式,這在推薦和預測引擎中尤其重要。
•Graphite或Splunk之類的警報平臺可以向用戶觸發各種業務操作,例如,如果銷售代表沒有達到每天的銷售目標,那么他們就會得到通知,或者將這些操作集成到可能運行于ERP或CRM的現有流程中。
3. 從預集成的商業解決方案到模塊化的同類最佳平臺
為了擴展應用程序的規模,公司往往需要沖破大型解決方案供應商所提供的遺留數據生態系統的限制。現在,許多公司正朝著高度模塊化的數據架構發展,這種架構使用了最佳的,經常使用的開源組件,這些組件可以根據需要被新技術替換而不會影響數據架構的其他部分。
前面提到的那家公用事業服務公司正在向這種方法過渡,從而快速向數百萬客戶提供新的,以數據為主的各種數字化服務并大規模地接入基于云的各種應用程序。例如,該公司每天都會準確地顯示客戶的能源消耗和比較了同儕消費的實時的分析洞察。該公司建立了一個獨立的數據層,該數據層包含各種商業數據庫和開源組件。數據通過專有的企業服務總線與后端系統同步,而托管在容器中的各個微服務在數據中運行業務邏輯。
管用的概念和組件
•數據管道和基于API的接口簡化了不同工具和平臺之間的集成,其方法是使數據團隊免受不同層的復雜性的困擾,縮短產品上市時間并減少在現有應用程序中引起新問題的機會。當需求發生變化是,這些接口還使單個組件更容易更換。
•Amazon Sagemaker和Kubeflow等分析工作臺可簡化高度模塊化架構中的端到端解決方案的創建。這樣的工具可以與各種各樣的基礎數據庫和服務連接并使高度模塊化的設計成為現實。
4. 從點對點到脫離數據訪問
人們可以通過API來揭露數據,這樣可以確保直接查看和修改數據的做法是受限且安全的,同時還可以讓人們更快地訪問常見的數據集。這使得數據可以在團隊之間輕松得到重用(reused),從而加速訪問并實現分析團隊之間的無縫協作,從而可以更高效地開發各種人工智能用例。
例如,有一家制藥公司正在通過API為所有員工創建內部“數據市場”,以簡化和標準化對核心數據資產的使用,而不是依賴各種專有接口。該公司將在18個月內逐步將其最有價值的現有數據饋送(data feed)遷移到基于API的結構中,同時部署API管理平臺以向用戶展示各種API。
管用的概念和組件
•企業必須創建一個API管理平臺(通常稱為API網關)以創建和發布以數據為主的API,實施使用策略,控制訪問并衡量使用情況和性能。該平臺還可以讓開發人員和用戶搜索現有數據接口并重用這些接口,而不是創建新的數據接口。API網關通常作為數據中心內的單獨區域而被嵌入,但它也可以作為中心外的獨立功能開發。
•企業往往需要一個數據平臺來“緩沖”核心系統之外的各種事務。這樣的緩沖區可以由數據湖之類的中央數據平臺或在分布式數據網格中提供,這個分布式數據網格是一個生態系統,它由為每個業務域的預期數據的使用情況和負載創建的最佳平臺(包括數據湖、數據倉庫等)組成。例如,有一家銀行創建了一個縱列數據庫(columnar database),以便直接向線上銀行和移動銀行應用程序提供客戶信息(例如最近的金融交易)并減少大型機上昂貴的工作量。
5. 從企業倉庫到基于域的架構
許多負責數據架構的領導者已經從中央企業數據湖轉向“域驅動”的設計,這些設計可以定制并“合乎某個目的”,從而縮短新的數據產品和服務的上市時間。由于用了這種方法,雖然數據集可能仍駐留在相同的物理平臺上,但每個業務領域(例如,市場營銷,銷售,制造等)中的“產品負責人”的任務就是以易于使用的方式來組織數據集,使其既適用于域內的用戶,也適用于其他業務域中的下游數據使用者。這種方法需要謹慎地權衡,以免變得支離破碎和效率低下,但是它可以減少在數據湖中創建新數據模型所需的時間(通常從數月縮短至數天),在反映聯合業務結構或遵守數據移動性的法規限制時,它可以是一種更簡單有效的選擇。
有一家歐洲電信提供商使用了分布式的基于域的架構,因此銷售和運營人員可以將客戶、訂單和賬單等數據提供給數據科學家用于人工智能模型或直接通過數字渠道提供給客戶。該公司部署了由公司銷售和運營團隊中的產品負責人管理的各種邏輯平臺,而不是創建一個中心化的數據平臺。該公司還激勵產品負責人使用數據進行分析并使用數字渠道、論壇和黑客馬拉松來推動采用。
管用的概念和組件
•作為平臺的數據基礎設施提供了用于存儲和管理的一系列通用工具和功能,以加快實施速度并使數據生產者不必創建自己的數據資產平臺。
•數據虛擬化技術始于客戶數據之類的小眾領域,這些技術如今已為各大企業所采用,以此來管理人們對分布式數據資產的使用并將分布式數據資產整合進來。
•即便企業沒有獲得完全訪問權或沒有做好充分準備,數據編目工具也能讓企業搜索和研究數據。該目錄通常還提供元數據定義和端到端接口,以簡化對數據資產的訪問。
6. 從嚴格的數據模型到靈活的,可擴展的數據模式
來自軟件供應商的預定義數據模型和滿足特定業務智能需求的專有數據模型往往都創建于高度標準化的架構(schema)中,這些架構具有固定的數據庫表和數據元素,從而最大程度地減少冗余。盡管此方法仍然是數據報送和以法規為中心的用例的標準,但它也要求組織在合并新的數據元素或數據源時經歷漫長的開發周期并具備豐富的系統知識,因為任何更改都可能影響數據的完整性。
為了在研究數據或支持高級分析時獲得更大的靈活性和強大的競爭優勢,公司正朝著“架構簡化(schema-light)”的方法發展,它們使用物理表較少的非規范化數據模型來組織數據以實現最佳性能。這種方法好處頗多——靈活的數據探索,更靈活地存儲結構化和非結構化數據以及降低復雜性,因為數據領導者不再需要引入其它抽象層(例如高度規范化的表之間的多個“聯接”)來查詢關系數據。
管用的概念和組件
•數據點建模技術(例如Data vault 2.0)可以確保數據模型可擴展,以便將來可以在有限的中斷范圍內添加或刪除數據元素。
•圖形數據庫是NoSQL數據庫的一種,這種數據庫近年來頗受關注。一般來說,NoSQL數據庫非常適合需要大量可伸縮性和實時功能的數字應用程序以及服務于人工智能應用程序的數據層,這是因為它們可以利用非結構化數據。尤其是圖形數據庫,提供了以強大而靈活的方式對數據之間的關系進行建模的功能,許多公司正在使用圖形數據庫來創建主數據庫,以適應不斷變化的信息模型。
•Azure Synapse Analytics之類的技術服務使人們可以訪問類似于關系數據庫的基于文件的數據,其方法是將各種表結構動態地應用到各種文件。用戶得以靈活地在訪問存儲于文件中的數據時繼續使用各種通用接口(例如SQL)。
•使用JavaScript對象表示法(JSON)來存儲信息,這使組織可以更改數據庫結構而不必更改業務信息模型。
如何開始
數據技術正在迅速發展,這使定義三到五年的目標架構的狀態并朝著這個方向努力的傳統工作既充滿風險又效率低下。只要制定各種使數據領導者和技術領導者快速評估和部署各種新技術的實踐,以便他們快速適應,那么他們就能得到更好的服務。下面來看看四種重要的做法:
•將測試中學習的思維方式應用于架構創建并嘗試使用各種不同的組件和概念。這種敏捷實踐已經在應用程序開發中應用了很長時間并且最近在數據領域得到沿用。例如,領導者可以從較小的預算開始,創建最小可行產品或者將現有的開源工具整合起來創建一個臨時產品并將其投入生產(使用云來加速這個過程),以便它們可以在得到擴展和進一步發展之前展示其價值;相反,領導者不應該為了找到“完美”的選擇而參與有關最佳設計,產品和供應商的漫長討論,然后再進行冗長的預算批準。
•建立數據“部落”,由數據管理人員,數據工程師和數據建模人員組成的團隊負責創建端到端的數據體系結構。這些部落還致力于創建標準的,可重復的數據工程流程和特征工程流程,從而為開發高度可建模的數據集提供支持。這些敏捷的數據實踐有助于加快各種新數據服務的上市時間。
•投資數據運維(DataOps,即用于數據的強化了的DevOps)有助于加快新組件在數據體系結構中的設計,開發和部署,以便團隊可以根據反饋快速實施和頻繁更新各種解決方案。
•創建這樣一種數據文化,在這種文化氛圍里,員工希望在其職務范圍內應用各種新的數據服務。實現這一目標的一個重要工具是確保數據戰略與業務目標相關聯并在高管向組織發出的信息中得到反映,這有助于強調這項工作對業務團隊的重要性。
隨著數據、分析和人工智能在大多數組織的日常運營中得到越來越深入的應用,為了創建和發展以數據為中心的企業而對數據架構采取截然不同的方法是十分必要的,這是顯而易見的。那些采用這種新方法的數據和技術領導者可以更好地定位自己的公司,即具備敏捷性,彈性并且在未來具有競爭力。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。