人們仍然存在的一個誤解是,只有大企業才能負擔得起采用大數據驅動的解決方案的成本,它只適用于海量數據,而且成本高昂。近年來的幾次革命性發展將會改變這種想法。
大數據技術的成熟度
第一次革命性發展與大數據的成熟度和質量有關。毫無疑問,企業采用大數據技術需要付出一定的努力才能使其發揮作用。
圖1.技術正在成長的階段
以往有很多來自開發人員的故事,他們浪費了80%的時間試圖用Spark、Hadoop、Kafka或其他方法來克服一些故障。如今,這些技術變得足夠可靠,并且在成長階段學會了如何相互合作。
與捕獲內部錯誤相比,基礎設施出現故障的機會要多得多。在大多數情況下,即使是基礎設施出現問題也可以容忍,因為大多數的大數據處理框架設計都是容錯的。此外,這些技術為計算提供了穩定、強大、簡單的抽象,并允許開發人員專注于開發的業務。
各種大數據技術
目前正在發生第二次革命,近年來涌現出許多開源和專有技術——Apache Pino、Delta Lake、Hudi、Presto、Clickhouse、Snowflake、Upsolver、Serverless等等。數千名開發人員的創造力和創意已轉化為大膽而卓越的解決方案,并具有巨大的協同作用。
圖2.大數據技術堆棧
以下介紹一個典型的分析數據平臺(ADP)。它包括四個主要層次:
•儀表板和可視化–分析數據平臺(ADP)的外觀,可將分析摘要提供給最終用戶。
•數據處理–驗證、豐富數據并將數據從一種形式轉換為另一種形式的數據管道。
•數據倉庫–存放組織良好的數據的地方,例如匯總和數據集市等。
•數據湖–用于存放純原始數據的地方,是數據倉庫的基礎。
每個層次都有足夠的選擇,可滿足任何需要和要求。這些技術中有一半是在過去5年內出現的。
關于它們的重要一點是,技術的開發旨在相互兼容。例如,典型的低成本小型分析數據平臺(ADP)可能包含Apache Spark作為處理組件的基礎,AWS S3或類似的數據湖,Clickhouse作為倉庫,OLAP用于低延遲查詢,而Grafana用于漂亮的儀表板(見圖3)。
圖3.典型的低成本小型分析數據平臺(ADP)
提供更強保證的更復雜的分析數據平臺(ADP)能夠以不同的方式組成。例如,將Apache Hudi和S3引入作為數據倉庫可以確保更大的規模,而Clickhouse仍然可以低延遲地訪問聚合數據(見圖4)。
圖4.更大規模的ADP具有更強的保障
成本效益
第三次革命性變化是由云層造成的。云計算服務成為真正的游戲規則改變者,它們將大數據作為即用型平臺(大數據即服務)進行處理,使開發人員可以專注于功能開發,從而減少對云計算基礎設施的關注。
圖5展示了分析數據平臺(ADP)的另一個示例,該示例利用了無服務器技術從存儲、處理到表示層的強大功能。當其技術被AWS公共云托管服務取代時,它具有相同的設計思想。
圖5.典型的低成本無服務器分析數據平臺(ADP)
值得一提的是,這里的AWS云平臺只是一個例子,其他云計算提供商也可以構建分析數據平臺(ADP)。
開發人員可以選擇特定技術和無服務器。無服務器越多,其可組合性就越好,而越是被供應商鎖定,就越是不利。采用特定的云計算提供商的服務和無服務器堆棧上的解決方案可以加快上市時間。在無服務器技術之間明智地選擇可使解決方案具有成本效益。
不過,這種選擇對初創公司來說并不十分有用,因為他們傾向于利用典型的10萬美元的云計算信用額度,并且在AWS、GCP和Azure之間進行跳轉是一種很普遍的工作方式,必須提前弄清這個事實。
通常情況下,工程師區分以下成本:
•開發費用
•維修費用
•變更成本
以下一一進行解答。
(1)開發費用
云計算技術無疑可以簡化工程工作,它在幾個方面產生積極影響:
第一個是架構和設計決策。無服務器堆棧提供了豐富的模式和可重用組件集,為解決方案的體系結構提供了堅實而一致的基礎。只有一個問題可能會減慢設計階段:大數據技術本質上是分布式的,因此在設計相關的解決方案時必須考慮可能的故障和中斷,以確保數據的可用性和一致性。另外,解決方案需要更少的努力來擴展。
第二個是集成和端到端測試。無服務器堆棧允許創建獨立的沙盒、播放、測試、修復問題,從而減少開發回送和時間。
另一個優勢是,云計算實現了解決方案部署過程的自動化。而這個特性是任何成功團隊的必備特性。
(2)維護費用
云計算提供商聲稱要解決的主要目標之一是減少監視和保持生產環境活動的精力。他們試圖在幾乎沒有Devops參與的情況下構建某種理想的抽象。
但是,實際情況有所不同。關于這個想法,通常維護工作仍然需要一些努力。下表顯示最突出的種類。
但除此之外,在很大程度上取決于基礎設施和許可成本。設計階段是非常重要的,因為它有機會挑戰特定技術并提前估算其運行成本。
(3)變更成本
大數據技術關注客戶的另一個重要方面——變更成本。經驗表明,大數據與任何其他技術之間沒有區別。如果解決方案不是過度設計的,那么變更成本就可以與非大數據堆棧完全媲美。大數據帶來了一個好處,大數據解決方案被設計為分離是很自然的。設計正確的解決方案看起來不像是整體解決方案,可以允許在需要時在短期內應用局部更改,并且影響生產的風險更小。
概要
總而言之,企業可以負擔得起采用大數據的成本。它向開發人員提出了新的設計模式和方法,開發人員可以利用它來組裝任何符合嚴格業務需求的分析數據平臺,同時具有成本效益。
大數據驅動的解決方案可能是快速成長的初創公司的重要基礎,這些初創公司希望變得靈活,其應用可以快速更改。一旦企業需要更大的數據量,大數據驅動的解決方案就可以與企業的業務一起擴展。
大數據技術允許以各種規模實施近實時分析,而傳統解決方案則在性能上陷入困境。
云計算提供商已將大數據提升到了一個新的水平,從而提供了可靠、可擴展以及隨時可用的功能。開發具有快速交付的經濟高效的分析數據平臺(ADP)從未如此容易,企業需要利用大數據技術提升其業務。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。