在拉斯維加斯舉行的Dell EMC World 2017大會上,戴爾EMC系統工程師Cory Minton解釋了IT領導者如何更好地思考其大數據部署。
大數據在業務價值方面承諾了很多,但企業可能難以確定如何部署需要利用的架構和工具。
從描述性統計,到預測建模,到人工智能的一切都是由大數據提供支持。而組織希望通過大數據來實現這一目標,并將決定其需要推出的工具。
在5月8日召開的2017年戴爾EMC世界會議上,戴爾EMC數據分析的主要系統工程師Cory Minton發表了演示文稿,解釋了組織在部署大數據時必須做出的最大決定。在做出決定開始之前,每個企業都要問這六個問題:
1.購買與構建?
要問的第一個問題是組織是否要購買大型數據系統或從頭開始構建。Teradata,SAS,SAP和Splunk的熱門產品可以買到并簡單實現,而Hortonworks,Cloudera,Databricks,Apache Flink可用于構建大型數據系統。
Minton表示,購買提供更短的時間,以及商品使用的簡單性和良好的價值。然而,這種簡單性通常會帶來更高的成本,而這些工具通常在低多樣性數據方面效果最佳。如果組織與供應商存在現有的關系,則可以更容易地分析新產品并嘗試使用大型數據工具。
許多用于構建大數據系統的流行工具價格低廉或可以免費使用,并且它們可以更容易地利用獨特的價值流。其建設路徑為大規模和多樣化提供了機會,但這些工具可能非常復雜。互操作性往往是管理員面臨的最大問題之一。
2.批量與流數據?
Minton說,由Oracle,Hadoop MapReduce和Apache Spark等產品提供的批量數據是描述性的,可以處理大量的數據。他們也可以安排,并經常被用來建立一個數據科學家進行實驗的產品平臺。
像Apache Kafka,Splunk和Flink這樣的產品可以提供能夠捕獲的流數據功能,以創建潛在的預測模型。Minton表示,使用流式傳輸數據,其速度勝過數據保真度,但也提供了巨大的規模和多樣性。這對于認同DevOps文化的組織更為有用。
3.Kappa vs. lambda架構?
Twitter是lambda架構的一個例子。其數據被分為兩個路徑,其中一個路徑被饋送到速度層進行快速分析,而另一個路徑導致批處理和服務層。Minton表示,這種模式使組織能夠訪問批量和流媒體的見解,并平衡有損流。他說,這里的挑戰是人們必須管理兩個代碼和應用程??序基礎。
Kappa架構將所有內容都視為流,但它是一個旨在實時保持數據保真度和流程的實時處理。所有數據都將寫入不可變日志,以檢查更改。其硬件高效,代碼較少,這是Minton推薦給開始實施大數據的組織的一種模式。
4.公共云vs私有云?
大數據的公共和私有云需要許多相同的考慮。對于初學者來說,一個組織必須考慮到最適合他們的人才工作的環境。另外,還應該考慮數據來源,安全性和合規性需求,以及彈性消費模型。
5.虛擬化與物理性?
幾年前,虛擬化基礎設備與物理基礎設施的爭論更加激烈,Minton說。然而,虛擬化已經發展到可與物理硬件進行競爭,在大數據部署方面也變得類似。它歸結為組織的管理員更舒適,適用于其現有的基礎設施。
6.DAS vs. NAS?
Minton說,直接連接存儲(DAS)以前是部署Hadoop集群的唯一方式。然而,現在IP網絡增加了帶寬,網絡連接存儲(NAS)選項對于大數據更為可行。
使用DAS很容易上手,而且該模型與軟件定義的概念一致。它是為了處理性能和存儲方面的線性增長而開發的,并且它與流式傳輸數據相當。
網絡連接存儲(NAS)可以很好地處理多協議需求,提供大規模的效率,并且還可以滿足安全性和合規性需求。