咨詢和托管服務提供商Onica公司首席解決方案架構師Mark McQuade學習和拓寬了他對從Docker和Kubernetes到人工智能和深度學習的各種知識。McQuade分享了對數據池的看法。
為什么組織使用數據湖?
數據湖用例的范圍從數據科學家開發的機器學習算法到構建統計可視化,以及使用生成的見解來指導業務決策。
為什么數據湖如此復雜?
隨著數據每五年增長10倍,數據平臺需要擴展1000倍才能滿足未來15年的存儲和處理要求。采用數據湖可以減輕這種負擔,但是由于數據清理、數據準備和安全配置的復雜性,建立數據湖的過程涉及一系列步驟,這些步驟可能變得非常繁瑣,將持續數月之久。此外,在數據湖的整個生命周期中,還涉及其他人工步驟,例如管理和監視ETL(提取、轉換、加載)作業,基于數據更改更新元數據,維護清理腳本等。
建立數據湖需要多長時間?
建立一個完善的數據湖可能既困難又耗時,這個過程可能需要三到六個月的時間。使用AWS Lake Formation可以簡化以往花費大量人力構建數據湖的工作,并且可以將構建數據湖的時間減少到數周,不必那么復雜或花費那么長時間。
簡化數據湖有什么好處?
組織簡化數據湖可以節省大量的時間和減少麻煩。通過完善組織對數據湖的維護,可以減少保持一切正常運行所需的內部專業知識和資源,使IT團隊能夠專注于更緊迫的項目,從而從長遠來看節省了組織成本。
數據還可以幫助組織預測客戶行為,自動化流程以提高效率,除了自動化客戶服務之外,還可以通過速度和可用性增強產品供應。這些用例要求數據是安全的和實時可用的,隨著越來越多的人訪問數據,重要的是數據平臺是靈活和可擴展的。AWS Lake Formation可以解決所有上述問題。
組織如何簡化數據湖?
建議使用AWS Lake Formation,它可以消減很多人工工作,并且可以將構建數據湖的時間減少到數周,它還允許組織以三種方式簡化數據湖:
•使用藍圖來攝取數據:能夠以大容量或增量負荷攝取數據。如果選擇增量加載以進行攝取,則可以指定要增量加載的表和列,并設置一些書簽鍵,并根據自己的偏好指定鍵排序順序。設置完所有這些參數后,就可以監視增量導入,以檢查攝取是否成功。
•授予權限以安全地共享數據:在攝取數據之后,可以為用戶分配對保存數據庫中數據表的訪問權限。這些權限可能特定于每個用戶,具有可單獨選擇的選項,例如創建、選擇、插入、更改或刪除數據。
•運行查詢:提取數據并定義安全權限之后,可以使用Amazon服務(例如Amazon Athena)運行查詢,這些服務利用數據湖中表中的數據。與人工工作相比,使用AWS Lake Formation來創建和管理數據湖是一個更簡單、直觀并且更快的過程。
組織是否還有其他方法可以降低其不采用這些特定步驟或Amazon的數據湖的復雜性?
雖然這三種超大規模方案都提供了管理數據湖的方法,但對于組織而言,在采用新技術之前先問自己要解決的問題始終很重要。盡管簡化數據湖對于某些組織而言可能是關鍵,但可能存在只能用另一種解決方案解決的情況。
組織在簡化其數據湖時絕對不應該做哪些事情?
組織需要避免內部部署工作,并堅持使用無服務器數據湖。無服務器的數據湖可以使IT團隊有效地進行擴展,而內部部署則需要頻繁的軟件升級和對物理硬件的關注。
建立數據湖時,可能會花費大量時間和精力,組織可能會想辦法走捷徑,但是當涉及到數據和將為組織的數據提供強大動力的數據平臺時,需要避免這種走捷徑的舉動。
組織如何才能確保在構建數據湖時考慮到未來因素?
確保組織的數據平臺是為長期成功而不僅僅是為了滿足當前需求而構建的。例如,組織可能此時對機器學習不感興趣,但是在接下來的兩到三年內,很可能希望對數據進行一些預測。組織確保擁有一個健壯、可擴展且安全的數據平臺也是一個好習慣,這將使組織的業務和數據在未來幾年內都能正常運行。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。