數據湖的實現需要很多關鍵因素,其中涉及從技術到治理,組織需要評估其實施策略中最重要的因素。
除了數據湖增長背后的業務驅動因素之外,價格不斷下降的云服務提供大量存儲和處理的能力,這正在使數據湖平臺對各種規模的組織越來越有吸引力。
數據湖的實施繼續吸引著IT行業的關注。調研機構Research and Markets公司最近的一份分析報告預測,數據湖市場將以26%的復合年增長率增長,到2024年將達到201億美元。
如果組織正在考慮實施數據湖,則應考慮以下幾點:
什么是數據湖?
定義和更好地理解數據湖的一種簡單方法是將它們與數據倉庫進行比較。盡管數據倉庫和數據湖都用于存儲大量數據,但是它們之間存在很大差異。
組織可以通過多種方式使用數據湖信息,并且數據源不需要預定義就可以被攝入數據湖。分析師可以通過探索、試驗和評估數據湖信息,以識別其優勢和用例。與此同時,數據倉庫為預定目的攝取和存儲數據。
數據倉庫專家經常實施高級別的分析,以評估和識別輸入源。但是,實施數據湖的策略是從幾乎所有生成信息的系統中提取和分析數據。
數據倉庫使用預定義的架構來攝取數據。在數據湖中,分析人員在提取過程完成后應用架構。數據湖以原始格式存儲數據。因此,數據攝取是一個相當簡單的過程。在數據倉庫中,在提取數據時會對其進行大量處理,以確保數據符合架構及其預定義的目的。
數據湖專門研究結構化、半結構化和非結構化數據的提取。它們還提供了除批處理負載外還易于攝取流數據的機制。盡管數據倉庫可以接受許多不同形式的數據,但它們通常使用批量加載來提取結構化數據。
如何開始實施
數據湖實施的第一步是通過供應商網站和其他資源來了解有關數據湖架構、平臺、產品和工作流程的更多信息。
與任何產品評估一樣,企業需要對競爭產品進行徹底的分析。以下是評估標準的列表,可幫助組織進行分析:
·技術。盡管Apache Hadoop及其支持產品套件一直是許多組織的首選,但替代方案卻越來越多。許多將Hadoop用于其數據湖產品的供應商提供了自己的自定義產品和邊緣產品,以簡化管理和分析。如今有很多平臺可用,其中包括Amazon Data Lake解決方案、微軟 Azure Data Lake、谷歌Data Lake、Datafake Snowflake和Oracle Data Lake。
·安全和訪問控制。數據湖包含有關業務的信息寶庫。像所有組織的數據存儲一樣,需要保護數據湖以防止未經授權的訪問。
·數據提取。平臺是否可以輕松快速地提取結構化、半結構化和非結構化數據?它能夠有效地吸收數據流、微批量處理和大批處理數據負載嗎?
·元數據管理。大數據專家使用元數據來搜索、識別和更好地理解數據湖中的數據集。
· 數據處理、性能和可擴展性。該平臺為用戶提供了哪些工具和流程來與數據進行交互?它如何實現數據瀏覽?它在日常操作過程中執行什么后臺程序?這些流程的速度有多快,它們會擴展以滿足組織的工作量要求嗎?
·管理和監控。該平臺是否為系統管理和監視提供了強大的用戶界面(UI)?它提供哪些工作負載管理功能?
·數據治理。該平臺是否提供確保數據一致和可靠的機制?它是否提供創建沙箱環境的能力,使用戶可以在不影響數據湖內容的情況下進行數據實驗?
·數據分析和可訪問性。該平臺提供什么機制來分析數據?它可以讓組織輕松整合機器學習嗎?它為消費者提供哪些數據分析功能?可以輕松集成第三方分析工具嗎?
·成本核算策略。供應商將如何向企業收費?
數據湖實施
在選擇平臺之后,下一步是構建組織基礎設施、流程和過程,以加載、管理和分析數據湖中的數據。
以下是數據湖植入策略中的關鍵步驟:
•確定有效支持平臺和分析數據所需的專業知識。像許多復雜的技術一樣,數據湖具有陡峭的學習曲線。企業需要雇用經驗豐富的人才并培訓內部人員,并且需要使用數據湖實施來定義新的組織角色和報告結構。
•為了執行經過深思熟慮的數據湖實施戰略和設計,組織需要制定一個傳統的項目計劃,其中包括目標、里程碑和分配的行動項目。組織需要確定將用來評估數據湖項目的成功的標準,需要設計系統以促進自助式數據分析,還應該為數據存儲和歸檔制定數據分類標準。
•實際上,組織生成的任何數據都是數據湖提取的潛在來源。挑戰成為優先事項之一。一個更好的方法是評估生成數據的來源,并從高層次確定其對組織的重要性。
•組織應該確定當前是否正在分析信息以及正在發生的分析級別。高度分析的數據盡管仍然是潛在的攝取來源,但其重要性可能低于系統中未被評估的數據。
•制定、實施和實施數據治理策略,以確保數據安全、完整、一致、準確。
•為數據探索、實驗和分析制定標準。數據科學家應該遵循一個標準化但靈活的過程來評估數據并確定將為業務帶來最大價值的用例。這些數據的潛在目標是其他商業智能平臺以及新的和現有的業務應用程序。
版權聲明:本文為企業網D1Net編譯,轉載需注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。