如果企業沒有為獲得最佳性能而預先準備數據,那將不會更好地為那些消耗數據的用戶提供服務。實際上,不良的數據準備是導致大數據項目失敗的主要原因,而管理此類項目的人負擔不起,只是出于這個原因,對于企業來說,擁有大數據準備策略和方法并如實執行是至關重要的。
數據準備策略應包含以下元素:
1. 對當前和將來的業務問題有透徹的了解,期望數據能為企業帶來答案。
了解要應用大數據分析的業務領域可以為數據建立業務環境,并有助于制定數據收集和執行策略。此階段的目標是確定企業中哪些數據與關鍵業務問題相關,哪些無關。企業還可以隨著業務需求的變化擴展業務問題和要查找的數據,但是一開始最好還是密切關注數據。
2. 數據集中化。
數據必須規范化以便一致,并且企業中的每個人都使用相同的數據。因此,即使可以選擇針對特定業務領域填充此主數據的不同子集,也必須將所有分析數據存儲在IT維護的集中式存儲庫中。
3. 標識必須饋入中央分析信息存儲庫的數據源。
一旦確定了業務案例和問題,就應確定可用于匯總回答業務中緊迫問題的數據集和源。這些數據源可以來自企業內部或外部。
4. 識別可能相關的未來數據源。
同時,現在開始識別將來業務可能需要的其他數據集或源還為時過早。這些數據源最初不會準備數據,但是它們的標識將為將來的數據準備提供一個路線圖。
5. 定義的數據準備方法。
有三個基本步驟可將干凈數據移入中央數據存儲庫。首先,從數據源中提取數據。然后,將其轉換為與其要到達的數據目標兼容的格式。最后,將其加載到目標存儲庫中。重要的部分是轉型。如果相同的數據字段將流入新的目的地,但該目的地的格式不同于原始目的地,則必須將數據轉換為新格式,以便數據正常工作并在目的地中保持一致。如果人工完成,這是一個繁瑣的步驟,因此需要自動化工具。
6.選擇有效的數據準備工具。市場上有許多數據準備工具,因此建議企業嘗試使用它們,并與提供強大支持和培訓的供應商合作。目標應該是準備數據以使其具有最高質量,并選擇易于使用的工具,并提供自動執行數據準備步驟的工具。