如今,數據分析已經成為幫助企業做出戰略決策的關鍵。軟件工具可以幫助企業發現模式或者發現各種流程的洞察。用于實施這些策略的數據系統通常作為供應商特定的企業數據倉庫解決方案而存在。在這些應用程序中,信息被加載和結構化,以便從非常大的數據集合中提供最有效的結果。
數據倉庫
數據倉庫是用來提供新的業務洞察力的數據中心存儲庫。這些數據代表了業務的全面一致的觀點。通常,這些歷史數據集具有以下特征::
·面向主題:數據倉庫通常提供特定的主題或業務需求,如銷售或生產效率。
·時變性:數據是歷史性的,因此可以用特定的時間框架來分析結果,例如在過去兩年中按每月或按季度計算。企業數據倉庫通常是由事務系統中封裝的數據提供的,其中只有最近的數據是必需的。例如,事務系統可能只反映客戶最近的電話號碼,而數據倉庫將包含所有以前使用的號碼。
·集成性:數據倉庫將來自多個不同來源的信息整合到同一視圖中。例如,不同的商店可能具有相同產品的不同名稱,但它們仍將具有相同的庫存單元(SKU)或零件號。
·非易失性:存儲在企業數據倉庫中的信息不會改變。為了保持歷史數據的完整性,它是只讀的,從不改變。
什么樣的數據加載到數據倉庫?
業務數據操作幾乎是實時的,例如從連鎖商店在POS機終端捕獲的銷售信息。每日銷售數據由系統捕獲并送入數據文件。然后,這些文件將得到ETL(提取,轉換和加載)軟件或腳本的管理,或將該數據“歸一化”到可直接上傳到數據倉庫表中的字段。
例如,一家大型零售連鎖店將要捕捉銷售商品的數據,例如,銷售人員,商店,時間,付款方式,特別優惠或優惠券等等。另一家公司可能更有興趣收集客戶服務活動以進行定期績效分析。
大多數存儲的數據是關系型的。這意味著信息以能夠與單個表鏈接的數字ID字段的形式存在,例如鏈接到文本的產品名稱的產品ID列表和每個不同ID的描述。這可以節省企業數據倉庫的空間,同時在數據報告中提供更有意義的信息。
數據倉庫與傳統數據庫的區別
數據庫通過捕獲信息(無論是電子自動的還是人工采集的)來支持日常操作。這些也稱為事務或操作數據庫。它們主要用于從源頭捕獲信息。數據庫還允許對信息進行編輯,以更加密切地反映真實世界的變化。它們針對數據輸入進行了優化:協調小型而頻繁的更新和添加。數據被組織成行或單個記錄。
雖然這兩個系統都可以用于報告,但數據倉庫是為聚集大量固定信息而設計的。從事務數據中運行的報表中的信息可能會發生更改。
數據倉庫主要用于報告和分析業務操作,以便識別模式。信息通常從一個或多個數據庫中提取,成為數據倉庫中的歷史記錄。數據倉庫將反映所有的變化。大多數企業數據倉庫解決方案要求以列或以維度(如時間或位置)的方式存儲信息,以檢索一系列度量單位,如美元或數量。這允許在相同的報告工具中深入了解各種細節。
數據集市
規模較小的公司,甚至大公司當接近一個特定的數據項目,可能將數據分割更小的、更有限的數據集,被稱為“數據集市”。這樣可以消除過多或不相關信息的運營開銷。數據集市可以根據需要從數據倉庫中提取,或者單獨存在。
新公司或小公司可能不需要維護數據倉庫。但是在大中型企業中,通常每天都使用事務性數據庫和數據倉庫。重要的區別是,企業數據倉庫解決方案是只讀和優化的,用于分析不斷增長的業務數據,以支持業務決策。