看做什么,如果不需要對數據進行實時處理,那么大部分情況下都需要把數據從hbase/mysql(數據庫)“導入”到hive(數據倉庫)中進行分析。 “導入”的過程中會做一些元數據轉換等操作。
相關知識如下
數據倉庫的幾個概念
http://www.ppvke.com/Blog/archives/27862
什么是OLTP?
聯機事務處理系統(OLTP),也稱為面向交易的處理系統,其基本特征是顧客的原始數據可以立即傳送到計算中心進行處理,并在很短的時間內給出處理結果。也 稱為實時系統(Real time System)。衡量聯機事務處理系統的一個重要性能指標是系統性能,具體體現為實時響應時間。我們通常講的業務系統都是基于OLTP的,主要的關系數據 庫代表為Oracle,Sybase,DB2,SQLServer,MySQL等等。
OLTP系統的主要特點
1、事務處理
2、面向應用
3、反映當前情況
什么是數據倉庫?
數 據倉庫就是面向主題的、集成的、穩定的、不同時間的數據集合,用以支持經營管理中的決策制定過程。目的是解決在信息技術(IT) 發展中存在的擁有大量數據、然而有用信息貧乏(Data rich-Information poor)的問題。數據倉庫就其本質仍然是基于關系數據庫的,其與OLTP系統最大的不同是系統的目的的不同。主要的關系數據庫代表為 Oracle,Sybase,DB2,SQLServer,SybaseIQ,Terradat,MySQL等等。
數據倉庫的特點
1、面向主題
2、集成性—企業數據框架
3、歷史性、穩定性
什么是OLAP?
OLAP 是使分析人員、管理人員能夠從多種角度對從原始數據中轉化出來的、能夠真正為用戶所理解的、并真實反映數據維特性的信息,進行快速、一致、交互地訪問,從 而獲得對數據的更深入了解的一類軟件技術。OLAP采用了新的數據處理引擎大大加強了對海量數據的聚合和訪問要求,同時滿足了不同層次數據的訪問。主要的 OLAP代表為SybaseIQ,MSOLAP,ESSbase等。
核心——維也稱多維視圖,數據立方(Data Cube)
目標——多維分析
OLAP的特點
1、靈活、動態
2、多角度、多層次的視角
3、快速
OLTP系統和數據倉庫系統的區別?
雖 然OLTP系統和數據倉庫系統都存儲于關系數據庫中,但兩者的主要區別是使用目的的不同,數據倉庫系統的建設只是為了隔離業務系統、整合各個不同的數據 源、形成一個統一的數據中心、以提供決策支持。究其實質,數據庫對于兩者的處理并無太大的區別,只是對數據倉庫部分增加了一些優化措施或者沒有。如 Oracle新增的各種分區支持、位圖索引、平行操作、物化視圖等等;Sybase公司為數據倉庫的SybaseIQ產品,提供了類似位圖索引的方式極大 的優化了查詢速度;SQLServer2000對于數據倉庫和OLTP系統的處理區別不大。 OLTP系統和數據倉庫系統的差別很大程度上取決為了不同需要而進行的系統設計。總的說來兩者實質物理結構是一致的,但目的是不同的。
數據倉庫和OLAP的區別?
雖然數據倉庫和聯機分析處理 (OLAP) 這兩個術語有時可互換使用,但它們卻適用于通常稱為決策支持系統或業務智能系統的不同組件。這些類型的系統的組件包括一些數據庫和應用程序,用于為分析人員提供支持組織機構決策制定所需的工具。
數據倉庫本質上仍然是一個關系數據庫,包含那些通常表示某個組織機構業務歷史的數據。通過分析這些歷史數據,可以支持對分散的組織單元進行從策略計劃到性能 評估的多級業務決策。對數據倉庫中的數據進行組織是為了支持分析,而不象在聯機事務處理系統 (OLTP) 中那樣是為處理實時事務。
OLAP技術使數據倉庫能夠快速響應重復而復雜的分析查詢,從而使數據倉庫能有效地用于聯機分析。OLAP的多維數據模型和數據聚合技術可以組織并匯總大量的數據,以便能夠利用聯機分析和圖形工具迅速對數據進行評估。當分析人員搜尋答案或試探可能性時,在得到 對歷史數據查詢的回答后,經常需要進行進一步查詢。OLAP系統可以快速靈活地為分析人員提供實時支持。
本文內容來自PPV課問答社區 詳見原文連接