數據倉庫產生之初,是為了將分析操作(OLAP)和交易數據操作(OLTP)分離開來,以避免交易響應時間的延遲,降低因運行即時查詢和創建、發布報表引 起的CPU耗用。隨著時間的推移,企業數據倉庫變成了信息架構核心組件,現在,很少有成熟的企業不用數據倉庫支持商務智能、報表和分析應用程序。
但是,隨著新技術的逐漸興起:Hadoop集群、NoSQL數據庫、列式和內存數據庫,數據虛擬化工具,新的問題也出現了,傳統數據倉庫和新興技術該以什么關系存在?有人很早就給數據倉庫敲響了喪鐘,預言在大數據系統和高新能計算平臺的沖擊下,數據倉庫會走向滅亡。
現實有些殘酷,新技術確實具備傳統數據倉庫無可比擬的優勢。分布式處理框架Hadoop以更低的硬件成本實現了更好的擴展性。內存和列數據庫也能承載分析 任務。NoSQL數據庫突破了傳統關系型數據管理系統的狹隘模式,在開發應用程序上提供更廣泛的靈活性。系統上的數據虛擬化工具能夠以虛擬方式集成數據, 允許聯機事務處理和分析應用程序同時訪問同一數據集。這些都減少了向數據倉庫提取和加載數據的需求。
新技術 新挑戰不過數據倉庫已死的說法顯然是夸大其詞了。從財務角度來看,企業在選用新技術的同時,都要考慮對現有投資的保護,更何況數據倉庫仍然是生產流程中重要的一部分,仍然在產出數據。
另一方面,新技術的成本未必低。以基礎設施為例。下載和安裝開源軟件,比如Hadoop,只需要簡單的計算機系統就可以了,和數據倉庫要求的高端服務器、 大型機相比,成本少了很多。但要實現Hadoop集群的高性能,企業還需要付出很多,比如聘請懂得Hadoop的技術人員來部署和管理該平臺。
Hadoop的存儲擴展性意味著無止境的硬盤空間。而且Hadoop數據池的數據使用也并不是總是順暢的。看似無窮的存儲空間和高可用性很可能讓用戶掉進一味存儲數據的陷阱。結果可能只是儲存了一堆無用的數據。
數據倉庫依然是贏家因此,數據管理者需要了解以下方面:
企業已經在數據倉庫環境中投入了很多成本,至少要在將其替換為Hadoop或NoSQL部署之前要看到客觀的投資回報率。
由開源的本質決定的,Hadoop等工具要想像數據倉庫一樣成熟,還有很長的路要走。
雖然Hadoop系統組件想要走無模式的道路,拒絕交互式分析查詢,但是一段時間內,它還是面向批處理的。
很多企業用戶還是依賴數據倉庫提供的報表和即時查詢。
另外,還有不能忽視的一點是并行處理平臺可以運行復雜的分析大規模數據集。多種多樣的分析程序得出的結果可以用于企業數據倉庫,支撐業務決策。
由此可見,雖然Hadoop、NoSQL等新技術一躍而成大數據新星,但企業需要它們能夠和現有的數據倉庫融合。數據倉庫仍然是大贏家。