曾經有段時間,大概兩年前,SQL-on-Hadoop就要打開Hadoop的數據訪問。這是基于以下兩個原因:SQL自有的那些特征,消除Hadoop/MapReduce專家對數據訪問的排他性。是的,一些架構細節也是重要的,比如SQL引擎是否直接觸及Hadoop集群的數據節點。但是,大多數情況下,解決方案被巧妙地概括為:SQL,on Hadoop。
今天,SQL-on-Hadoop解決方案被認為是最好的,不是因為他們SQL引擎自身,而是他們能夠使得Hadoop和傳統數據倉庫協作。Hadoop可以視為篡位者,數據倉庫的同等或者外圍部分;SQL-on-hadoop引擎,用來決定Hadoop這三個角色哪一個(或者更多)能被實現完成。
Gigaom研究剛剛發布行業路線:Hadoop/數據倉庫互操作性。分析師George Gilbert調查了SQL-on-Hadoop市場,評估了六個解決方案。這六個“中斷向量”的每一個或者主要趨勢將影響市場和明年的玩家:模式靈活性、數據引擎互操作性、定價模式、企業可管理性、負載優化作用和查詢引擎的成熟度。
場景
作為根據這些向量評價各種SQL-on-Hadoop產品的背景,Gilbert確定三個關鍵分析使用場景。第一個是核心數據倉庫,許多學院派專家熟悉的概念:一個相當昂貴的基于硬件數據庫平臺提供高度組織化的數據,它的數據結構被優化為商業認為需要運行的查詢類型。
第二個是所謂的“數據湖”(被一些廠商稱為“企業數據中心”)。這里,Hadoop充當各種不同數據來源的收集點,包括無結構化,半結構化和結構化數據。Hadoop 2.0的YARN資源管理器促進使用各種分析引擎以特別的方式去探索“湖”的數據,由此數據倉庫能夠解脫出來,自由為設計和調整的查詢服務。
實際上,核心數據倉庫,輔助數據倉庫和數據湖構成數據處理層次,并具有相應層次的成本。平臺的分層選擇能夠使得較低產值的任務(不過,可以說,更高的商業價值)在較便宜的平臺上處理——為企業組織產生更高的效率。
企業投資回報率
便宜了多少呢?Gilbert說,Hadoop成本每TB數據與基于硬件的數據倉庫相比,至少少一個數量級。因為Hadoop能夠啟用數據湖和輔助數據庫場景,他們的實現能夠使Hadoop給企業用戶明顯的投資回報率。
一個懸而未決的問題是,是否并且何時Hadoop能夠同樣地在核心數據倉庫中提供服務。如果能這樣做,這將有助于數據倉庫供應商,Hadoop分銷商或者兩者兼而有之?確實,這種動態性可能是預測未來分銷商兼并由傳統玩家主導——或者可能甚至是相反的。