為了徹底擺脫管理規劃的束縛并告別在內容探索前需要對輸入數據進行的長時間ETL(即提取、轉換與加載)任務,MapR在其Hadoop發行版中引入了Apache Drill分布式ANSI SQL查詢引擎。
為了幫助用戶告別一系列強度極高的數據工程處理任務,MapR日前對其Hadoop發行版進行了更新、核心內容在于引入Apache Drill 0.5。
Drill是一款開源分布式ANSI SQL查詢引擎,旨在進行自助式數據探索——它屬于谷歌Dremel系統的開源版本,搜索巨頭將其作為BigQuery服務的核心組件之一實現內部大型數據集的查詢工作。Apache Drill的既定目標是擁有擴展至上萬臺甚至更多服務器的強大能力,同時保證用戶可以在數秒之內處理PB級別數據以及上萬億條記錄信息。
Drill查詢引擎擁有以下各項能力:
=在不改變原生格式的前提下進行數據探索(包括Parquet、JSON文件以及HBase表),而且無需數據庫管理員的介入。
對不斷變化且來自MongoDB等NoSQL數據存儲體系以及在線REST API的半結構化/嵌套式數據進行分析。
創建出能夠同時包含多種不同Hadoop數據源的查詢機制,例如文件、HBase表以及Hive表。
重復使用現有SQL技術集、商務智能工具以及Apache Hive部署方案。
“我們對此感到非常興奮,因為它真正開啟了SQL-on-Hadoop的發展新時代,”MapR公司首席營銷官Jack Norris表示。“其關注重點在于為Hadoop帶來自助式數據探索能力,且完全無需IT部門的介入。”
這是因為Drill能夠為用戶帶來讓SQL查詢直接面向多種數據格式加以運行的能力,它可以被用于對剛剛傳輸到的實時數據進行探索、而不再需要相關技術人員花費數周時間籌備管理規劃或者設置ETL任務。通過這種方式,它成功地幫助使用者在處理多種數據源時擁有了即時性自助式數據探索方案。
“企業用戶希望能夠對保存在Hadoop以及NoSQL數據庫當中的數據加以訪問,并利用現有SQL分析技能將這種訪問能力拓展到更為廣泛的實際使用者群體當中,”451研究機構數據平臺與分析研究主管Matt Aslett指出。“Apache Drill有能力幫助用戶訪問Hadoop當中存儲的數據,而且完全無需制定任何集中式規劃。除此之外,包含嵌套與重復域等復雜數據結構的NoSQL數據集也可以得到直接使用,這在傳統SQL-on-Hadoop方案當中是完全不可想象的。”
“其它任何一款SQL-on-Hadoop解決方案,無論是Hive、Tez或者其它什么產品,在運行當中都需要依賴于固定的規劃與模式,”Norris同時補充稱。“無論大家著眼于MapReduce、Hive或者其它任何一種SQL-on-Hadoop解決方案,都需要某種中間人機制負責處理建模、數據轉換以及分析支持等任務。Drill的亮點則正在于此——可以在無需等待的前提下實現數據探索,而這無疑會讓用戶擁有令人振奮的速度與敏捷性優勢。”
MapR公司將Drill打包塞進了MapR 4.0.1版本,此版本日前剛剛閃亮登場。這款Hadoop發行版最新版本對自身面向各類用例的實時處理能力進行了顯著擴展,具體用例類型包括業務應用程序、交互式查詢以及數據流處理等。
新版本當中還包含多套批處理框架,具體有MapReduce 1.x與2.x(基于YARN)以及Spark(0.9與1.0.2版本)。它還支持五項SQL-on-Hadoop技術方案:Hive(0.11、0.12與0.13版本)、Drill(0.5版本)、SparkSQL(1.0.2版本)、Impala(1.3.1版本)并且擁有與惠普Vertica相集成的認證資質。它新增了面向HBase(0.94.21與0.98.4版本)的支持能力以及MapR-DB NoSQL技術。此外,最新的MapR還擁有三項機器學習與圖形庫方案,分別為Mahout(0.8與0.9版本)、MLLib(0.9與1.0.2版本)外加GraphX。