Amazon Web Services準備嘗試擴展云計算龍頭地位,繼續充實其數據基礎設施,這次使用的是新的查詢服務。
Athena是對Amazon Simple Storage Service或S3中的數據執行SQL查詢的數據引擎,它是不斷增長的云數據陣容的最新成員。連同一些競爭性的軟件包一起,該軟件預示著云上數據更多的交互式查詢。
Athena的定價很簡單:在查詢中掃描每TB的數據收取5美元。這種按查詢支付的定價可能成為云上的規范。例如,谷歌表示,其BigQuery分析數據倉庫服務的價格為每TB 5美元。
Athena處理S3中的數據,包括CSV,JSON ORC和Parquet的格式。與BigQuery一樣,根據Amazon Web Services(AWS)的說法,它是“無服務器的”,它僅在運行時作為服務而存在,它不需要長期運行的基礎設施或持續的管理。
因為它幾乎不會留下痕跡,所以Athena的工作可以被描述為旋轉式或瞬態工作。 它只在需要時才會出現。
451 Research的研究主管Matt Aslett說:“有了Athena,用戶只需要為查詢付費,而不是為底層基礎架構或數據集成服務付費。”
與查詢那些存儲在Hadoop云服務或Amazon Elastic Compute Cloud中的數據相比,Aslett引用了查詢云存儲中數據的潛在優勢。 這些優點包括在S3中存儲數據的較低成本和易于擴展的特性。
適合快速隨機分析Amazon的領導人將Athena描述為對Redshift(公司在云中的數據倉庫)和Elastic MapReduce(EMR)的補充,Elastic MapReduce是用于Hadoop和Spark風格數據處理的集群服務。兩者都旨在處理大型分析工作負載,AWS首席執行官Andy Jassy如是說。
兩年前,在AWS re:Invent大會上,Amazon將與MySQL兼容的Aurora關系數據庫添加到其產品組合中,直接面向IBM的DB2,Microsoft的SQL Server和Oracle的12c數據庫。除了Athena,該公司還發布了一個與PostgreSQL兼容的Aurora預覽版本,而PostgreSQL是另一個開源數據庫。
但數據管理和分析焦點主要集中在Athena上。“Redshift和EMR已經為大型和小型公司提供了PB級的分析功能,但是有些客戶必須對那些他們想要進行快速查詢的數據做隨機分析工作(較小的工作),”Jassy說。因此,戰術或數據發現工作可能是Athena的最佳目標。
內置PrestoAthena的底層是Presto,它是一個開源的分布式SQL查詢引擎,最初來自于Facebook的工程操作。該軟件還可在Netflix,Airbnb上看到,這在幫助亞馬遜和其他組織偽造Athena上起了一定的作用。Presto是由Apache軟件基金會許可證覆蓋的。
雖然Athena和Presto已經支持對那些可能從未進入Hadoop領域的數據進行內存查詢,但它們可能已經屬于SQL-on-Hadoop工具的常見項。
Presto去年有一個企業軟件管家,當時Teradata承諾了對Presto的支持,它有一個不斷增加的支持者名單。Aslett指出Qubole和Treasure Data是Presto方法的其他支持者。
“Amazon選擇Presto作為Athena數據引擎的基礎是Presto對多個數據源的標準SQL分析的適用性,”Aslett說。 他補充說,這些工具很重要,因為SQL技能是在企業內部廣泛使用的。
同時處理SQL-on-Hadoop查詢是、來自于MapR Technologies的Drill。它在發布了一個新版本,改進了互動查詢延遲。 Drill是Dremel的開源版本,Dremel是Google在2010年的一份研究論文中創建和概述的查詢技術,也是Google本身提供的BigQuery云服務的基礎。 在Microsoft Azure陣營中,公司去年在收購初創公司Metanautix時提供了分布式SQL查詢功能,受Dremel的啟發,它提供了類似的軟件。
對S3上SQL的支持一直在上升。 Presto經常與Impala聯系在一起,Impala是Hadoop供應商Cloudera創建的另一種開源查詢技術,它最近發布了可直接針對Amazon S3中的數據運行的分布式Impala軟件。
另一個Hadoop玩家Hortonworks,強調改進Hive以獲得更快的SQL查詢,它發布了Hortonworks Data Cloud for AWS,改進了與Amazon S3的集成,更好地支持Hortonworks所謂的“臨時工作負載”——一次性作業,而其中一些數據不需要持久性。
無需ETL根據Aslett和其他人的說法,在像Presto這樣的高度分布式SQL工具這類一般行業活動的背后,是一種分析數據的驅動力,它無需首先提取并加載到數據庫或數據倉庫。
位于費城的Stitch Inc.的首席執行官兼聯合創始人Jake Stein表示,亞馬遜提供的Athena是一個“無ETL”的解決方案,它是今年早些時候作為RJMetrics的子公司而成立的一家提取,轉換和負載(ETL)服務提供商,而當時該公司是被電子商務供應商Magento收購了。
Stein表示,“無ETL”意味著ETL過程由提取,加載和轉換(ELT)取代,其中數據轉換在SQL中根據下游使用而不是前期在需要時在裝載階段發生。他承認,ETL公司像他這樣推廣ELT的概念可能是令人驚訝的,但他解釋了后者的好處。
“對于Athena,你從源中提取數據,然后在沒有或有最小的預處理情況下對其進行加載。這種風格的ELT是大多數用例的一個優越的模型,因為它帶來更簡單的架構,并讓分析師更多地了解原始數據是如何變換成為已經轉換過的數據。”
另一個跡象表明,Amazon計劃填補其數據相關產品的任何空白,該公司還在re:Invent中介紹了托管ETL服務。有一款被稱為AWS Glue的服務,該服務會抓取用戶的數據源,創建目錄并處理數據轉換和調度。 目前,感興趣的用戶可以請求參與受控測試。
瞬態運動除了ETL之外,Athena數據引擎等產品可能會對現狀帶來更多的顛覆。
使用云存儲而不是Hadoop數據存儲的能力可能導致一些人將Athena視為對云中Hadoop的威脅,這一舉措最近引起了關注,因為Hadoop軟件供應商(源自本地計算) 轉而支持S3,瞬態工作負載和即付即用定價。
但Aslett并不同意,他說Hadoop和關系數據倉庫仍然可以提供吞吐量和延遲優于分析云存儲中的數據的方法。
“Athena的推出并不意味著AWS云上Hadoop的終結,”他說,“對于具有復雜查詢要求的長期和大型項目,Redshift或EMR可能是明智的選擇。