數據湖領域的競爭已經結束,開源的 Apache Iceberg 已經獲勝,即便 Databricks 以十億美元收購了由 Iceberg 創始人創立的初創公司 Tabular,也無法改變這一事實。
盡管如此,這一大膽的收購令一些 CIO 感到困惑和分心,他們難以理解為何 Databricks 作為數據湖領域的先驅,Delta Lake 的架構師,竟會花費巨資收購這家成立僅三年、年收入不足 100 萬美元的初創公司 Tabular,盡管該公司前景廣闊。
一些人猜測,Databricks 可能希望通過這一不確定性,減緩 Iceberg 生態系統的快速發展,另一些人則推測,Databricks 可能計劃將 Delta Lake 的項目壓在 Tabular 團隊身上,而 Tabular 團隊目前仍然在積極參與 Iceberg 的開發,這種做法可能既幫助了其自身平臺的發展,又消耗了 Iceberg 作為另一種數據湖表格式的資源。
還有一種假設是,Databricks 的高層可能對擊敗 Snowflake 的舉動感到興奮,尤其是在 Snowflake 的活動期間通過收購來吸引注意力,據報道其競爭對手也曾尋求這次收購,或者,Databricks 可能只是希望通過在 Iceberg 領域脫穎而出,來緩解華爾街對其即將上市的不安情緒。
無論原因是什么,Databricks 目前對外所說的關于開放性和可移植性的好處聽起來都很合適——但措辭模糊,足以讓外界繼續猜測。
Amazon Web Services (AWS) 的開源戰略和營銷總監 David Nalley 對我表示:“我確實認為這次收購有點分散注意力,但當這種規模的資金流動時,情況往往就是如此。” AWS 已將 Iceberg 集成到 AWS Glue 和 Amazon Athena 等分析服務中,并在過去三年積極參與了 Iceberg 的開發。“不過,就我看到的所有信號來看,越來越多的人參與其中,開發速度實際上正在加快。我們對此感到非常興奮。”
事實上,盡管有各種擔憂,但目前的大部分工作并不涉及 Iceberg 表格式。內部人士表示,該格式相對穩定。既然 Iceberg 已確立為默認的表格式,下一步的競爭將圍繞其上的 REST 目錄層展開——即幫助定義 Iceberg 的擴展范圍及數據管理能力的 API,這正成為新的競爭戰場。
這也是 Databricks 仍有機會發揮作用的地方,特別是通過將其平臺下的數據與其他競爭平臺上的信息結合。實際上,Databricks 已經朝這個方向努力。6月,在收購 Tabular 的一周后,Databricks 將其數據治理工具 Unity Catalog 開源。
Cloudera 產品管理高級副總裁 Venkat Rajaji 表示:“數據目錄至關重要,因為它是企業管理元數據的地方。” Cloudera 也一直在其平臺上投資 Iceberg 和 REST 目錄的能力。“最近圍繞 Iceberg REST 目錄的創新非常多,因為數據戰場已經結束,但元數據的戰場才剛剛開始。”
數據湖的吸引力
數據湖表格式的推廣幾乎好得讓人難以置信,它們本質上是抽象層,賦予了業務分析師和數據科學家混合和匹配不同數據存儲的能力,無論數據存儲在哪個地方,也不論使用哪種處理引擎。
一切操作都有記錄,包括元數據的變更,這為一系列管理和治理能力鋪平了道路。數據本身保持完整,沒有復制或更改。因此,任何數量的項目都可以同時訪問這些數據,而表格式會跟蹤所有這些操作。
CIO們對此表示認可,因為這些表格式取消了為每個項目單獨復制數據的需求,從而減少了存儲費用,并緩解了安全性、可靠性和可管理性方面的問題。理論上,所有這些都能實現不依賴供應商的鎖定。
最后一點——沒有類似于“加州旅館”式的陷阱,如專有的增強功能和高昂的外部數據轉移費用,這些費用通常會將企業困在專有數據倉庫中——在 Iceberg 的設計中起到了關鍵作用。當時,Iceberg 的創造者們在 Netflix 工作,他們采用了供應商中立的方法,這種方法也吸引了像 Apple、Citibank 和 Pinterest 這樣的以數據為中心的大公司,并繼續推動其人氣上升。
Delta Lake 從技術上講也是開放的,Databricks 將 Delta Lake 捐贈給了 Linux 基金會,差不多在 Netflix 將 Iceberg 項目交給 Apache 軟件基金會的同時,但一些 CIO 擔心,Databricks 在平臺中的巨大影響力可能讓公司有機會維持并增強其專有的鉤子,例如在 Databricks Runtime 中。
“人們確實有一種感覺,認為 Delta Lake 是一家公司獨創的成果,”Snowflake 的首席工程師 Russell Spitzer 說。Spitzer 在 6 月從 Apple 加入了 Snowflake,同時也是 Iceberg 項目管理委員會 (PMC) 的成員,并在 6 月 Snowflake 捐贈給 Apache 的 REST 兼容 API 項目 Apache Polaris 的孵化 PMC 中擔任職務。他還為這兩個項目貢獻了代碼。
“你知道,它是開源的,”Spitzer 說,“但它確實是一個 Databricks 的產品。”
如果你無法擊敗他們,那就加入他們
Iceberg 的第一波大規模采用始于 2020 年,當時它成為 Apache 的頂級項目,除了 AWS,像 Cloudera 和 Dremio 這樣以開放為中心的供應商也開始圍繞 Iceberg 構建服務,Google 也在這波浪潮接近尾聲時加入。
大多數專有數據平臺供應商在最初的浪潮中選擇旁觀,可能是因為 Iceberg 的“任何數據、任何引擎”結構對他們現有的商業模式構成了威脅,而 Snowflake 是個顯著的例外,這家數據平臺供應商在此期間開始投資 Iceberg,可能是因為它需要一個與其最強大的競爭對手 Delta Lake 抗衡的解決方案。
隨著企業越來越多地將來自競爭性數據倉庫的數據與 Iceberg 結合使用,各大專有平臺供應商開始認真地添加對 Iceberg 的支持,這讓他們處于更有利的地位,不僅能夠繼續管理數據,還可能托管處理功能。
僅在過去的一年里,Confluent、Oracle 和 Salesforce 都增加了對 Iceberg 的支持。Snowflake 則通過 Polaris 加大了對 Iceberg 的投入。微軟作為最后一家保持觀望的云服務提供商——很可能因為其對 Delta Lake 的投資——在 6 月份加入了 Snowflake 的發布活動。當然,Databricks 也在快速擴大對 Iceberg 的覆蓋。
“看到 Iceberg 取得的進展,我感到非常驚訝,”Snowflake 的 Spitzer 說,“過去我得向人們解釋為什么他們應該關心 Iceberg,而現在,人人都知道 Iceberg,大家也都知道,所有人都在向它靠攏。”
一切都與元數據有關
Iceberg 為將不同的數據存儲整合到項目中并進行處理奠定了堅實的基礎。現在,企業數據分析社區基本上已經接受了這一點,下一階段的工作將集中在目錄層面。AWS、Cloudera、Databricks、Snowflake 等公司都在努力讓 Iceberg 能夠處理盡可能多的數據并發揮最佳性能。
“目錄不僅僅關乎表格式,還涉及治理,”AWS 的開放數據分析引擎主管 Roni Burd 說。Burd 還負責管理該公司對 Iceberg 的貢獻。“因此,在目錄 API 上有另一個巨大的創新機會,即表格式之上的抽象層。這也是我們的客戶所需求的,因為它為他們解決問題開辟了新的前沿。”
企業網D1net(hfnxjk.com):
國內主流的to B IT門戶,旗下運營國內最大的甲方CIO專家庫和智力輸出及社交平臺-信眾智(www.cioall.com)。旗下運營19個IT行業公眾號(微信搜索D1net即可關注)。
版權聲明:本文為企業網D1Net編譯,轉載需在文章開頭注明出處為:企業網D1Net,如果不注明出處,企業網D1Net將保留追究其法律責任的權利。