一個 Babelfish ，看懂云數據庫的發展方向

責任編輯：yang |來源：企業網D1Net 2021-12-01 11:13:59 本文摘自：CSDN

作為基礎軟件皇冠上的明珠，數據庫技術一直以來都是開發者關注的焦點。這關注度是如此之高，幾乎自然打通了學界和產業界的隔閡，以至于關于數據庫技術的每一篇重要論文面世，都可能導致一批價值數十億美金的公司出現。

而在最近幾年，縱觀整個數據庫產業，云數據庫逐漸成為焦點中的焦點。據 Gartner, Inc 稱，到 2022 年，所有數據庫中有 75% 將部署或遷移到云平臺，只有 5% 曾考慮返回到本地。而 IDC 認為，到 2025 年，全球超過 50% 的數據庫將部署在公有云上；在中國市場，這個數據更為夸張，達到了 70% 以上。

那么問題來了，如果云數據庫，或者叫云原生數據庫，是確鑿無疑的下一個風口。那么其當下主要的技術和發展方向是什么？我們該如何看待云原生數據庫的發展趨勢？亞馬遜云科技在 2020 年發布的 Babelfish 或許能夠帶給我們一些啟發。

1.Babelfish，一個被人低估的重磅發布

Babelfish 在 2020 年的 re:Invent 上發布，由亞馬遜云科技 CEO Andy Jassy 宣布。

簡單來說，Babelfish 是云數據庫 Amazon Aurora PostgreSQL 的一個插件，它讓 Aurora 能夠兼容 Microsoft SQL Server 編寫的應用程序。

Babelfish 剛剛發布，Youtube 上就有許多工程師制作視頻表達了不理解。因為自打云數據庫出現，相關遷移服務就在產業內隨處可見，幾乎每一家公有云企業，都能提供相關遷移服務，只不過大部分是針對 Oracle 的。有一家叫做 Enterprise DB 的美國，專門提供從 Oracle 到 PostgreSQL 的遷移服務。相關代理層、SQL 語言轉換工具更是層出不窮。

事實上，亞馬遜云科技自己就有相關的遷移服務，比如 Amazon Schema Convertion Tool 做架構遷移，Amazon Database Migration Service 做存儲遷移。

那么，Babelfish 存在的意義是什么呢？多加一層代理增加后端處理成本嗎？

實際上，只遷移架構和存儲是不完整的，構建在數據庫之上的應用還沒有完成遷移。以 Babelfish 服務的場景來說，基于 Microsoft SQL Server 構建的應用使用 T-SQL 與數據庫交互，這與 PostgreSQL 完全是兩碼事。如果你想將應用也同步遷移，除非把這部分重寫一遍。

這也讓數據庫遷移成為了業內非常少見的動作，不是大家不想（畢竟誰也沒法保證最初的架構選型永遠正確），但成本實在是太高。

這種遷移成本，我們可以通過一套比較通用的遷移方案來感受下：

比起這種沉重的遷移，如果數據庫天生兼容，是不是方便太多了？這也是 Babelfish 存在最主要的意義。

而許多人，會低估 Babelfish ，可能也是因為只看見了其商業層面的意義，而沒有注意到其技術層面的難度。

Oracle 和 PostgreSQL，許多特性相同，轉換尚且困難；切換到 T-SQL 和 PostgreSQL 就更加復雜了。數據庫的同步轉換要注意許多異常復雜的細節問題，包括查詢語言的轉換，存儲過程的轉換，靜態游標的轉換，觸發器的轉換，等等。

亞馬遜云科技的 Sébastien Stormacq 曾在發布的博客中指出，在 T-SQL 中，MONEY 類型具有四位小數精度， PostgreSQL 則只有兩位小數精度，這種細微的差異可能會導致四舍五入錯誤，并對下游流程（例如財務報告）產生重大影響。

他說：“在這種情況下，Babelfish 會確保保留了 SQL Server 數據類型的語義和 T-SQL 功能：我們創建了一個 MONEY 數據類型，使其行為與 SQL Server 應用程序預期的一樣。”

Babelfish 的方案是用 hooks（鉤子）方法在 PostgreSQL 內置引擎中實現，將自己暴露為不同的數據庫（否則就只能修改 PostgreSQL 許多核心區域的代碼），其架構圖如下：

精妙之處在于，通過數據庫內核部分執行器層面的擴展開發，Babelfish 實現了 T-SQL 與 pgSQL 之間的互相調用。也就是說，新寫 PostgreSQL 代碼可以調用之前應用寫的 SQL Server 代碼。對于寫過存儲過程的朋友們來說，這個功能已經和 Babelfish 的名字一樣，帶上“科幻”色彩了。即便已經使用了最硬核的實現方式, Babelfish 也沒有完全實現兼容，ADD SIGNATURE 等一些功能、語法還沒有實現。亞馬遜官方工程師說：“SQL Server 已經發展了 30 多年，我們不希望立即支持所有功能。相反，我們專注于最常見的 T-SQL 命令并返回正確的響應或錯誤消息。”

這也恰恰說明了類似遷移加速器的開發難度，也證實了為什么開源路線才是最適合 Babelfish 發展的，因為開源可以讓足夠多的開發者參與到產品迭代中來。

同理，一個如此高難度的開發項目，也不太可能是無足輕重的。相反，它可能是亞馬遜云科技 2020 年最重要的發布之一。

2.數據庫碎片化時代，真的來了？

亞馬遜在云計算領域的發布，曾多次引導了整個產業的發展方向。比如，2012 年發布的 Amazon Redshift 引導了云原生數倉的發展方向，2014 年發布的 Amazon Lambda 引導了 Serverless 的發展方向（Gartner 到 2019 年才確認 Serverless 為未來趨勢），Amazon Aurora 本身也是云原生數據庫的先驅產品。

如果說，Babelfish 也代表了一種方向，那么或許是，數據庫碎片化的時代，真的來了。

數據庫這個產品本身因為開發難度太高，長期以來都被少數幾家公司把控著，其中的佼佼者 Oracle 更是以極快的速度提升著商業數據庫的開發門檻。

但數據庫“單極”化發展后導致的價格高、綁定風險高等問題，也讓眾多企業逐漸難以忍受。當下，各種類型的數據庫層出不窮，關系型、鍵值、時序、圖形……讓人難以抉擇。另外一個重要的現象是，大部分云原生數據庫都是基于 PostgreSQL 研發而來，但后續的許多研發力量卻沒有投入到高性能、高可拓展性等傳統技術概念本身。

數據庫兼容，這一開發難度高，與性能無關的特性，卻成為了亞馬遜云科技的研發重點。某種意義上也說明，遍地開花的各類型數據庫還將長期存在于產業內。人們習慣認為，產業的長期發展趨勢是從單一走向多元，最終經過市場篩選，回歸單一。但這次，“單極”時代可能真的一去不復返了。

此外，在 2020 Gartner 的魔力象限報告里，云數據庫領域有數家占領導位置的企業，亞馬遜、微軟、Google 位居前三位。

而就在 2019 年，前三名還是微軟、Oracle、亞馬遜。老大老三打著打著，老二沒了……

如今，有 Babelfish 加持的 Amazon Aurora ，兼容了 Microsoft SQL Server ，恐怕受傷的還是 Oracle。云數據庫之間的墻壁在倒塌，而傳統商業型數據庫的競爭難度在進一步加大。

而乘上碎片化時代東風，發布了 Babelfish 的 Amazon ，也順理成章的成為了云數據庫市場新的領頭羊。

3.寫在最后

數據庫行業遠未走到終局，也不會有所謂的終局。但云原生數據庫可以獲得的優勢并不僅限于數據庫本身，比如 Amazon Aurora Serverless 提供的彈性伸縮服務，Amazon Aurora Global Database 提升了數據全球同步能力與業務連續性，Amazon DevOps Guru 將機器學習引入了應用管理。這是“合力”，將數據庫在云上的體驗拉伸到了全新的維度。

在云數據庫領域，這種“合力”將主導接下來的市場格局。

11 月 30 日，2021 re:Invent 又將到來，Adam Selipsky 將首次以亞馬遜云科技新任 CEO 的身份亮相。相信云數據庫市場的趨勢動向，也將隨之更加清晰。

關鍵字：發展數據庫一個