初創公司Datos IO就像是備份界的特斯拉,針對分布式應用重新設計了數據保護,并專注于高端客戶,解決特定其他人無法解決的問題。
2016年6月發布之后的6個月中,Datos IO的RecoverX分布式數據庫備份產品已經獲得10家付費客戶。該軟件采用語意的重復數據刪除功能作為其秘密武器之一,這就是為什么今天我們要來看一看這家公司的原因。
RecoverX備份運行在本地或者運行在AWS、Google或者其他云中的非關系型數據庫。RecoverX 1.5版本支持Google Compute Engine以及Google Cloud Storage。它幫助Google Cloud Platform用戶保護他們托管在非關系型數據庫(NoSQL、圖形等)的下一代應用,這些數據庫部署在IaaS和PaaS環境中。
這10家客戶來自于金融服務、零售、電子商務、媒體和娛樂、醫療和物聯網。Ayla Networks是Datos IO的物聯網客戶,Datos IO主要是備份這家公司的AWS云基礎設施和非關系型數據庫。Ayla因為成本和無法擴展的問題認為基于腳本的備份不適合自己之后,決定購買RecoverX軟件。
Datos IO的零售客戶是一家財富100強的大型家庭裝修零售企業,他們將現有的電子商務應用從本地數據中心遷移到Google Cloud Platform公有云上,以滿足法規遵從標準并提高運營效率。
Cassandra DBA Ishinder Singh的推特上詢問Home Depot是否是Datos IO的客戶
另外一家客戶是梭子魚(Barracuda Networks)。
Datos IO表示:“RecoverX是基于Consistent Orchestrated Distributed Recovery (CODR),這個下一代橫向擴展數據保護架構是基于可以自動擴展的彈性計算服務,避免了對媒體服務器的依賴,并將數據并行地發送到基于文件的或者基于對象的二級存儲,或者從二級存儲中遷移出來。CODR讓RecoverX能夠提供可擴展的版本控制,這樣企業就可以以任何間隔或者顆粒度保護和備份他們的數據,從而實現操作恢復和測試/設備使用實例中一鍵點擊、協調的、無需修復的恢復,此外行業首推的語意重復數據刪除功能讓客戶可以節約高達70%的二級存儲成本。”
那么什么是語意重復數據刪除?Datos IO的網頁上有一份可下載的PDF,是由包括Datos IO共同創始人、首席執行官Tarun Thakur,以及首席技術官Prasenjit Sarkar在內的多名作者撰寫的研究論文。該論文談到了下一代最終一致存儲系統(NECST,例如像Cassandra和MongoDB這樣的非關系型數據庫)備份和恢復的問題,并建議“對保存在系統中的數據具有深度語意方面的了解是一種解決方案”。
這篇論文中寫道,“這種現代化的系統是如何不再將數據保存在單一設備的磁盤(或者SSD)上,而是把數據以復制的方式分布于多臺設備上;復制是以最終一致性的方式進行的……正如我們所說,核心問題很簡單:工具和系統還無法實現對這些復雜的、多樣化的、分布式的NECST系統下的數據具有有效的、一致的邏輯視圖。”
然后他們說:
我們相信成功的關鍵是對保存在這些新型存儲系統中的數據具有深度語意的了解。只有通過監控和檢查I/O傳輸和重構其含義(例如是否達到定量,或者動地如何復制特定的數據條目)關鍵NECST管理功能才能得到有效地、可擴展地發揮其作用。
因此,語意重復數據刪除的第一個特點就是,它是應用感知的,應用就是非關系型數據庫。
語意了解的特點,或者數據庫操作結構理解,包括:
仲裁協調——傳統存儲相對比較容易知道什么時候進行更新,與傳統存儲不同,了解什么時候應該對存儲系統進行升級的這個簡單任務卻是存在諸多挑戰的。NECST系統要求那些想要了解其中保存了什么內容的工具和系統要知道數據是如何以及何時安全地在系統中進行了復制。通過全面了解NECST復制協議,備份工具可以決定升級的順序,從而形成一致的存儲視圖。
冗余拷貝檢測——傳統條帶或者鏡像系統中的冗余性是很容易觀察到的,與之不同,NECST系統能夠以不同數位的方式對數據拷貝進行編碼。因此,NECST備份或者歸檔系統必須能夠仔細梳理NECST系統,以確定邏輯上相同的拷貝在哪里,這樣才能將其合并,從而實現存儲高效的備份。
配置忽略的備份和恢復——分布式系統會頻繁更改配置,縱向擴展以滿足新的要求,或者在發生故障、系統掉線的情況下出現問題。NECST工具必須能夠保存數據,然后重建數據,盡管事實是配置已經更改了。
Datos IO的CODR軟件“對數據庫進行全面快照;在這之后,CODR追蹤數據庫的變更,生成這些變更的增量版本,有一個版本是對橫向擴展分布式數據庫的集群一致快照”,我們得知:
完整快照和增量快照是并行傳輸到一個備份存儲系統中的,這個系統可以是小規模部署中心的單一節點,或者是更大規模部署的一個集群。在備份庫CODR必須處理本地快照集以發現一個版本。CODR通過運行集成仲裁和語意重復數據刪除算法來做到這一點,最終結果是數據的單一拷貝,節省了空間。這意味著CODR中必須有算法是專門針對單獨數據庫產品的,不能簡單地說一個新數據庫產品是不具備語意(操作結構)知識的。
CODR部署示意圖
在這里有幾個視頻,你可以了解關于Datos IO CODR是如何工作的。
RecoverX的年度訂購許可是基于物理數據庫大小容量層($/TB)。在6個月內只獲得了10家客戶意味著定價并不便宜,這些客戶在切換到Datos IO之前他們可能已經被自己的備份和恢復操作搞的焦頭爛額了。
為什么我們在文章一開始的時候說Datos IO是備份界的特斯拉呢?如果把Veeam、Veritas和Dell EMC比作是備份界的福特、通用和克萊斯勒,那么我們認為Datos IO就像是特斯拉,以他們自己的方式重新定義了人們的備份方式,專注于一種精心設計的、高端產品來打造他們的業務。
我們相信未來它會擴大在數據庫方面的覆蓋面,可能會在市場中遇到Veeam和Veritas的競爭,對于備份界來說這將是一個有趣的時刻。