精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

Yelp開源數據管道項目最新組件——數據管道客戶端庫

責任編輯:editor006

作者: Dylan Raithel

2017-01-13 11:43:36

摘自:INFOQ

2016年底,Yelp開源了他們基于Python和Apache Kafka的數據管道客戶端庫。之前的討論涉及Yelp的數據管道組件以及分布式服務數據集成所面臨的挑戰,也就是N+1問題和梅特卡夫定律。

2016年底,Yelp開源了他們基于Python和Apache Kafka的數據管道客戶端庫。該庫提供了一個發布和消費數據管道主題的接口。之前的討論涉及Yelp的數據管道組件以及分布式服務數據集成所面臨的挑戰,也就是N+1問題和梅特卡夫定律。

客戶端庫只是最新發布的一個Yelp數據管道組件。對于創建Yelp數據管道的動機和原因,據Yelp報道,切換到新的數據管道每年為他們節省了1000萬美元。Yelp工程副總裁Jason Fennel表示:

我們的動力產生于我們考察自己的數據倉庫時。我們將所有的數據都集中在一起,供業務和戰略人員以數據為驅動制定銷售戰略或產品戰略。過去,那個過程極其費力。對于MySQL中的每一張表,我們的工程師都必須把它取出來存入那個數據倉庫。那需要幾天甚至是幾周的工作……我們開始考察我們的數據倉庫。把我們所有的數據都存進去需要10到15年的時間,但我們希望可以快點。即使把我們在這個管道上投入的時間和精力考慮在內,我認為,我們通過構建這個系統節省了1000萬的工程成本。一旦我們接入了Salesforce,那個數值就更大了。

服務通過客戶端庫從管道消費數據,在Yelp,我們將這些數據輸入類似Salesforce、RedShift和Marketo這樣的目標。據報道,該庫處理Kafka主題名稱、加密和客戶劃分。通過一個消息代理來集中化服務通信并執行不可變的版本方案,這有助于保護下游消費者,也是更廣泛的數據管道方案背后一個主要的動機。

例如,服務背后的物理變化或者從上游MySQL數據庫加載數據的業務邏輯可以通過Yelp的MySql streamer以流的方式傳輸到Kafka。Schematizer和數據管道客戶端注冊主題的模式、數據類型和格式,將消息封裝到相關元數據中,并為下游消費實現版本控制。元數據封裝器可以確保各種負載類型的消息和kafka主題的一致性,但是,負載內容本身可以用于變更數據捕獲,并針對下游更新使用了Kafka流和日志壓縮。

新管道大大縮短了上游更新和數據庫更新之間的端到端時間。Fennell指出:

我們設法將一個需要用長達三周的時間獲取數據的過程壓縮到了幾秒……我們開始加入其他類型的東西。不只是Salesforce,還有Redshift,我們的許多業務戰略人員都在使用它。隨著我們連接其他類似MySQL的東西,日志也進入了我們的數據管道,Kafka構成了這一核心路由層,這意味著,我們每額外增加一個數據源受到的影響就會倍增。

查看英文原文:Yelp Open-Sources Latest in Data Pipeline Project, Data Pipeline Client Library

鏈接已復制,快去分享吧

企業網版權所有?2010-2025 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 讷河市| 封开县| 德格县| 古浪县| 松原市| 米脂县| 苍梧县| 榆树市| 科尔| 长顺县| 邳州市| 曲麻莱县| 合川市| 洛南县| 哈巴河县| 汝南县| 云安县| 云阳县| 泗水县| 中牟县| 龙口市| 镇赉县| 错那县| 聊城市| 望奎县| 大荔县| 诸暨市| 东乌珠穆沁旗| 普安县| 通辽市| 安化县| 乐都县| 宝山区| 赤壁市| 乌拉特后旗| 隆子县| 澄迈县| 德安县| 梅州市| 桐乡市| 保亭|