隨著互聯網應用的普及、智能硬件的發展,數據產生的速度呈現了持續爆炸式的增長,數據產生的價值也已不僅取決于空間維度,同時開始在時間維度進行延展,因此提高計算的時效性,更快的從數據中挖掘出信息和知識就意味著能夠獲取更大的價值。這在阿里雙十一大促這樣的場景中表現的尤為明顯,用戶行為和商品變化信息帶來的價值都是短暫有效的,因此大數據后臺系統需要在線收集用戶行為和商品變化等信息,實時調整搜索和推薦策略,為用戶和商家提供更精準的服務。
在實時計算領域,Apache Storm、Samza、Spark Streaming、Kafka Stream、Flink 等開源流式計算引擎層出不窮,呈現百家爭鳴之勢,Google 也順勢推出了開源的 Beam 計算框架標準。
在即將于 4 月 16~18 日舉行的 QCon 北京 2017 上,我們專門邀請了兩位資深的大數據專家和我們一起策劃了兩個大數據方面的專題,希望幫助大數據工程師充實他們的專業工具箱,提升他們的架構思維和編程技能。
王峰(莫問),阿里巴巴搜索事業部資深技術專家,數據基礎設施團隊負責人。2006 年畢業后即加入阿里巴巴集團,長期從事搜索和大數據基礎技術研發工作,目前在阿里搜索事業部擔任資深技術專家,負責數據基礎設施團隊。他將作為出品人帶來《大數據實時計算與流處理》專題。
Apache Beam 是一款新的 Apache 項目,由 Google 捐獻給開源社區,凝聚著 Google 研發大數據基礎設施的多年經驗。Beam 來源于 Batch(批處理)和 strEAM (流處理)這兩個詞,意在提供一個統一的編程模型,同時支持批處理和流處理。本次演講中,Amit 將介紹 Beam 處理大規模亂序流數據的基礎,以及 Beam 提供的強大工具。PayPal 架構師,Apache Beam 貢獻者,PMC 成員 Amit Sela 將帶領我們深入理解 Apache Beam。
阿里巴巴搜索技術團隊從去年開始改進 Apache Flink,并創建了阿里的 Flink 分支,線上服務了阿里集團內部搜索、推薦、廣告和螞蟻等核心實時業務,內部稱之為 Blink 計算引擎。目前阿里巴巴也已經在和 Flink 母公司 DataArtiscans 一起合作,將 Blink 的改進全部貢獻回 Flink 社區,共同推進 Flink 社區的發展,阿里巴巴高級技術專家馬國維將全面介紹阿里新一代實時計算引擎 Blink 對 Flink 的各項改進,并向大家分享 Blink 計算引擎在阿里內部的典型應用場景。
滴滴出行近年來飛速發展,系統日均消息量超過萬億規模,消息日均存儲處理量達到 PB 級別。由于交通數據的特殊性,滴滴內部需要實時計算的場景日益豐富,面臨著低延遲、高吞吐、高穩定性等一系列的挑戰。來自滴滴出行的劉建輝將從數據實時采集、實時傳輸、實時計算、實時消費等整個流程來介紹實時平臺在滴滴的實踐情況,同時針對日志檢索、監控、etl、olap 等具體場景展開介紹。會重點介紹 Spark Streaming 實踐和海量日志的實時檢索實踐。
本次 QCon,我們也和硅谷的灣區同學技術沙龍 (TechM)(tech-meetup.com)合作,推出了硅谷大數據技術專題。出品人是 LinkedIn 高級工程師、灣區同學技術沙龍 Board Member 夏磊博士。
在該專題中,你將聽到 Apache Kafka 在事實處理方面的最新進展,Airbnb 的通用數據產品平臺,分布式海量二進制文件存儲系統 Ambry 以及深度學習在電子商務中的應用等精彩內容。
更多精彩內容,可以訪問 QCon 官網:
http://2017.qconbeijing.com/
識別下圖二維碼或戳 「 閱讀原文 」,了解更多詳情!