精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

UCan下午茶杭州站:突破困惑,為大數據商業化變現探尋出路

責任編輯:xfuesx

2018-08-22 10:17:14

摘自:CSDN

位的演講嘉賓是來自網易的資深數據庫內核及大數據技術專家蔣鴻翔,他帶來了「基于 Impala 平臺打造交互查詢系統」為主題的分享。最后一位演講來自于華為的技術專家時金魁,他帶來了「實時流計算技術及其應用」的主題分享。

今天,對大數據的分析挖掘已經成為企業提升競爭力的全新支點。各行各業在大數據領域的商業進程明顯加速,但如何讓大數據發揮價值還面臨很多困境。

除了數據的使用權、數據安全、數據存儲等問題,現階段,更多的人對大數據技術本身能夠開發出什么樣的產品,提供什么樣的服務更感興趣。

因此,UCloud 特地在杭州舉辦了UCan下午茶活動,聚焦數據價值,探討如何在技術層面進行數據安全實踐,為數據商業化變現探尋新出路。

  活動現場

現場座無虛席,UCloud 存儲研發工程師丁順首先帶來了主題為「數據庫高可用容災方案設計和實現」的分享。

  UCloud 存儲研發工程師丁順

高可用數據庫,即一系列數據庫構成的集群。它通常的架構是有一個主節點來處理主要請求,另一個備用節點作為容災切換使用,當主節點不能提供服務的時候,備節點可以成為主節點繼續提供服務,從而保證整個系統的可用和穩定。

因此,使用高可用數據庫的好處也非常明顯。丁順表示,「一是系統可用性提高;二是可以方便地讀寫分離。即操作中可以在主數據庫節點上進行,吞吐量明顯多于單個數據庫;三是變更不停服,它是指做變更時可以先升級備節點,再做主層切換,升級后的備節點變成主節點,再把之前主節點再做升級,對用戶影響非常?。凰氖莻浞莶挥绊懛招阅?,因為有很多備節點可以做數據備份,所以主節點的性能不會受影響?!?/p>

因為高可用數據庫的優勢,業界有很多成熟的架構設計。而數據庫主從復制是較經典的數據同步模式,它可以延伸出很多架構改進。現在 UCloud 的云數據庫產品 UDB 就采取這種方案,那為什么要基于數據庫的主從復制來做產品?

這是一個綜合考慮的結果。丁順表示,一方面是因為 UDB 的初衷即是在高可用架構中盡量基于原生 MySQL,以涵蓋不同的 MySQL 數據版本;二是在不同場景及存儲引擎背景下,主從復制方案優勢明顯。

但高可用數據庫也有非常大的痛點,那就是自動化運維。

而目前采用集中式管理方法的 UDB 采用自研的容災模塊,可以處理大規模、高并發的 DB 自動化容災。除了自動化容災之外,后臺 DB 的運維體系還可以做到自動化問題探測以及問題修復,降低運維的難度和壓力。

丁順總結,這是因為 UDB 在運維當中的三個特性:一是日常做例行巡檢,能夠保證高可用數據庫的健康;二是定期的容災演練;三是高可用切換需要記錄日志,在切換失敗的時候需要做告警。這些能力能夠讓 UDB 能夠達到良好的自動化運維效果。

分享過后,與會者還針對 MySQL 數據主從同步異常的問題進行了分析和探討。

第二位進行主題演講的嘉賓是 UCloud 資深數據庫研發工程師劉堅君。他的分享題目是「新一代公有云分布式數據庫——UCloud Exodus」。他認為,在公有云數據庫 1.0 的基礎上,云數據庫 2.0 重新思考了用戶需求痛點,基于公有云的進化能力創造出了全新價值,而 UCloud Exodus 將會是云數據庫 2.0 時代的重要產品,現場他對其能力進行了詳細的介紹。

  UCloud 資深數據庫研發工程師劉堅君

劉堅君首先從 1.0 時代存在的問題入手,他認為 1.0 時代云數據庫帶來了三方面價值:彈性、故障救援、知識復用。但它同樣有三個難以解決的問題:容量和性能、租用成本、運營成本。

到 2.0 時代,解決上述三個問題的思路是計算和讀寫分離。通過計算和讀寫分離,將傳統數據庫的計算層和存儲層拆開,各自獨立擴展和演進。帶來的好處是:一是提供更大的容量和讀寫性能;二是按需擴容和付費;三是優化運營成本并降低運營風險。從而讓 1.0 云數據庫的三大問題可迎刃而解。

放眼來看,業界已推出的 2.0 云數據庫(如 Aurora、PolarDB 等)均采用計算和存儲分離的架構。而 UCloud Exodus 的產品和技術理念則更進一步:計算和存儲分離后,存儲層將完全復用云平臺的高性能分布式存儲(如 UCloud UDisk、阿里云盤古等),而 Exodus 則專注于構建一款數據庫內核,去適配主流公有云和私有云廠商發布的高性能分布式存儲產品。Exodus 的這種產品架構,稱之為 Shared-ALL-DISK 架構。

Shared-ALL-DISK 架構的優點明顯。在提供云數據庫 2.0 創新功能的同時,賦予了用戶業務自由遷徙的能力,不被某個云平臺綁架;同時能夠連接上下游的軟硬件廠商,共享云數據庫 2.0 技術紅利,共建 Exodus 數據庫生態。中立、自由連接和利益共享,是 UCloud 成立以來一直強調的價值觀。

更為重要的是 Exodus 最終開源,它會將核心系統的每一行源碼開放,賦予用戶深入了解和優化 Exodus 的能力;賦予同行改進,優化的自由。并建設開源社區,吸收全行業的優化成果,共同改進和完善 Exodus。最終,UCloud Exodus 將成為時間的朋友、用戶的朋友、行業的朋友。

演講中,劉堅君進一步闡述了三個朋友的概念。他指出,最近幾年,某些公有云廠商和產品有成為下一代 IOE 的趨勢,通過降價打壓競爭對手和吸引用戶,在產品上對用戶業務的捆綁越發深入,導致敵人越多,朋友越少,長遠來看不利于行業健康發展。而 UCloud Exodus 的目標,是希望成為云數據庫平臺中的 MySQL。數據庫系統,歷來是 IT 行業的協作樞紐,UCloud 希望打造一款開源的云數據庫 2.0 產品,來重構云數據庫格局乃至公有云格局,通過開放共享,用自由連接的方法讓敵人越來越少,朋友越來越多,形成通過技術和服務,而不是品牌宣傳和降價來相互競爭的格局,推動云計算健康發展。

當然,采用 Shared-ALL-DISK 這種開放式架構,有更多技術問題需要解決。其中的核心問題是 IO 路徑問題,這也是計算和存分離架構中的根本問題。劉堅君認為,分析近幾年的技術趨勢,未來主流云平臺上的分布式存儲產品,必將朝高性能方向演進,最終在 IO 能力上足夠承載數據庫等高性能應用。

因此,應該有前瞻性地把 IO 路徑問題的主戰場,交給隊友,交給云平臺的分布式存儲產品和團隊。比如 UCloud UDisk,以 UCloud UDisk 正在開發的新版本產品為例,現在已經測得了 100us 的 IO 延遲,100w+的 IOPS。相信隨著時間的推移,技術優化將不斷深入,底層軟硬件將不斷升級,最終云平臺的跨節點 IO 能力將達到非常高的水平。

但這并不意味著 UCloud Exodus 在 IO 路徑上毫不作為。相反,Exodus 將以 MySQL 為原型,對 IO 路徑問題做大量優化。包括去除 Binlog、去除內部二次提交、消除 DoubleWrite 等。這些技術手段的采用,將保證 Exodus 在高性能分布式存儲之上,IO 跑的又輕又快。

除了 IO 路徑問題,另一個重要的技術問題是主從同步問題。在借鑒業內主流的 Redolog 同步思路的基礎上,Exodus 基于 MySQL 內部機制又做了創新。該創新方法提供了一種實現簡單又運行高效的主從 Redolog 同步機制。

一套完整 UCloud Exodus 數據庫系統,由 Master、SLAVES、Binloger、分布式存儲與對象存儲構成。Master 實例負責數據讀寫并同步 redolog 到 Slaves;Slaves 由一個或多個只讀節點構成,緩存和主節點保持一致并向上提供只讀能力;分布式存儲負責數據的持久化存儲,同時將數據頁和 redolog 實時備份和歸檔到對象存儲;而 Binloger 模塊將根據對象存儲中的歸檔 redolog 重演 binlog,以向下游系統(如 kafka 等)提供 binlog 數據。

該系統預計 2019 年第三季度推出公測版,2020 年一季度正式發布。

第三位的演講嘉賓是來自網易的資深數據庫內核及大數據技術專家蔣鴻翔,他帶來了「基于 Impala 平臺打造交互查詢系統」為主題的分享。

  網易資深數據庫內核及大數據技術專家蔣鴻翔

交互查詢是偏分析的方向。它的特點是數據量基數龐大,關系模型相對較復雜,響應時間要求較高。

因此,選擇匹配的平臺上,一般基于三個方面來考慮:一是本身項目熟悉度;二是中大廠背書;三是性能和優缺點指標。

蔣鴻翔表示,現在業內有 Impala 交互查詢平臺,Facebook 做的查詢平臺 Presto,以及 Green Plum。那如何去選?因為交互查詢的數據是從大數據平臺上來的,所以一般會考慮與 Hadoop/Hive 的兼容,社區環境及架構設計等因素。

之所以選擇 Impala 平臺,在于它的綜合優勢,主要體現在六個維度:第一,MPP 架構;第二,執行節點無狀態、去中心化;第三,兼容 Hive 存儲;第四,Apache 頂級項目、成熟社區;第五,多種數據格式兼容;第六,高效查詢性能。

當然,Impala 還有缺陷。包括服務單點、Web 信息不持久化、資源隔離不精準、底層存儲不能區分用戶、負載均衡需要外部支持這幾個方面。

針對這些缺點已經出臺了不少改進方案。目前主要有基于 ZK 的 Loadbalance,管理服務器,細粒度權限和代理,Json 格式,兼容 Ranger 權限管理,批量元數據刷新,元數據同步和過濾等維度。

其實,Impala 平臺的應用場景也非常多?;谟脩魯祿恋恚霾煌问降念A測和推薦,從而最大化利用數據。

隨后,UCloud 技術專家王仆帶來了主題演講「UCloud 分布式 KV 存儲系統」。

  UCloud 技術專家王仆

在線服務 Redis 是當前比較流行的協議,它支持比較多的數據結構??梢员挥糜趦却婢彺?、持久化存儲等不同場景,大量服務于各類互聯網應用。

同時也提供了豐富的功能配置,客戶可以根據各自業務需求,在讀寫性能、緩存容量、數據可靠性等方面作出靈活的選擇。

Redis 是主要有三個優勢,一是擁有超高性能,讀寫性能可達 10 萬以上;二是支持 string、list、hash、set、sorted set 等豐富的數據結構;三是支持排序、集合類運算、位運算、過期淘汰等復雜運算。

目前已經有很多企業都在使用 Redis 產品。比如說大型社交 APP 的客戶。通常,社交的 APP 在 Server 端比較簡單,會存儲一些用戶信息,包括發布信息的狀態、關注、消息發布等。這些龐大的信息運轉就需要快速的處理,而使用 Redis 的數據結構來緩存數據,能夠實現較快的響應。

活動接近尾聲,杭州錢塘江已經被一片金色籠罩,但與會者依然熱情,非常積極踴躍地參與交流互動。

最后一位演講來自于華為的技術專家時金魁,他帶來了「實時流計算技術及其應用」的主題分享。

  華為技術專家時金魁

實時流在這兩年比較流行,而它的基礎就是大數據。目前,實時云計算適用場景比較多,包括廣告、監控大盤、打車軟件、金融風控、異常檢測、交通、物流、外賣等等。

比如,在打車場景中,一般會在 APP 中會顯示預計費用,顯示費用通過實時預測出來,而不是真正發生的計價,這就是實時流日常運用的場景之一。

今天較出眾的實時流計算框架是 Flink。

Flink 除了有 TABLE,還能夠做一些 SQL。目前在 Flink 上面可以做時空數據,主要用在物聯網方向,比如說車聯網、物聯網,還有一些基于曲線,比較典型的是電子圍欄、車輛超速等等。除此之外,還有地理位置、智能學習模型、實時推理。因為數據是實時流進來的,可以做實時推理并且應用到業務系統。

時金魁還提到,現在的潮流是流計算雙引擎:Flink+Spark,這個非常有用。它可以實現很多,比如 Stream SQL 表達,在線機器學習,實時故障檢測等等。如果一些數據指標出現異常會訓練,它是否異常可以通過實時流發現,一旦發現做一些歸類,如果是異常情況實時做告警,還有駕駛員分析等等。

活動最后,意猶未盡的開發者們還與演講嘉賓們就一些話題進行了交流。而大數據技術的探討之后,UCan下午茶還將走進深圳等地,繼續對技術趨勢進行火熱探討和交流,敬請關注后續系列活動。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 灌阳县| 灵丘县| 双牌县| 屏边| 临武县| 阿坝| 新宁县| 通许县| 南乐县| 安达市| 呼图壁县| 普安县| 漳浦县| 凤冈县| 遂宁市| 老河口市| 晋中市| 政和县| 邓州市| 和平县| 定西市| 兴安盟| 湘乡市| 武汉市| 彭山县| 屯昌县| 福建省| 汝阳县| 五常市| 宁夏| 石阡县| 津市市| 淳安县| 太保市| 始兴县| 巴马| 杂多县| 聂荣县| 江永县| 方城县| 凤城市|