精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

應用Tableau、Vertica的可視化大數據分析框架

責任編輯:editor005

作者:張璽

2016-02-25 14:24:28

摘自:極客頭條

Platform 通過以上的過程,完成數據的采集,加工及可視化展現,最終用戶可以通過Web 瀏覽器方便瀏覽Workbook,也可以通過與LSF的其他第三方產品(比如PAC)集成,方便用戶定制和瀏覽Workbook。

大數據分析、企業BI、數據可視化等話題在壇子里日趨火熱,新的技術,架構也層出不窮,今天借此文跟大家分享一款大數據下的聯機分析(ROLAP)解決方案,它應用了當前主流的數據可視化工具Tableau及列存儲數據庫Vertica, 采用了IBM Platform Analytics數據采集框架和數據ETL(Extract, transform, load)框架完成對原始數據的采集和處理,提供可用于數據可視化處理的數據倉庫,完成對業務數據的可視化分析。

數據可視化工具-Tableau

Tableau主要是面向企業數據提供可視化服務, 企業運用Tableau授權的數據可視化軟件對數據進行處理和展示。

Tableau目前有三大軟件產品:Tableau Desktop、Tableau Server以及Tableau Public。其中Tableau Desktop是一款PC桌面操作系統上(只支持windows系統)的數據可視化分析軟件。Tableau Server則是完全面向企業的商業智能應用平臺,基于企業服務器和web網頁,用戶使用瀏覽器進行分析和操作,還可以將數據發布到Tableau Server與同事進行協作,實現了可視化的數據交互。而Tableau Public是完全免費的,不過用戶只能將自己運用Tableau Public制作的可視化作品發布到網絡上即Tableau Public社區,而不能保存在本地,每個Tableau Public用戶都可以查看和分享,而且Tableau Public所能支持的接入數據源的類型和大小都有所限制,所以Tableau Public更像是Tableau Desktop的公共網絡版,重在體驗和分享。

 

圖1 Tableau Desktop 編輯界面

Tableau 與SPSS、Matlab、Excel等軟件的區別

Spss、Matlab、Excel是幾個大家比 較熟知的數據分析軟件,也都能進行數據的可視化。但Tableau Desktop可以說是一款完全的數據可視化軟件,而Spss、Matlab、Excel則各有側重。Tableau Desktop與之的區別是,Spss作為三大統計分析軟件,比較偏重于統計分析,使用者需要一定的數理統計基礎,雖然其也是功能強大且操作簡單友好,但 其輸出的圖表在與辦公軟件的兼容性及交互方面有所欠缺,而Tableau Desktop專注的是結構化數據的快速可視化,使用者可以快速構建美觀有效的數據可視化作品,并構建交互界面(通過發布到Server),但只是輔助分 析,輔助人們進行視覺化的思考,并沒有像Spss那樣強大的統計分析功能。Matlab的功能更加強大,但需要較為深厚的編程基礎,比較適合科學方面的可 視化項目。Excel是最流行最常用的數據分析、數據繪圖軟件,但因其大量糟糕的圖表設計案例從而在可視化領域廣受詬病,而Tableau Desktop不僅圖表美觀,而且更加智能,可以自動地進行可視化形式的選擇,而且Excel作為一款電子表格工具,其不適用大型數據集。

總之,快速、易用、可視化還是Tabeleau Desktop最大的特點,其能滿足大多數企業、政府機構數據分析和展示的需要以及部分大學、研究機構可視化項目的要求,而且特別適合于企業,畢竟Tableau自己的定位也是業務分析和商業智能。

列存儲式的數據庫-Vertica

Veritica作為列存儲數據庫,提供了比傳統行式存儲數據庫更快的查詢操作。Vertica不僅僅按列式存儲數據,還主動地根據列數據的特點和查詢的要求選用最佳的算法對數據進行培續和壓縮,這就大大降低磁盤I/O消耗。

 

圖2 Vertica的列式存儲機制

在Vertica中,每列數據式獨立地存儲在連續的硬盤存儲塊中。這與傳統行式數據庫按行的順序來連續存儲數據有根本的不同。 Veritica支持延遲物化技術。對于大多數的分析查詢而言,往往只需要獲取所有列數據的一個子集。Veritca列式優化器和執行引擎可以在列式存儲中跳過無關的列,從而節省了大量的I/O資源消耗。

從實際情況上來看,基于行存儲的數據庫更適合OLTP(聯機事務處理系統),而基于列存儲的數據庫更適合OLAP(聯機分析處理系統),比如數據倉庫。除此之外,由于同一列必定是同一類型大小,基于列存儲的數據庫更容易使用高效的存儲方式,與之相比較,基于行存儲的數據庫則只能采用隨機方式處理列值了。

數據采集與ETL集成架構

數據采集與數據加工(ETL)應用了IBM Platform Analytics(以下簡稱PA)開放式框架,它集成vertica和tableau,實現了從數據采集,數據分析到最終可視化的完整解決方案,其架構如圖3所示:

 

圖3 PA的集成架構圖

Platform Analytics通過Analytics Data Collectors 進行原始數據的采集,并將采集到的數據寫入數據庫,存放在原始數據表中,Analytics Data Collectors被部署在一臺主機上,一個Analytics Data Collectors包括不同的數據采集器,我們稱之為dataloader。不同的dataloader負責采集不同類型的數據,這些loader 可以分為events loader,polling loader和database loader。events loader通過對log文件的解析,polling loader通過與系統API的交互定期采集實時數據,database loader則采集數據庫中已經存儲的數據。這些數據通過通過plc(platform loader controller)對dataloader進行管理,plc作為loader的主進程負責各個loader的定期調度。與此同時,還有一個wsm進程負責HA控制,檢測plc的運行狀況,在發現plc停止工作的情況下,wsm會自動重啟plc,保證數據的及時采集。

除了單節點的PA node,PA node還采用了failover機制,一個loader可以被部署在多臺主機上,一旦某臺機子宕機,plc會以此被運行在下一個指定的host上。

原始數據寫入到數據庫后,Platform Analytics Server會調度ETL對數據進行Extract、Transform和Load,生成最終可用來數據分析的分析數據,這些分析數據存放在以RPT 開頭的表中,不同的ETL根據自己特有的業務邏輯對原始數據有價值的信息進行提取和聚合。

在Platform Analytics Server上,每個ETL被定義為不同的task,在PA Console上,可以對這些task 的運行周期進行配置,定期調度這些task完成原始數據的Roll Up、Drill Down、Slice、Dice、Filter等操作。與此同時,Platform Server端還提供其他的功能,比如,數據的清洗,數據延遲的檢測,用戶數據的合并以及對數據庫表中重復的數據進行刪除操作。

最終的數據通過可視化工具Tableau Server展現,終端用戶可以通過瀏覽器訪問Workbook,對Workbook進行條件查詢和數據篩選來查看符合條件的業務數據,可以通過定義Email Notification定時收到系統事件的反饋。

Platform 通過以上的過程,完成數據的采集,加工及可視化展現,最終用戶可以通過Web 瀏覽器方便瀏覽Workbook,也可以通過與LSF的其他第三方產品(比如PAC)集成,方便用戶定制和瀏覽Workbook。

 

圖4 Workbook 用例展示

結束語

PA目前利用自身提供的數據采集和ETL處理,以及與Tableau和Vertica的集成能夠快速相應業務變化的需求,并滿足當前的系統性能需求。下一步需要考慮的方向是:在日益增長的數據需求下,如何與其他開源框架的集成,進一步提高數據分析的效率,比如利用ELK來替代現有組件分析系統日志以及采用Spark框架并行處理ETL, 來降低數據周轉時間,提高系統的運行效率, 這些都是PA下一步的研究方向。

鏈接已復制,快去分享吧

企業網版權所有?2010-2024 京ICP備09108050號-6京公網安備 11010502049343號

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 嫩江县| 龙岩市| 大埔区| 凉山| 岗巴县| 广昌县| 义乌市| 辽阳市| 文化| 三穗县| 高密市| 沛县| 宝应县| 陈巴尔虎旗| 吐鲁番市| 达日县| 莱州市| 民和| 赤水市| 安庆市| 杂多县| 牙克石市| 志丹县| 兴山县| 金秀| 苏尼特右旗| 忻城县| 霍城县| 紫阳县| 通渭县| 泸州市| 东明县| 容城县| 苗栗市| 贵定县| 大石桥市| 阿克| 长汀县| 图片| 东乌珠穆沁旗| 张家川|