市面上的BI工具形形色色,功能性能包裝得十分亮麗,但實際應用中我們往往更關注的是樸實的技術特性和解決方案。對于大數據,未來的應用趨勢不可抵擋,很多企業也正存在大數據分析處理展現的需求,以下我們列舉市面上主流的三款BI系統,就“大數據”特性展開探討,主要是與hadoop、Spark、多維分析數據庫的對接和性能。
Tableau 的大數據策略
1、目前,Tableau適用的大數據生態系統連接包括:
Hadoop:Cloudera Impala 和 Hive、Hortonworks Hive、MapR Hive、支持 Impala 和 Hive 的Amazon EMR、Pivotal HAWQ、IBM BigInsights
NoSQL:MarkLogic、Datastax
Spark:Apache Spark SQL
多維分析數據庫: Teradata Aster、HP Vertica、SAP Hana、SAP Sybase、Pivotal Greenplum
2、Tableau 可實時連接到數據源,或將其調入內存。在快速交互式查詢分析時,實時連接作用很大。但由于內存式分析,對硬件要求較高,數據量較大時效率會比較低。
3、面向業務用戶的大數據自助式可視化。業務用戶可使用拖放操作可視化其數據,而無需編寫復雜的SQL、Java代碼或 MapReduce作業。Tableau簡化了分析數據的任務,用戶可比以前更快地從數據中發現形象可見的見解。
FineBI 的雙套大數據方案
1、 FineBI 支持的大數據生態系統連接包括
大數據平臺:Vertica、GreenPlum、Apache Kylin、Impala/hive、hive、星環,
NO SQL數據庫:MongoDB
多維分析數據庫:Teradata、SAP Hana、Greenplum、SAP Sybase、Essbase、SSAS
2、FineBI支持FineIndex和FineDirect兩種數據連接和處理模式,應對的是不同的數據方案。
FineDirect應對的是一些需要實施展現結果,比如銀行交易風險的流水分析,直接對接hadoop,kylin,greenplum等大數據平臺。
FineIndex采用cube連,也就是說數據庫-FineIndex-前端分析,FineIndex相當于一個中間庫的形式,用來存儲數據表,關聯轉義索引等。這些都對后續前臺分析處理數據效率有很大的提升(因為直接sql取數,效率受數據庫本身的限制,數據量大時,一般分析工具很容易就卡死升職內存溢出導致系統無響應)
3、用于執行跨數據源分析的數據混合。FineBI可以將大數據和其他數據源(如MySQL、Excel 文件等)混合,讓用戶能夠跨越各種數據源存取數據,并整合到一個庫內(FineIndex)。
Qlikview
1、Qlikview也是基于內存的BI,能實時響應用戶的分析需求,與Tableau相似,性能大多決定于數據庫。能直接從用戶的業務系統中采集數據并進行多維分析,剔除了傳統BI基于數據倉庫(集市)才能實施的弊病。(作者從網上和其資料庫中并沒有查到太多關于大數據方面的闡述,官方也并沒有這方面的可以宣傳)。
2、QlikView的核心是一個獲得專利的AQL構架。在分析時不需要傳統OLAP立方體,也不一定要使用數據庫,完全利用了基礎硬件平臺,來對上億的數據進行業務分析。QlikView應用使各種各樣的終端用戶以一個高度可視化,功能強大和創造性的方式,互動分析重要業務信息。