說在前面:術語/定義
大數據:也是數據(白馬非馬問題),大一點的數據,只是更大、更多、更快,更低
Hadoop/Spark:可以理解是一種數據庫,只不過是分布式的,可方便的橫向擴展為什么要做BingoInsight大數據管理平臺?
內部因素:將近10年數據分析領域的耕耘,需要沉淀
品高云從2009年開始接觸數據分析領域。剛開始主要是做數據可視化這一塊,而后深入到數據分析和運營監控領域。在將近10年的項目實施過程中積累了將近100多個數據分析型項目的經驗。如何把項目中的技術和經驗總結沉淀下來,是品高云近年來思考的問題。所以從2014年初開始,品高云組建一個團隊開始研發BingoInsight大數據平臺,也是在這個大數據的浪潮下的嘗試。
外部因素:商業、技術、行業環境均已成熟
從外部看,首先是商業環境,在大數據概念炒作起來之后,很多企業開始重視大數據的運用,在商業環境成熟的條件下,大數據的技術環境隨著2004年谷歌的幾篇大數據論文的發布,開源社區也出了兩個主流的技術體系Hadoop和Spark,當前這兩個技術體系也是基本上較為成熟的。再就是國內一些做數據的公司,他們也是剛開始做大數據,所以從行業競爭的角度上來說,BingoInsight跟以前傳統做數據的公司可以說是處在同一個起跑線的,所以也是一個比較好的機會。
上圖為BingoInsight平臺的定位企業如果直接使用Hadoop或者Spark去構建大數據平臺會是怎樣的體驗?
首先,Hadoop它只是一個框架,并不是一個產品,如果企業直接用Hadoop構建大數據平臺會面臨很多問題。
第一點,是技術選型,因為現在的大數據技術體系會涉及很多,除了Hadoop之外還會有很多,例如HBase、Kafka、Yarn等等這些,一般企業不知道怎么去選這些技術,而且這些技術涉及的版本也會有很多。
第二點,企業也會面臨服務問題。沒有培訓,沒有支撐,也沒有升級和服務。
第三點,如果在分布式架構上面去部署,也會非常復雜,是采用云部署的方案用物理機來部署,或者是我們要部署很多分布式的集群,這多個集群之間怎么去管理等等,都會是一個問題。
其次,除了這些問題之外企業在構建大數據平臺的時候,其實還要考慮很多問題。
第一個就是企業內部的各種生產系統的異構數據怎么快速采集到數據平臺。
第二個就是數據進來之后怎么樣可以很方便的去處理這些數據。
第三個就是處理完數據之后,企業如何使用這些數據去做分析,去消費,也會面臨很多問題。
第四個就是整個大數據平臺建成之后的運維,以及管理要怎么去做。
綜上所述,Hadoop離企業大數據的期望其實還有一段距離,Hadoop只是解決了存儲和計算問題。除此之外采集、處理、開放、消費跟運維這些問題Hadoop都沒有辦法幫企業解決。借助BingoInsight構建大數據平臺是怎樣一種體驗?
上圖為BingoInsight產品架構圖
1. BingoInsight只需簡單配置即可從多種數據源按多種數據周期快速采集
首先BingoInsight可以只需要簡單的一些配置就可以按一定時間周期從關系型數據庫、MPP數據庫、文本、FTP、網頁等采集數據,時間周期可以是實時、日、周、月,非常靈活。
2. BingoInsight開放性設計,擁抱不同的存儲計算技術,企業可靈活選擇
BingoInsight的設計理念就是一個開放式的設計,并不去限制企業是用hadoop,還是用傳統數據庫(像Oracle),企業可以靈活的去選擇這些存儲和計算技術。當然在幫企業構建的過程中我們也會根據實際的數據量或者是應用場景設計整個大數據的技術架構。整個存儲計算的平臺是采用開放性的設計。
3. BingoInsight模板化常用數據處理場景,幫助用戶快速處理數據
數據進來之后,平臺怎么來處理呢?我們把企業在做數據處理的場景做了詳細的梳理,像經常會遇到報表作業,或者是跑指標,或者是對文本分類,或者是數據挖掘等等,BingoInsight將把這些數據處理常用場景,總結沉淀為一個個數據處理的模板庫,用戶做數據處理的時候只需選取一個數據處理的模板,然后再通過設置數據處理的一些參數就可以了,相當于用戶在做數據處理的時候不需要開發或者是少量的開發就可以處理數據。規則設置好之后BingoInsight會自動調度,調度的時間周期也可以很靈活,可以實時、按周、按日、按月。大數據平臺的這些數據怎么進行開放與共享?
像美國、英國、新加坡這些發達國家,整個政府的數據是放在開放平臺上的,社會的一些公共用戶在政府的開放平臺上就可以去檢索到所需的相關數據。基于共享和開放這個場景和條件下,BingoInsight如何去滿足的呢?首先,由數據提供者在平臺上去注冊它需要去共享或者需要去開放的數據,形成一個企業或者是政府統一的一個數據目錄,在注冊的時候也是需要去審批的,服務開發者可以基于數據目錄去開發平臺的數據服務,當然這個是基于SQL的數據服務的一個開發,平臺也會提供數據服務的一個測試工具,幫開發者去做測試,再提交到服務管理員去做審批,審批完之后就可以把這個數據服務發布出來。如果服務使用者需要哪些數據,他只需通過數據服務的申請然后再授權,即可直接去使用這個數據服務。在整個平臺數據服務的使用過程中,平臺也會對數據服務進行數據監控和統計。這樣的話就把整個企業和政府的整個共享和開放流程進行統一的管控和管理。
——————總結——————
企業與大數據的距離大概還差一個BingoInsight
“我們”不是數據的生產者
“我們”只是數據的搬運工