Oracle Big Data Discovery(大數據發現)可能正是組織解決大數據挑戰時所需要的產品,但是這些一體化產品仍然處于早期。
二月份,Oracle發布了它的最新大數據產品Oracle Big Data Discovery。Big Data Discovery一直被奉為Hadoop數據查詢、轉換和分析的端到端解決方案,它交付了一個一體化產品軟件包,允許用戶從Hadoop集群中發現相關聯的數據,通過挖掘數據發現其潛在價值,以及通過轉換數據達到凈化和豐富數據的目標。以此為基礎,用戶可以通過分析數據獲得新趨勢和作出戰略決策,也可以將結果共享給團隊成員,以執行協作和更進一步的分析。
Oracle推出了Big Data Discovery產品,幫助公司解決所遇到的大數據問題,因為他們無法管理大師的信息和收集有意義的趨勢,而且通常根據不清楚該如何開始著手,更不用說后面的事情了。雪上加霜的是,傳統商業智能工具往往局限于定義完好的關系結構,但是缺少高效處理大數據分析的能力。
認識Big Data Discovery產品
根據Oracle的介紹,Big Data Discovery能夠解決這些問題,同時給業務分析師和數據科學家提供發現游程。Big Data Discovery承諾能夠加快分析過程,因此用戶可以減少準備數據的時間,留出更多的時間用于分析數據。由于主要關注Hadoop,所以Big Data Discovery解決了A、B端面的技術障礙,達到了Oracle所謂的“Hadoop可視面孔”。
Oracle在Big Data Discovery的設計上支持可視化分析功能,既不需要用戶學習復雜的流量,也不要求有特殊的專業知識。Big Data Discovery允許用戶按數據類型可視化屬性和輕松決定哪些屬性與他們的分析關系最密切。然后,他們可以根據用戶的特定需求對屬性進行排序,實現信息的優先級劃分。Big Data Discovery提供了交互式目錄,可用于查找數據、查看數據集匯總和通過簡單易用的搜索與導航特性去檢索數據。
根據Oracle的介紹,分析師將能夠直接向數據提問,然后像在線購物一樣輕松地獲得想要的答案。它的界面提供了一些自助向導,支持鼠標拖放操作,并且有許多其他幫助將原始數據轉換為多樣化、交互式可視化和儀表板的特性。此外,Big Data Discovery也完美地融入Oracle的大數據架構,能夠集成其他一些工具,如Oracle R、Oracle Exadata和Oracle Big Data SQL。
數據發現的五個步驟
Oracle將Big Data Discovery分析流程劃分為5個基本步驟:查找、挖掘、轉換、發現和共享。
為了獲得他們所需要的信息,分析師可以使用交互目錄訪問Hadoop的原始數據,但是完全不需要理解其底層結構。事實上,他們只需要關注于如何獲得分析所需要的特定信息。交互目錄會將數據組織為可視化數據集合,如博客、客戶快照或品牌忠誠度調查。按照這種方式,分析師就可以確定他們所需要的信息分類,然后再深入分析這些數據的細節。
挖掘步驟就是深入分析數據的流程。每一個數據集都會被分割為一些屬性,它們可以以可視化方式進行存儲和組合,以便更方便地理解它們的關系。分析師可以按數據的潛在用途來組織數據;將最關注的屬性移到最頂部,或者試驗各種不同的屬性組合。挖掘步驟可以幫助分析師快速理解數據質量和確定其整體潛在價值的關鍵因素。
轉換步驟則允許用戶通過大量用于轉換與充實數據的庫來修改數據。例如,用戶可以通過對一些值執行規范化或分組操作來凈化數據。Big Data Discovery提供了一個類似于電子表格的界面,可用于定義數據的轉換方式。此外,用戶可以通過應用一些特性來充實數據,如推斷語言、位置、檢測話題或主題等。Big Data Discovery原生支持所有的轉換操作。
發現是指用戶將數據加入或混合到儀表板和可視化的步驟,其范圍包括表格到詳細的圖。這個界面包含一個可供用戶查找數據模式的搜索工具,以及一個用于瀏覽搜索結果的導航特性。在任何時候,分析師可以增加或關聯更多的數據以擴大結果,或者應用額外的過濾器以優化數據。
最后一步是將結果分享給團隊的其他成員,以實現項目內協作。用戶可以分配其快照書簽和圖庫,以進一步共享分析。除此之外,他們還可以將轉換后的數據發布回Hadoop,以供Oracle R或Big Data SQL等產品使用。
Big Data Discovery背后的技術構成
Big Data Discovery包含3個主要組件——Studio、Dgraph&Data Processing,再加上Hadoop集群,共同構成一個完整的數據解決方案。在Hadoop方面,Big Data Discovery使用了Cloudera的Hadoop發行版,它包含許多支持Big Data Discovery功能的組件,如Cloud Manager、ZooKeeper和Spark。
Big Data Discovery的Studio組件是一個前端Web應用,用戶可以用它訪問Hadoop數據。Studio包含分析師在查找、挖掘、轉換、發現和共享數據時所需要的全部特性。它是一個基于Java的應用程序,可以運行在多個節點上,從而支持負載均衡和高可用性。Big Data Discovery將大部分的Studio項目及配置數據存儲在一個關系數據庫中。
Studio與Dgraph通信,后者將請求轉發到Hadoop集群上。Dgraph組件還負責處理緩存和業務邏輯。與Studio類似,Dgraph可以運行在一個節點上,也可以運行在一個集群上,然后使用CDH ZooKeeper處理集群服務。對于Big Data Discovery發現的每一個數據集,它都會將記錄和模式加載到Dgraph上。
Big Data Discovery的最后一部分是Data Processing(數據處理)組件,它是一組負責處理大部分復雜處理的過程和作業,如抽樣、剖析和充實數據。這其中的許多流程都直接運行在Hadoop節點上,然后使用Spark運行所有的Data Processing作業。其中一個重要的Data Processing組件是Hive Table Detector(Hive表檢測程序),它負責監控Hive數據庫中新增或刪除的表。如果Detector發現數據庫有變化,那么它就會啟動一個Data Processing工作流。
大數據的問題不斷出現,而數據每天都在增加。但是,組織仍然還不是很清楚該如何應對,總是遇到一個又一個的問題。雖然Big Data Discovery承諾改變這種局面,但是它仍然處于發展早期,因此它還沒有經過能夠展現其真實功能的現場測試。毫無疑問,它在一些領域具有優勢,但是在其他一些領域則需要做得更好。即便如此,它也說明了一個事實,大數據仍然屬于重要業務,而且我們將在不久的未來看到其他一些一體化產品出現。