探查大數據和傳統企業數據是許多組織的共同需求。在本文中,我們概述了為通過基于 Hadoop 的平臺管理的大數據建立索引的方法和指南,以便將這些數據用于數據發現解決方案。具體來講,我們將介紹如何將存儲在 IBM 的 InfoSphere BigInsights(一個基于 Hadoop 的平臺)中的數據推送到 InfoSphere Data Explorer。InfoSphere Data Explorer 是一個復雜的工具,支持業務用戶探查并組合來自多個企業和外部數據源的數據。
簡介
如果您關注過許多圍繞大數據的早期案例分析,您可能相信 “您根本不知道您不知道什么” 的說法。確實,大數據應用程序常常專注于從平時可能出于多種原因而導致被丟棄或忽略的數據中收集業務洞察。公司越來越多地希望開發一個全面的信息管理戰 略,這個戰略涉及的不僅僅是簡單地探查或分析大數據。具體來講,他們希望將大數據與現有數據系統(包括關系 DBMS、企業內容管理系統、數據倉庫等)一起整合到其總體信息管理戰略中。
本文分析該挑戰的一個方面,列出了為大數據和傳統數據源建立索引的一個架構和方法,還提供了基于 Web 的接口,以發現這些不同數據源中的新洞察。具體來講,它描述了 Data Explorer(一個數據發現平臺)如何為 InfoSphere BigInsights 管理的數據建立索引,支持將大數據的持久化格式與現有的企業數據相結合。Data Explorer 和 BigInsights 都是 IBM 的大數據平臺的重要組件,所以我們首先概述此平臺和這兩個重要產品。
IBM 的大數據平臺概述
IBM 的大數據平臺旨在幫助組織探查、分析和管理豐富的數據,包括流數據、傳統業務數據,以及以前很難合并到企業的商業智能和分析平臺中的 “非傳統” 數據或輔助數據。首先讓我們簡要了解一下這個平臺,然后再重點介紹兩個重要組件:InfoSphere Data Explorer 和 InfoSphere BigInsights。
圖 1 描繪了 IBM 的大數據平臺的架構,它在功能的豐富性上不同于其他商用產品。從上到下,您會看到 IBM 的這個平臺包含豐富的功能和技術,能夠可視化和發現各種數據源中的洞察,開發分析應用程序,管理您的環境。Data Explorer 提供了 IBM 的大數據平臺的重要可視化和發現功能,所以稍后我們會更詳細地討論該組件。圖 1 中所示的加速器是 IBM 提供的工具包,包含數十個預先構建的軟件工件,以幫助公司快速部署分析社交媒體和機器數據(比如日志記錄)的解決方案。3 個數據處理引擎使組織能夠有效地應對大數據內在的多樣性、大量性和高速性。這些引擎包含一個基于 Hadoop 的系統(BigInsights,我們稍后將詳細探討它)、一個流計算平臺 (InfoSphere Streams) 和一個數據倉庫平臺(比如 PureData for Analytics 或 DB2)。最后,IBM 的大數據平臺還包含與其他流行企業軟件的連接,包括關系 DBMS、提取/轉換/加載平臺、商業智能工具、內容管理系統等。
圖 1. IBM 的大數據平臺架構
InfoSphere BigInsights 概述
InfoSphere BigInsights 是 IBM 持久化和分析眾多形式的大數據的平臺。基于開源 Apache Hadoop 項目,BigInsights 旨在幫助公司發現和分析隱藏在海量數據中的業務洞察,這些數據在平時可能被忽略或丟棄,因為使用傳統方法來處理這些數據有些不切實際或太困難。這些數據的 示例包括日志記錄、單擊流、社交媒體數據、新聞源、電子郵件、電子傳感器輸出,甚至一些事務數據。
為了幫助企業高效地從這些類型的數據獲取價值,BigInsights Enterprise Edition 包含一些來自 Hadoop 生態系統的開源項目,以及 IBM 開發的一些增強和擴展了這個開源軟件的價值的技術。如 圖 2 所示,這些技術涵蓋范圍從應用程序加速器到分析工具、開發工具、平臺改進和企業軟件集成。例如,BigInsights 客戶可使用復雜的文本分析功能從文檔、電子郵件和消息中提取內容和上下文。應用程序開發人員可采用基于 Eclipse 的向導來加速自定義 Java MapReduce、Jaql、Hive、Pig 和文本分析應用程序的開發。管理員可通過一個集成的 Web 控制臺管理和監視其 BigInsights 環境,業務用戶可通過基于 Web 的目錄來啟動 IBM 提供的或自行開發的應用程序。
在本文中,我們將重點介紹 BigInsights 特性的一個子集,比如文本分析和應用程序生命周期工具。
圖 2. InfoSphere BigInsights 架構
InfoSphere Data Explorer 概述
InfoSphere Data Explorer 允許您為來自不同數據來源的大量結構化、非結構化和半結構化數據建立索引。它還提供了構建大數據探查應用程序和 360 度信息應用程序的能力。InfoSphere Data Explorer 允許用戶根據存儲在不同的內部和外部數據存儲庫中的龐大數據集合,創建不同實體(比如客戶、產品、事件、合作伙伴等)的相關信息的視圖,而無需移動數據。
當今企業的一個重要挑戰是,用戶無法快速找到解決業務問題或完成一項任務所需的信息。通常,數據分散在不同的系統中,以便支持不同組織管理的具體應 用程序。此外,新數據來源逐漸成為關鍵的資源,人們可能需要在日常工作和制定重要決策時考慮它們,比如社交媒體、來自移動設備的源、Twitter 等。
這方面的一個示例是,聯系人信息、購買的產品、開具的服務票據和保修信息等客戶信息都存儲在不同的業務應用程序中,比如 CRM、支持票據系統、市場門戶等。想象一位希望聯系客戶以進行追加銷售的銷售人員。他必須先登錄 10 個應用程序來匯總客戶的信息,或者與 5 個人溝通來理解所有這些信息。
Data Explorer 解決了這個重要難題。信息存儲在許多不同的系統和筒倉中,而用戶需要采用一致的方式來查看所有數據,快速導航到與他們最相關的信息。這里的挑戰是:在員工最需要制定決策的信息地方提供該信息。
圖 3. InfoSphere Data Explorer 架構
BigInsights 和 Data Explorer 的集成
BigInsights 和 Data Explorer 彼此互補,使組織能夠拓寬他們能以一種一致、連貫的方式分析的信息范圍。例如,BigInsights 常常用于存儲非結構化和半結構化內容。此外,探查和導航內容的需求變得更為緊迫,這常常表現在搜索式界面中。這使得信息更容易讓業務線用戶使用。例如,如 果您存儲了機器數據,最終用戶可能希望導航內容日期,尋找特定的機器故障類型,等等。另一方面,如果存儲社交數據,最終用戶可能希望搜索與產品相關的用戶 態度。所有這些都需要一種富索引功能。除了索引之外,Data Explorer 還可提供了一種富用戶體驗,合并來自 BigInsights 的內容和其他企業內容,以實現全面的大數據探查。
示例場景
要實現這一架構,我們需要執行一些步驟。這里總結了這些步驟,稍后會更詳細地分析它們:
收集和準備您的社交媒體數據以供分析
BigInsights 通過預先構建的應用程序提供各種不同的數據收集機制。當基于文本的社交媒體帖子位于 BigInsights 中時,您需要提取感興趣的信息,以便可在以后輕松地為它們建立索引和探查它們。BigInsights 提供了復雜的文本分析功能,幫助您提取感興趣的實體,包括產品、人員和對產品的態度。
建模感興趣的業務實體和關系
一個應用程序可快速啟動此過程,為 Data Explorer 指定一種實體模型來幫助設置我們稍后將展示的各種配置選項。此實體模型對您的應用程序場景的總體成功至關重要。
該實體模型將捕獲一組重要的業務實體和關系,您的業務分析師將有興趣在 Data Explorer 中搜索、發現和探查它們。因此,一種有效的實體模型設計是理解業務分析師希望如何搜索和探查哪些信息的前提。
該實體模型將捕獲您的 Data Explorer 集群的一組重要配置,以反映您的容量和部署計劃。稍后,您將看到我們如何捕獲產品和 tweet 作為感興趣的關鍵業務實體,進一步指定這些實體之間的關系,并提供 Data Explorer 集群的拓撲結構部署信息。
開發您的第一個索引應用程序,在 Data Explorer 中為提取的社交數據建立索引
您可以利用 BigInsights 應用程序開發生命周期開發您的索引應用程序,該生命周期使您能夠以極少的工作創建、發布和部署您的應用程序。部署之后,從您的社交數據中提取的實體信息將 被推送到一個 Data Explorer 搜索集合中,可使用 Data Explorer 分面搜索 (faceted search) 特性進一步探查這些信息,使用它們構建一個 360 度視圖應用程序。
使用 Data Explorer 實現可視化
Data Explorer Application Builder 提供了一種途徑來構建一個應用程序,將分散在不同系統中的數據的相關信息集中在一起。在我們的示例場景中,一位產品計劃主管可能關心一個產品或產品家族,所以一個 360 度視圖
在 BigInsights 中收集和準備您的社交媒體數據以供分析
BigInsights 通過預先構建的應用程序(比如 Boardreader 應用程序)提供了眾多數據收集機制。
圖 4. Boardreader 應用程序