編者按: 德魯·卡特(Drew Carter)和馬克·賈爾斯(Mark Giles)分別是艾睿鉑(Alixpartners)紐約信息管理服務董事總經理和倫敦信息管理服務董事總經理。
在過去的十年里,大數據的崛起讓一大批供應商嘗試利用大數據的優勢研發新的數據分析工具。
在固有分析工具進行更新換代的同時,新興分析工具則宣稱它們才是 “潮流新品”,廣大用戶不清楚市面上有哪些分析工具。為機構資源尋找合適投資的分析工具就像盲人瞎馬,是個高風險的賭博。
假設你是一個擁有大量信息的信息總監,并且需要解決一個業務問題。要從分析工具琳瑯滿目的分析市場中找出最適合公司的工具組合看似很難,其實不然。分析工具主要有兩種:數據存儲和建模工具。廣義的數據存儲是:存儲數據以供未來使用的任意硬件和軟件組合。它們也許各有特點,但通常擁有數據存儲和檢索的基本功能。建模工具由硬件和軟件組成,對數據進行整合以得出規律。傳統開發人員首先專注于數據存儲,數據學家則利用建模工具進行數據分析和數據挖掘。要根據自身定位找出適合的工具就要從這兩種分析工具中挑選出合適的組合。這兩種分析工具可細分為七個不同的類別,每一類都有它獨特的優勢和強大功能。要解決你公司的問題,就要對這些工具進行正確分組。
分析工具有:
數據存儲
傳統的關系數據庫管理系統( RDBMS ): 正如它的字面意思,它代表人們在過去 30 年里所指的數據庫。盡管這些數據管理系統的數據處理量比不上一些新型技術,但在所有的分析工具中,它們擁有最完善的功能集,數據分析最透徹并且涉及的知識最規范。
超級英雄的首位英雄:美國隊長,當之無愧的領導分析工具,雖然相比起其它分析工具來略顯過時,但 RDBMS 仍然擁有強大功能,并能出色完成任務。
適用情況:需要解決的問題并不是最麻煩的,但你需要一些成熟可靠的分析工具,讓員工能盡快上手。
非傳統數據庫( DB ): 這組數據庫包含眾多非 SQL 語言(代表“不使用 SQL 語言”或”不僅使用 SQL 語言”)的新型分析工具。這些工具除了運用關系數據庫的基礎——關系模型外,還能用于保持中小型數據(即以兆字節或千兆字節計算)流暢加載,并且在使用得當的情況下,能加載以兆兆字節或帕特字節計算的數據。這類數據庫通常是跨硬件的源代碼開放軟件工具;其供應商通過出售包含產品支持的企業特別版軟件獲利。
超級英雄代表人物 : 黑寡婦,她引用卓越的處理技術處理大型數據,是該方面的專家。同時,也能實現不同功能間的快速轉換。
適用情況:希望運用一個新型的框架擴大數據規模,想要引用一種專門處理某類數據問題的技術,同時想嘗試引用新技術來博取大眾眼球。
大規模并行處理( MPP )關系數據庫: 如果把傳統的 RDBMS 比作可靠的中型轎車,那么 MPP 關系數據庫就是汽車界的布加迪威龍(Bugatti Veyrons):擁有最強勁的馬力和極高的價格。這類數據庫與傳統的 RDBMS 組一樣,都以關系模型為基礎,卻包含卓越的硬件和軟件工程,性能和容量大幅提升。因為擁有該項技術,通常供應商只出售該數據庫就能處理各類問題,因此其安裝及維護費用可能十分昂貴。
超級英雄代表人物 : 鋼鐵俠,本來是普通的東西(普通人,RDBMS),注入大量的資金和技術,就成為英雄(身穿鐵甲的家伙,MPP 關系數據庫)。
適用情況:與供應商關系良好,愿意付出一大筆資金,且不希望對數據存儲的方式進行任何重大改變。
Hadoop 和 NoSQL :Hadoop 是市面上能買到的擁有最大數據存儲容量的數據庫。基于雅虎網站(Yahoo!)和谷歌網站(Google)的搜索結果,當需要處理最大容量的信息時,就要求助于 Hadoop。這方面的產品通常包含了與數據錄入,數據管理和數據傳輸有關的應用程序的整個計算機系統。
超級英雄代表人物 : 綠巨人,雖然不能盡善盡美,但如果需要大容量、高性能,他是不二之選。
適用情況:需要存儲和處理各類所有數據。
建模工具
成熟的建模工具: 這類建模工具旨在利用統計學和數據挖掘方法處理數據,從而得出分析洞見。最初的用戶是科學家和統計學家,現在用戶群已增至包含企業用戶。這些工具可以處理小型數據集,但通常可以擴大使用范圍,或用來控制更強大的新一代平臺。
超級英雄代表人物:20 世紀 60 年代的蝙蝠俠——不可否認他有點落后于時代,但他擁有幾乎每一項你所能想到的功用。
適用情況:需要使用一種功能強大且為每一個員工所熟悉的技術。例如,你的團隊有多名能快速利用 Pandas 數據包進行數據分析的 Python 開發人員,或者擁有一支完全掌握內外關鍵流程、經驗豐富的 SAS 建模團隊。
平臺: 大數據平臺是定義廣泛的應用和基礎設施類別,旨在提供非常特定的功能。由于以具成本效益的方式維護大數據環境非常困難,大數據平臺大受歡迎。在本情況中,平臺精簡必要的數據操作,讓用戶專注于“企業任務”。這些解決方案通常包含數據集成、分析和可視化。
超級英雄代表人物:X 教授——他擁有超乎想象的強大功能,豐富的感應能力,但只限于在特定范圍內。
適用情況:需要解決的問題極為清晰,希望運用一種功能齊全的高超技術為特定問題提供最優解決方案。
新一代建模工具: 新一代的建模工具興起于上一年代末,是專門為并行數據處理而開發的。雖然這類工具仍處于新興階段,但正努力開發能對大規模數據進行接近實時分析的技術(達到如分析小型數據一樣簡單的地步),致力于取代已經成熟的建模工具。
超級英雄代表人物:21 世紀的蝙蝠俠——同樣是一種建模工具,但擁有更新、更強大的功能,甚至達到令人敬畏的技術高度。當然,由于他更現實,因此功能較為專一。
適用情況:面對前所未見的任務,希望有最先進的技術協助。