傳統數據倉庫的性能已無法應付龐大的信息,但是大數據(Big Data)技術使我們能夠訪問和使用這些寶貴的、大規模數據集以應對越來越復雜的數據分析和更好的商業決策制定。
大數據明確將被持續下去。Gartner公司的分析師聲稱信息量每年正以最少59%速度在遞增。IDC最新的數字宇宙(Digital Universe)研究估計到2020年世界上的數據存儲總額將達到35 ZB(zettabytes)(1zettabyte等于一萬億GB字節)。
大數據將改變商業智能 (BI)的布局,并為企業提供一種有價值的數據源。首席信息官(CIO)應遵行以下的步驟才能成功地將大數據融合在他們的商業智能 (BI)程序中。
找到合適的項目— 可以說最重要的一步是確定在合適的項目上測試大數據(Big Data)。需要解決的必需是一種商業問題,而不是一種技術問題。確保項目能提供直接利益或好處,而這些在現有的基礎設施上是無法實現的。那樣你就能贏得主管的支持。
獲得主管的支持 — 大數據(Big Data)是對你在數據倉庫技術中現有投資的補充。主管的支持將基于對以證據為基礎的策略價值的接受(例如,他們可能廣泛在企業內部已經使用著數據倉庫和數據挖掘)。
找到合適的人— 你會需要有非常特殊技能的人;那些能處理大型、分布式數據集和與之相關的硬件的人。然后是一些讓所有的數據有意義并能把它們放入商業內容的人;要把數據科學家想成是和現有的數據分析師和數據挖掘師不一樣的人。
接受開源 — 大數據意味著對工具集不一樣的思考并很快能適應開源。傳統的供應商不一定能解決這方面的問題;大多數大數據工具都是開源的。在這個市場上的創新團體是由來自谷歌、雅虎、蘋果和Facebook這樣的公司中最聰明的人組成。
不要從零開始 — 最廣為接受的大數據工具是Hadoop,它是一種可以從Cloudera 或EMC獲得的開源技術。Hadoop旨在緩解在數據上執行規?;幚淼膹碗s性,并在Apache的項目框架內進行管理;它能提供你需要的基本工具。主要的商業智能 (BI)供應商都宣布對大數據技術的支持,或在解決方案中使用大數據技術。
對架構和硬件的改變作好準備 — 數據海洋中的大數據要做的事不僅要對大規模的信息運行分析而且也成為數據倉庫的一種來源。你會更少需要對少數大型機器的依賴和更多依靠大量的通用硬件和云資源。
購買設備從少量標準部件起 — 設施即服務(IaaS)供應商們和云資源為所需的企業提供大量的最新,及時的基礎設施。安全的憂患往往是個阻力,但是可以克服的。
找到一種未使用的數據源 — 比如說,看一看從你公司網站上收集的數據。它可以給你提供網頁的受歡迎程度、一天中對網站訪問的集中的時間和你的客戶使用的是哪一個網絡服務提供商(ISP)這樣一些信息。挖掘用于市場和銷售的這些信息的潛能。
考慮可視化 — 想一想呈現數據的新方式。由于數據容量的原因,表格或圖形的使用對一些大數據分析根本沒有意義。Edward Tufte 和 Stephen Few在這方面是卓越的作者。
管理期望值 — 大數據有益于大型分析以及長期的戰略方向。確保你的用戶知道它不會交付在結構化數據之上的月度管理報表或即時查詢。