現(xiàn)在的企業(yè)每天都在產(chǎn)生并獲取大量的各種數(shù)據(jù)。加上目前可以在多媒體、智能手機(jī)和社交網(wǎng)站獲取的信息,我們正面臨著比以往任何時(shí)候都更多的數(shù)據(jù)。
傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的性能已無(wú)法應(yīng)付龐大的信息,但是大數(shù)據(jù)(Big Data)技術(shù)使我們能夠訪問(wèn)和使用這些寶貴的、大規(guī)模數(shù)據(jù)集以應(yīng)對(duì)越來(lái)越復(fù)雜的數(shù)據(jù)分析和更好的商業(yè)決策制定。
大數(shù)據(jù)明確將被持續(xù)下去。Gartner公司的分析師聲稱信息量每年正以最少59%速度在遞增。IDC最新的數(shù)字宇宙(Digital Universe)研究估計(jì)到2020年世界上的數(shù)據(jù)存儲(chǔ)總額將達(dá)到35 ZB(zettabytes)(1zettabyte等于一萬(wàn)億GB字節(jié))。
大數(shù)據(jù)將改變商業(yè)智能(BI)的布局,并為企業(yè)提供一種有價(jià)值的數(shù)據(jù)源。首席信息官(CIO)應(yīng)遵行以下的步驟才能成功地將大數(shù)據(jù)融合在他們的商業(yè)智能 (BI)程序中。
找到合適的項(xiàng)目: 可以說(shuō)最重要的一步是確定在合適的項(xiàng)目上測(cè)試大數(shù)據(jù)(Big Data)。需要解決的必需是一種商業(yè)問(wèn)題,而不是一種技術(shù)問(wèn)題。確保項(xiàng)目能提供直接利益或好處,而這些在現(xiàn)有的基礎(chǔ)設(shè)施上是無(wú)法實(shí)現(xiàn)的。那樣你就能贏得主管的支持。
獲得主管的支持:大數(shù)據(jù)(Big Data)是對(duì)你在數(shù)據(jù)倉(cāng)庫(kù)技術(shù)中現(xiàn)有投資的補(bǔ)充。主管的支持將基于對(duì)以證據(jù)為基礎(chǔ)的策略價(jià)值的接受(例如,他們可能廣泛在企業(yè)內(nèi)部已經(jīng)使用著數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘)。
找到合適的人: 你會(huì)需要有非常特殊技能的人;那些能處理大型、分布式數(shù)據(jù)集和與之相關(guān)的硬件的人。然后是一些讓所有的數(shù)據(jù)有意義并能把它們放入商業(yè)內(nèi)容的人;要把數(shù)據(jù)科學(xué)家想成是和現(xiàn)有的數(shù)據(jù)分析師和數(shù)據(jù)挖掘師不一樣的人。
接受開(kāi)源 : 大數(shù)據(jù)意味著對(duì)工具集不一樣的思考并很快能適應(yīng)開(kāi)源。傳統(tǒng)的供應(yīng)商不一定能解決這方面的問(wèn)題;大多數(shù)大數(shù)據(jù)工具都是開(kāi)源的。在這個(gè)市場(chǎng)上的創(chuàng)新團(tuán)體是由來(lái)自谷歌、雅虎、蘋果和Facebook這樣的公司中最聰明的人組成。
不要從零開(kāi)始 : 最廣為接受的大數(shù)據(jù)工具是Hadoop,它是一種可以從Cloudera 或EMC獲得的開(kāi)源技術(shù)。Hadoop旨在緩解在數(shù)據(jù)上執(zhí)行規(guī)模化批處理的復(fù)雜性,并在Apache的項(xiàng)目框架內(nèi)進(jìn)行管理;它能提供你需要的基本工具。主要的商業(yè)智能 (BI)供應(yīng)商都宣布對(duì)大數(shù)據(jù)技術(shù)的支持,或在解決方案中使用大數(shù)據(jù)技術(shù)。
對(duì)架構(gòu)和硬件的改變作好準(zhǔn)備 : 數(shù)據(jù)海洋中的大數(shù)據(jù)要做的事不僅要對(duì)大規(guī)模的信息運(yùn)行分析而且也成為數(shù)據(jù)倉(cāng)庫(kù)的一種來(lái)源。你會(huì)更少需要對(duì)少數(shù)大型機(jī)器的依賴和更多依靠大量的通用硬件和云資源。
購(gòu)買設(shè)備從少量標(biāo)準(zhǔn)部件起 : 設(shè)施即服務(wù)(IaaS)供應(yīng)商們和云資源為所需的企業(yè)提供大量的最新,及時(shí)的基礎(chǔ)設(shè)施。安全的憂患往往是個(gè)阻力,但是可以克服的。
找到一種未使用的數(shù)據(jù)源 : 比如說(shuō),看一看從你公司網(wǎng)站上收集的數(shù)據(jù)。它可以給你提供網(wǎng)頁(yè)的受歡迎程度、一天中對(duì)網(wǎng)站訪問(wèn)的集中的時(shí)間和你的客戶使用的是哪一個(gè)網(wǎng)絡(luò)服務(wù)提供商(ISP)這樣一些信息。挖掘用于市場(chǎng)和銷售的這些信息的潛能。
考慮可視化:想一想呈現(xiàn)數(shù)據(jù)的新方式。由于數(shù)據(jù)容量的原因,表格或圖形的使用對(duì)一些大數(shù)據(jù)分析根本沒(méi)有意義。Edward Tufte 和 Stephen Few在這方面是卓越的作者。
管理期望值 :大數(shù)據(jù)有益于大型分析以及長(zhǎng)期的戰(zhàn)略方向。確保你的用戶知道它不會(huì)交付在結(jié)構(gòu)化數(shù)據(jù)之上的月度管理報(bào)表或即時(shí)查詢。