對(duì)于大數(shù)據(jù)市場(chǎng)的好消息是,我們一般都同意大數(shù)據(jù)的定義,也就是眾所周知的 volume、velocity 、variety 和企業(yè)需要收集、存儲(chǔ)、管理和分析以獲取商業(yè)上的value,被歸納為“4V”。
當(dāng)你開始你的的大數(shù)據(jù)旅程或項(xiàng)目時(shí),一定要弄清楚究竟是什么業(yè)務(wù)需要。
對(duì)于大數(shù)據(jù)市場(chǎng)的好消息是,我們一般都同意大數(shù)據(jù)的定義,也就是眾所周知的 volume、velocity 、variety 和企業(yè)需要收集、存儲(chǔ)、管理和分析以獲取商業(yè)上的value,被歸納為“4V”。但你一旦開始探究旁邊的"V"所代表的真正價(jià)值時(shí),你會(huì)發(fā)現(xiàn)這個(gè)定義過(guò)于廣泛,它對(duì)于不同的人意味著不同的事。說(shuō)實(shí)話,對(duì)于不同企業(yè)容量也意味著不同。對(duì)于有些人來(lái)說(shuō),是在他們的BI環(huán)境中超過(guò)10 TB的管理數(shù)據(jù),對(duì)于其他人來(lái)說(shuō)可能是PB級(jí)別。數(shù)十億的日常記錄以同樣的速率通過(guò)各種外部和內(nèi)部網(wǎng)絡(luò)進(jìn)入企業(yè)。當(dāng)它真的發(fā)生的時(shí)候,每個(gè)企業(yè)的情況會(huì)有很大的不同,不僅從規(guī)模和速度的角度,更重要的是從業(yè)務(wù)需求方面來(lái)看。一家大型銀行的大數(shù)據(jù)問(wèn)題跟一個(gè)在線零售商或者航空公司可能是非常不同的。如果把公用事業(yè)提供商運(yùn)行的智能電網(wǎng)或電信運(yùn)營(yíng)商和一家醫(yī)院正在試圖收集分析的所有患者的傳感器數(shù)據(jù)對(duì)比一下,真的,你可以把它們都?xì)w類為機(jī)器生成的原始數(shù)據(jù),但確切的數(shù)據(jù)類型可能是不同的,更不用說(shuō)容量或者增長(zhǎng)率。大概在上述所有行業(yè)中,一個(gè)獨(dú)特的共同點(diǎn)是都會(huì)保留較長(zhǎng)時(shí)間數(shù)據(jù)周期的數(shù)據(jù),沒(méi)有人把它扔了----甚至沒(méi)有詳細(xì)的數(shù)據(jù)。
許多成本要考慮的因素
取決于IT預(yù)算分配的分配不同,成本也會(huì)有所不同。但無(wú)論該公司如何分配IT預(yù)算,新的大數(shù)據(jù)舉措都是需要考慮的。讓我們面對(duì)現(xiàn)實(shí)吧,企業(yè)不會(huì)因?yàn)樾碌腎T資產(chǎn)或系列產(chǎn)品而增加預(yù)算,當(dāng)前世界經(jīng)濟(jì)形勢(shì)也不建議如此。更可能的是現(xiàn)有預(yù)算重新被分配,而不是花費(fèi)更多。現(xiàn)有的傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)或者裝置資金被分配到新的項(xiàng)目上運(yùn)行新的開源項(xiàng)目,其中包括Apache的Hadoop。它易于規(guī)模且成本低,更明顯的是有最好的方法來(lái)管理和分析結(jié)構(gòu)化的數(shù)據(jù)集。然后出現(xiàn)的困難是你怎么整合或讓你的Hadoop環(huán)境與建立的BI及DW環(huán)境并存。
充分利用你已經(jīng)擁有的
讓我們假設(shè)如今你有一個(gè)數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)集,你已經(jīng)在使用各種ETL或數(shù)據(jù)移動(dòng)工具、BI儀表板、分析或報(bào)告工具,你不希望擾亂企業(yè)用戶不僅影響性能水平,但也有了一套新的工具,事實(shí)上,你可能已經(jīng)依賴于各種業(yè)務(wù)報(bào)表和KPI嚴(yán)格的SLA響應(yīng)時(shí)間。然而,業(yè)務(wù)同時(shí)要求訪問(wèn)新的數(shù)據(jù)集以搜集更好的見(jiàn)解,也可以直接分析這些數(shù)據(jù)或?qū)⑺c現(xiàn)有客戶數(shù)據(jù)混合。這可能采取網(wǎng)絡(luò)日志、點(diǎn)擊流數(shù)據(jù)及各種互動(dòng)網(wǎng)站跟蹤得來(lái)的社交媒體數(shù)據(jù)形式。只是無(wú)法避免影響利潤(rùn)率和獲得競(jìng)爭(zhēng)優(yōu)勢(shì)的承諾。
大數(shù)據(jù)是大企業(yè),但也有嚴(yán)格的要求
眾所周知,傳統(tǒng)的關(guān)系型或柱狀數(shù)據(jù)庫(kù)不能處理非結(jié)構(gòu)化數(shù)據(jù)類型,它需要推出一個(gè)不同的解決方案以滿足業(yè)務(wù)需求。 評(píng)估可以采取多種形式,但通常從Hadoop發(fā)行版開始,除了MapReduce之外,還有NoSQL或NewSQL數(shù)據(jù)庫(kù)查詢?cè)L問(wèn)工具。這當(dāng)然是不容易的事,因?yàn)橛写罅康募夹g(shù)解決方案目前在市場(chǎng)上的聲稱上能運(yùn)行或使用Hadoop提供的MapReduce和SQL類似的功能。它提供所有滿足需求管理卷的非結(jié)構(gòu)化數(shù)據(jù)。一些比別的更成熟,一些行之有效,但不都是低成本的。開放源碼表面上看起來(lái),一旦成本非常低,一旦你需要任何級(jí)別的支持,讓我們面對(duì)現(xiàn)實(shí)吧,一旦它依賴關(guān)鍵業(yè)務(wù)環(huán)境,你將需要在預(yù)算上分配一條業(yè)務(wù)線。大數(shù)據(jù)的業(yè)務(wù)線不會(huì)只有一條,因?yàn)樗枰ㄋ璧乃薪M件去適當(dāng)?shù)恼故?strong>大數(shù)據(jù)解決方案并切實(shí)滿足業(yè)務(wù)需求。就像其他IT環(huán)境明顯的組件將包括:軟件授權(quán)和支持、硬件、技術(shù)專用資源、專業(yè)服務(wù)和培訓(xùn),企業(yè)用戶提供專門的時(shí)間在關(guān)鍵的要求(指定類型的報(bào)表,查詢和分析)上。隨著時(shí)間的推移,這自然也會(huì)發(fā)生變化。
大數(shù)據(jù)成本會(huì)迅速攀升
從硬件所需開支方面管理新的大數(shù)據(jù)集,你可能會(huì)開始使用Hadoop集群是10個(gè)節(jié)點(diǎn),這當(dāng)然是可管理的,但如果你的數(shù)據(jù)速度是相當(dāng)數(shù)量的,可以迅速達(dá)到100個(gè)以上的節(jié)點(diǎn),現(xiàn)在你將面臨諸多其他費(fèi)用包括額外的員工和技術(shù)資源管理環(huán)境,潛在的軟件等。你可能還需要一個(gè)商業(yè)工具提供的前端GUI儀表板追蹤特定的關(guān)鍵績(jī)效指標(biāo)或者數(shù)據(jù)可視化工具好讓企業(yè)用戶可以很快明白是怎么回事。有關(guān)存儲(chǔ)和硬件成本越來(lái)越少,圍繞軟件,專注于這個(gè)新數(shù)據(jù)集獲得的最大價(jià)值。無(wú)可否認(rèn),大數(shù)據(jù)帶來(lái)了巨大的新的機(jī)會(huì),但在快速的時(shí)間內(nèi)達(dá)到可量化的投資回報(bào)率的角度來(lái)說(shuō)仍然是一個(gè)非常現(xiàn)實(shí)的挑戰(zhàn)。每個(gè)人都在談?wù)?strong>大數(shù)據(jù),所有的創(chuàng)新技術(shù)解決方法用于解決它,但仍然是很難找到任何一個(gè)行業(yè)內(nèi)很多企業(yè)的成功案例。它仍然是相當(dāng)不成熟,但好消息是,在當(dāng)今它以比IT其他項(xiàng)目更快的速度發(fā)展,數(shù)據(jù)倉(cāng)庫(kù)和BI在過(guò)去二十年提供了經(jīng)驗(yàn)教訓(xùn)。
[page]
對(duì)于大數(shù)據(jù)市場(chǎng)的好消息是,我們一般都同意大數(shù)據(jù)的定義,也就是眾所周知的 volume、velocity 、variety 和企業(yè)需要收集、存儲(chǔ)、管理和分析以獲取商業(yè)上的value,被歸納為“4V”。
大數(shù)據(jù)是大企業(yè),但它配備了嚴(yán)格的要求
如果我們想更仔細(xì)地檢測(cè)一個(gè)大項(xiàng)目主要支出領(lǐng)域,最好看看特定類型的業(yè)務(wù)和使用情況。讓我們以一家大型金融機(jī)構(gòu)為例,它擁有一批現(xiàn)有的傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)/ BI環(huán)境,業(yè)務(wù)不希望扔掉任何數(shù)據(jù) ,且企業(yè)要為持續(xù)的趨勢(shì)和分析保留特定的數(shù)據(jù)集。這包括需要研究的問(wèn)題,如“在特定的周期與客戶統(tǒng)計(jì)里,什么是低風(fēng)險(xiǎn)客戶的消費(fèi)行為模式” 這將有利于機(jī)構(gòu)更好地針對(duì)市場(chǎng)進(jìn)行特定細(xì)分??紤]到數(shù)據(jù)增長(zhǎng),而IT預(yù)算不允許增加,需要減少成本,使用低規(guī)模成本的Hadoop環(huán)境,事實(shí)上它可以通過(guò)捕捉半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)來(lái)洞察客戶動(dòng)態(tài)。企業(yè)用戶希望訪問(wèn)Hadoop環(huán)境和現(xiàn)有的傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)環(huán)境。由于我們正在談?wù)摻鹑跈C(jī)構(gòu),安全性和可用性最為重要。同時(shí),如果企業(yè)的用戶要訪問(wèn)數(shù)據(jù),SQL查詢?cè)L問(wèn)和使用BI工具,對(duì)新一組數(shù)據(jù)也是有要求的。如果你能避免頻繁地從一個(gè)地方移動(dòng)大量的數(shù)據(jù)到另一個(gè),它成本會(huì)降低。在理想情況下,能利用你已設(shè)置的技能和避免工作重復(fù)是關(guān)鍵。
下面是一個(gè)快速列表,列出主要成本因素和要考慮的一些意見(jiàn),對(duì)這些方面可以降低成本:
總結(jié):考慮所有因素和獲得商業(yè)支持
大數(shù)據(jù)基本上是一個(gè)商業(yè)問(wèn)題,如果你開始考慮, “通過(guò)收集,存儲(chǔ)和分析新數(shù)據(jù)集,什么是企業(yè)想要達(dá)到的目標(biāo)” 你會(huì)開始正確的道路,實(shí)現(xiàn)業(yè)務(wù)收益。無(wú)論是外包,還是引進(jìn)外部顧問(wèn)和供應(yīng)商管理項(xiàng)目,同樣的問(wèn)題都會(huì)出現(xiàn),充分利用你已擁有的現(xiàn)有IT環(huán)境和技能,將能夠更好地控制成本。此外,我們都愛(ài)創(chuàng)新技術(shù)的承諾,包括Hadoop和MapReduce,但都沒(méi)有長(zhǎng)久的測(cè)試和標(biāo)準(zhǔn)來(lái)檢驗(yàn),所以無(wú)論從技術(shù)上或經(jīng)濟(jì)上都不會(huì)有太大的意義。當(dāng)你開始你的的大數(shù)據(jù)旅程或項(xiàng)目時(shí),一定要弄清楚究竟是什么業(yè)務(wù)需要。我們都知道,企業(yè)用戶購(gòu)買和成功部署是成功的一半。