9月04日消息:實(shí)施大數(shù)據(jù)項(xiàng)目,會(huì)面臨超大數(shù)據(jù)量的收集、存儲(chǔ)和分析等問題。這些問題對(duì)傳統(tǒng)企業(yè)來說,是很大的挑戰(zhàn)。同時(shí)大數(shù)據(jù)項(xiàng)目的實(shí)施,也需要新興的專業(yè)知識(shí),以便能夠從洪水般的數(shù)據(jù)中提取有價(jià)值的信息。因此,企業(yè)應(yīng)重新思考如何收集、分析和存儲(chǔ)這些大量的數(shù)據(jù)。
大數(shù)據(jù),大挑戰(zhàn)
那些傳統(tǒng)的實(shí)體公司,都會(huì)有自己不得不面臨的挑戰(zhàn),而這些挑戰(zhàn)根源也并非僅僅只是缺乏數(shù)據(jù)信息。其實(shí),從群發(fā)的郵件、攝像機(jī)的視頻、銷售點(diǎn)系統(tǒng)、庫存系統(tǒng)和大多數(shù)企業(yè)的報(bào)告中,大多數(shù)企業(yè)均可以收集到足夠的數(shù)據(jù)信息來填充他們的大數(shù)據(jù)庫。但是將如此眾多的信息收集到一個(gè)單一的位置上,卻是一個(gè)巨大的挑戰(zhàn)。
將磁盤或磁帶運(yùn)送到一個(gè)中央位置上,然后再傳到一個(gè)大數(shù)據(jù)庫的方案,并非總是可行的。由于高速網(wǎng)絡(luò)的延遲和網(wǎng)絡(luò)質(zhì)量,會(huì)極大地削弱實(shí)際吞吐量,在整個(gè)企業(yè)的網(wǎng)絡(luò)中,傳輸這么多的數(shù)據(jù)信息往往也是不可能的。
還有就是,對(duì)于大多數(shù)數(shù)據(jù)庫,用戶通常喜歡在他們的本地設(shè)備上復(fù)制數(shù)據(jù),而這又導(dǎo)致了需要在整個(gè)網(wǎng)絡(luò)上復(fù)制千兆以上的數(shù)據(jù)。運(yùn)用類似的做法實(shí)施大數(shù)據(jù)項(xiàng)目會(huì)導(dǎo)致網(wǎng)絡(luò)成本飆升,性能表現(xiàn)不佳和用戶挫折感增強(qiáng)。但是,企業(yè)又不能限制本地用戶訪問大數(shù)據(jù)。限制用戶訪問和使用大數(shù)據(jù),是大數(shù)據(jù)項(xiàng)目的失敗。
網(wǎng)絡(luò)成本的膨脹是唯一影響大數(shù)據(jù)項(xiàng)目成本的因素。但是大部分企業(yè)還未把人力成本算上。鑒于今天的大數(shù)據(jù)市場(chǎng)的不成熟,據(jù)Gartner公司預(yù)計(jì),企業(yè)需要在人力成本方面花費(fèi)約20~25倍的費(fèi)用,用于培訓(xùn)或聘請(qǐng)相關(guān)的人員來分析大數(shù)據(jù)。(相比之下,在成熟的市場(chǎng),如商業(yè)智能系統(tǒng)市場(chǎng),據(jù)Gartner公司預(yù)計(jì),其咨詢服務(wù)費(fèi)用僅為供應(yīng)成本的三倍左右)
云計(jì)算和數(shù)據(jù)加速軟件 有助企業(yè)部署大數(shù)據(jù)項(xiàng)目
云計(jì)算對(duì)于大數(shù)據(jù)來說是相當(dāng)完美的匹配。大數(shù)據(jù)所需要的存儲(chǔ)、計(jì)算、功率、復(fù)雜的數(shù)據(jù)庫的基礎(chǔ)設(shè)施和高端的數(shù)據(jù)處理能力,均能夠被諸如亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)這樣良好的云服務(wù)產(chǎn)品來滿足。
AWS以極低的價(jià)格提供無限彈性云計(jì)算(EC2)、彈性塊存儲(chǔ)(EBS)和簡(jiǎn)單存儲(chǔ)服務(wù)(S3)。它提供的DynamoDB是一款高度可用的分布式數(shù)據(jù)庫集群,還有ElasticMapReduce是一個(gè)管理平臺(tái),支持基于Hadoop的分析棧。這些富有成本效益的資源和技術(shù),幫助企業(yè)在亞馬遜上建立自己的分析,獲得更深入和更豐富的洞察。
即便這樣依舊面臨挑戰(zhàn)——如何將數(shù)據(jù)轉(zhuǎn)移到云或企業(yè)的數(shù)據(jù)中心。數(shù)據(jù)加速軟件解決了這個(gè)問題。以在線路兩端運(yùn)行為實(shí)例,數(shù)據(jù)加速軟件可以提高吞吐量超過200倍。例如,移動(dòng)100GB的數(shù)據(jù),僅僅只需6.2分鐘,不再是22小時(shí)。數(shù)據(jù)加速通過優(yōu)化協(xié)議、矯正延遲、復(fù)制數(shù)據(jù),來最大限度地利用帶寬。并且,在某些情況下,可以在傳遞過程中恢復(fù)丟失的數(shù)據(jù)包,而不需要重傳上傳,破壞吞吐量。數(shù)據(jù)加速軟件可以按小時(shí)授權(quán),對(duì)于那些只需一次性轉(zhuǎn)移或不常轉(zhuǎn)移的企業(yè)而言,成本可以非常低。
數(shù)據(jù)加速軟件是,任何大規(guī)模的數(shù)據(jù)部署實(shí)現(xiàn)的關(guān)鍵一步。無論是部署在云中或在企業(yè)內(nèi)部,其都可以縮短時(shí)間,匯總數(shù)據(jù),極大地提高企業(yè)部署大數(shù)據(jù)項(xiàng)目的價(jià)值。