大數(shù)據(jù)——被定義為是超越了其能力的數(shù)據(jù)集,典型的數(shù)據(jù)庫(kù)軟件工具捕捉、存儲(chǔ)、管理和分析,最常見的是PB級(jí)的艾字節(jié)(exabytes)大小,是非結(jié)構(gòu)化分布式和扁平架構(gòu)模式。隨著大數(shù)據(jù)的持續(xù)增長(zhǎng),行業(yè)預(yù)期其將為企業(yè)帶來(lái)巨大的和未開發(fā)的價(jià)值。根據(jù)infineta的報(bào)告顯示,大多數(shù)企業(yè)將在未來(lái)的12至18個(gè)月重點(diǎn)采用大數(shù)據(jù)技術(shù)。
所有這些數(shù)據(jù)需要采集,存儲(chǔ),處理和分發(fā),有可能堵塞網(wǎng)絡(luò)。Hadoop管理每petabye字節(jié)的大數(shù)據(jù)大約需要0.5Gbps的帶寬,Hadoop是一個(gè)大規(guī)模計(jì)算的開源平臺(tái)。帶寬需求可以影響企業(yè)廣域網(wǎng)中的延遲時(shí)間、速度和可靠性。
研究結(jié)果顯示,快速發(fā)展的趨勢(shì)將影響到整個(gè)數(shù)據(jù)中心行業(yè)。這些主要的發(fā)展趨勢(shì)包括:
存儲(chǔ)價(jià)格日趨便宜。傳統(tǒng)的數(shù)據(jù)存儲(chǔ)運(yùn)行每GB的字節(jié)成本大約為5美元,而采用Hadoop存儲(chǔ)相同的存儲(chǔ)量,每GB的成本僅為0.25美元。
增強(qiáng)的可擴(kuò)展性。Hadoop采用預(yù)付一小部分費(fèi)用的形式,使企業(yè)能夠添加額外的存儲(chǔ)空間。Hadoop的可擴(kuò)展性,可能會(huì)導(dǎo)致在未來(lái)五年內(nèi),全球50%以上的數(shù)據(jù)都存儲(chǔ)在Hadoop環(huán)境中。
缺乏分析。只有百分之一到百分之五的外部收集的大數(shù)據(jù)實(shí)際上是進(jìn)行了分析。由于缺乏分析,有相當(dāng)一部分有價(jià)值的數(shù)據(jù)被遺漏。根據(jù)麥肯錫最近報(bào)道顯示,如果醫(yī)療保健行業(yè)對(duì)他們的95%的未捕獲的數(shù)據(jù)進(jìn)行了分析,那么估計(jì)每年將創(chuàng)造出3000億美元的價(jià)值。另一個(gè)缺乏分析的例子是石油工業(yè)領(lǐng)域,石油鉆井平臺(tái)每秒產(chǎn)生25000個(gè)數(shù)據(jù)點(diǎn),但石油企業(yè)對(duì)于這些數(shù)據(jù)的使用率僅僅只有5%。
該報(bào)告認(rèn)為,企業(yè)部署Hadoop集群提供一個(gè)集中式的服務(wù),使個(gè)別部門不用再建立和運(yùn)行自己的大數(shù)據(jù)服務(wù),并認(rèn)為當(dāng)涉及到處理批量工作負(fù)載時(shí)“越大越好”。
這種設(shè)置帶來(lái)了大流量——數(shù)據(jù)在集群之間移動(dòng),在數(shù)據(jù)中心內(nèi)部和數(shù)據(jù)中心之移動(dòng),包括但不限于復(fù)制和同步,這將變得尤其重要,因?yàn)镠adoop成為企業(yè)級(jí)存儲(chǔ)的一個(gè)重要的因素。大流量移動(dòng)數(shù)據(jù)服務(wù)支持大數(shù)據(jù)分析,合規(guī)性要求,高可用性服務(wù)和安全服務(wù)。