精品国产一级在线观看,国产成人综合久久精品亚洲,免费一级欧美大片在线观看

大數(shù)據(jù)調(diào)查:大數(shù)據(jù)迫使企業(yè)做出抉擇

責(zé)任編輯:hli

作者:李智

2012-03-07 11:51:36

摘自:CSDN

根據(jù)IDC的調(diào)查報(bào)告預(yù)測(cè)到2020年全球電子設(shè)備存儲(chǔ)的數(shù)據(jù)將暴增30倍,達(dá)到35ZB(相當(dāng)于10億塊1TB的硬盤(pán)的容量

根據(jù)IDC的調(diào)查報(bào)告預(yù)測(cè)到2020年全球電子設(shè)備存儲(chǔ)的數(shù)據(jù)將暴增30倍,達(dá)到35ZB(相當(dāng)于10億塊1TB的硬盤(pán)的容量)。大數(shù)據(jù)浪潮的到來(lái)也為企業(yè)帶來(lái)了新一輪的挑戰(zhàn)。對(duì)于有準(zhǔn)備的企業(yè)來(lái)說(shuō)這無(wú)疑是一座信息金礦,能夠合理的將大數(shù)據(jù)轉(zhuǎn)換為有價(jià)值信息成為未來(lái)企業(yè)的必備技能。恰逢此時(shí),CSDN專門(mén)針對(duì)企業(yè)相關(guān)人員進(jìn)行了大規(guī)模問(wèn)卷調(diào)研,并在數(shù)千份的調(diào)查報(bào)告中總結(jié)出現(xiàn)今企業(yè)大數(shù)據(jù)業(yè)務(wù)的現(xiàn)狀。在此我們也將調(diào)研結(jié)果展示與此以供大家參考。

大數(shù)據(jù)時(shí)代的數(shù)據(jù)格式特性

首先讓我們先來(lái)了解一下大數(shù)據(jù)時(shí)代的數(shù)據(jù)格式特性。從IT角度來(lái)看,信息結(jié)構(gòu)類型大致經(jīng)歷了三次浪潮。必須注意這一點(diǎn),新的浪潮并沒(méi)取代舊浪潮,它們?nèi)栽诓粩喟l(fā)展,三種數(shù)據(jù)結(jié)構(gòu)類型一直存在,只是其中一種結(jié)構(gòu)類型往往主導(dǎo)于其他結(jié)構(gòu):

·結(jié)構(gòu)化信息——這種信息可以在關(guān)系數(shù)據(jù)庫(kù)中找到,多年來(lái)一直主導(dǎo)著IT應(yīng)用。這是關(guān)鍵任務(wù)OLTP系統(tǒng)業(yè)務(wù)所依賴的信息,另外,還可對(duì)結(jié)構(gòu)數(shù)據(jù)庫(kù)信息進(jìn)行排序和查詢;

·半結(jié)構(gòu)化信息——這是IT的第二次浪潮,包括電子郵件,文字處理文件以及大量保存和發(fā)布在網(wǎng)絡(luò)上的信息。半結(jié)構(gòu)化信息是以內(nèi)容為基礎(chǔ),可以用于搜索,這也是谷歌存在的理由;

·非結(jié)構(gòu)化信息——該信息在本質(zhì)形式上可認(rèn)為主要是位映射數(shù)據(jù)。數(shù)據(jù)必須處于一種可感知的形式中(諸如可在音頻、視頻和多媒體文件中被聽(tīng)或被看)。許多大數(shù)據(jù)都是非結(jié)構(gòu)化的,其龐大規(guī)模和復(fù)雜性需要高級(jí)分析工具來(lái)創(chuàng)建或利用一種更易于人們感知和交互的結(jié)構(gòu)。

企業(yè)內(nèi)部大數(shù)據(jù)處理基礎(chǔ)設(shè)施普遍落后

從調(diào)查結(jié)果可以看出,接近50%的企業(yè)服務(wù)器數(shù)量在100臺(tái)以內(nèi),而擁有100至500臺(tái)占據(jù)了22%的比例。500至2000臺(tái)服務(wù)器則占據(jù)剩下28.4%的比例。可以看出面對(duì)大數(shù)據(jù)現(xiàn)今大部分企業(yè)還沒(méi)有完善其硬件基礎(chǔ)架構(gòu)設(shè)施。以現(xiàn)階段企業(yè)內(nèi)大數(shù)據(jù)處理基礎(chǔ)設(shè)施的情況來(lái)看50%的企業(yè)面臨大數(shù)據(jù)處理的問(wèn)題(中小企業(yè)在面對(duì)大數(shù)據(jù)的解決之道應(yīng)遵循采集、導(dǎo)入/處理、查詢、挖掘的流程)。

但這只是暫時(shí)狀況,“廉價(jià)”服務(wù)器設(shè)施會(huì)隨著企業(yè)業(yè)務(wù)的發(fā)展逐漸被淘汰出歷史的舞臺(tái),在未來(lái)企業(yè)基礎(chǔ)架構(gòu)體系的硬件選用上,多核多路處理器以及SSD等設(shè)備會(huì)成為企業(yè)的首選。Facebook的Open Compute Project就在業(yè)界樹(shù)立了榜樣,Open Compute Project利用開(kāi)源社區(qū)的理念改善服務(wù)器硬件以及機(jī)架的設(shè)計(jì)。其數(shù)據(jù)中心PUE值也是領(lǐng)先與業(yè)內(nèi)的其他對(duì)手。

而在具有大數(shù)據(jù)處理需求的企業(yè)中52.2%的日數(shù)據(jù)生成量在100GB以下,日數(shù)據(jù)生成量100GB到50TB占據(jù)了43.5%,而令人驚訝的是,日數(shù)據(jù)生成量50TB以上也有4.4%的份額。數(shù)據(jù)量持續(xù)的增長(zhǎng),公司將被迫增加基礎(chǔ)設(shè)施的部署。專利費(fèi)用將一直增加,而開(kāi)源技術(shù),則省了這筆一直持續(xù)的專利費(fèi)。對(duì)于急需改變自己傳統(tǒng)IT架構(gòu)的企業(yè)而言,傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的融合,成了所有人關(guān)心的問(wèn)題。

企業(yè)面對(duì)大數(shù)據(jù)處理的挑戰(zhàn)與問(wèn)題

現(xiàn)今大數(shù)據(jù)呈現(xiàn)出“4V + 1C”的特點(diǎn)。既Variety:一般包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化等多類數(shù)據(jù),而且它們處理和分析方式有區(qū)別;Volume:通過(guò)各種設(shè)備產(chǎn)生了大量的數(shù)據(jù),PB級(jí)別是常態(tài);Velocity:要求快速處理,存在時(shí)效性;Vitality:分析和處理模型必須快速變化,因?yàn)樾枨笤谧?Complexity:處理和分析的難度非常大。

從圖中我們可以看出資源利用率低、擴(kuò)展性差以及應(yīng)用部署過(guò)于復(fù)雜是現(xiàn)今企業(yè)數(shù)據(jù)系統(tǒng)架構(gòu)面臨的主要問(wèn)題。其實(shí)大數(shù)據(jù)的基礎(chǔ)架構(gòu)首要需要考慮就是前瞻性,隨著數(shù)據(jù)的不斷增長(zhǎng),用戶需要從硬體、軟件層面思考需要怎樣的架構(gòu)去實(shí)現(xiàn)。而具備資源高利用率、高擴(kuò)展性并對(duì)文件存儲(chǔ)友好的文件系統(tǒng)必將是未來(lái)的發(fā)展趨勢(shì)。

應(yīng)用部署過(guò)于復(fù)雜也催生了大數(shù)據(jù)處理系統(tǒng)管理員這一新興職業(yè),其主要負(fù)責(zé)日常Hadoop集群正常運(yùn)行。例如直接或間接的管理硬件,當(dāng)需要添加硬件時(shí)需保證集群仍能夠穩(wěn)定運(yùn)行。同時(shí)還要負(fù)責(zé)系統(tǒng)監(jiān)控和配置,保證Hadoop與其他系統(tǒng)的有機(jī)結(jié)合。

而多格式數(shù)據(jù)、讀寫(xiě)速度(讀寫(xiě)速度是指數(shù)據(jù)從端點(diǎn)移動(dòng)到處理器和存儲(chǔ)的速度)以及海量數(shù)據(jù)是企業(yè)面臨大數(shù)據(jù)處理急需解決的技術(shù)挑戰(zhàn)。眾所周知隨著大容量數(shù)據(jù)(TB級(jí)、PB級(jí)甚至EB級(jí))的出現(xiàn),業(yè)務(wù)數(shù)據(jù)對(duì)IT系統(tǒng)帶來(lái)了更大的挑戰(zhàn),數(shù)據(jù)的存儲(chǔ)和安全以及在未來(lái)訪問(wèn)和使用這些數(shù)據(jù)已成為難點(diǎn)。同時(shí)大數(shù)據(jù)不只是關(guān)于數(shù)據(jù)量而已。大數(shù)據(jù)包括了越來(lái)越多不同格式的數(shù)據(jù),這些不同格式的數(shù)據(jù)也需要不同的處理方法。充分利用有用的數(shù)據(jù),廢棄虛偽無(wú)用的數(shù)據(jù),是數(shù)據(jù)挖掘技術(shù)的最重要的應(yīng)用。

企業(yè)內(nèi)部數(shù)據(jù)分析與挖掘工具應(yīng)用現(xiàn)狀

云時(shí)代企業(yè)數(shù)據(jù)挖掘面臨如下三點(diǎn)挑戰(zhàn)。挖掘效率:進(jìn)入云計(jì)算時(shí)代后,BI的思路發(fā)生了轉(zhuǎn)換。以前是基于封閉的企業(yè)數(shù)據(jù)進(jìn)行挖掘,而面對(duì)引入互聯(lián)網(wǎng)應(yīng)用后海量的異構(gòu)數(shù)據(jù)時(shí),目前并行挖掘算法的效率很低;多源數(shù)據(jù):引入云計(jì)算后,企業(yè)數(shù)據(jù)的位置有可能在提供公有云服務(wù)的平臺(tái)上,也可能在企業(yè)自建的私有云上,如何面對(duì)不同的數(shù)據(jù)源進(jìn)行挖掘也是一個(gè)挑戰(zhàn);異構(gòu)數(shù)據(jù):Web數(shù)據(jù)的最大特點(diǎn)就是半結(jié)構(gòu)化,如文檔、報(bào)表、網(wǎng)頁(yè)、聲音、圖像、視頻等,而云計(jì)算帶來(lái)了大量的基于互聯(lián)網(wǎng)模式提供的SaaS應(yīng)用,如何梳理有效數(shù)據(jù)是一個(gè)挑戰(zhàn)。

拋去價(jià)格因素之外可以看出反應(yīng)速度慢、操作不方便、數(shù)據(jù)不準(zhǔn)確、分析不準(zhǔn)確這四項(xiàng)是企業(yè)數(shù)據(jù)分析與數(shù)據(jù)挖掘面臨的主要問(wèn)題。商業(yè)化解決方案固然成熟,但成本也是顯而易見(jiàn)的。而具備在開(kāi)源平臺(tái)之上處理分析大數(shù)據(jù)能力的數(shù)據(jù)科學(xué)家則成為另外的一種選擇。數(shù)據(jù)科學(xué)家具備專業(yè)領(lǐng)域知識(shí)并具備研究利用相應(yīng)算法分析對(duì)應(yīng)問(wèn)題的能力,可幫助創(chuàng)建推動(dòng)業(yè)務(wù)發(fā)展的相應(yīng)的大數(shù)據(jù)產(chǎn)品和大數(shù)據(jù)解決方案。

從調(diào)查結(jié)果中我們可以看出Hadoop占據(jù)了半壁江山,而同為開(kāi)源的HBase也有將近四分之一的占有率。而商業(yè)化的數(shù)據(jù)分析與挖掘平臺(tái)(如Teradata、Netezza、Greenplum等)總共只有13.9%的份額。短期來(lái)講,開(kāi)源分析將越來(lái)越廣泛的使用,并且增長(zhǎng)迅速。長(zhǎng)期來(lái)看,混合技術(shù)的應(yīng)用將在高度競(jìng)爭(zhēng)的市場(chǎng)上出現(xiàn),兩者將同樣有巨大的需求。可以預(yù)見(jiàn)的是,Hadoop作為企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)核心技術(shù),在未來(lái)的10年中它將會(huì)保持增長(zhǎng)。

隨著云時(shí)代的到來(lái),企業(yè)面臨的應(yīng)用方式更加多元化,通過(guò)云的手段提供海量數(shù)據(jù)挖掘的方法,提高了挖掘的效率,增加了挖掘的精度,更利于挖掘應(yīng)用的推廣以及專業(yè)的行業(yè)知識(shí)庫(kù)的構(gòu)建。同時(shí)收集、存儲(chǔ)龐大的新型數(shù)據(jù)充滿了挑戰(zhàn),然而分析這些數(shù)據(jù)的新方法才是幫助最成功企業(yè)甩開(kāi)競(jìng)爭(zhēng)對(duì)手的利器。

鏈接已復(fù)制,快去分享吧

企業(yè)網(wǎng)版權(quán)所有?2010-2024 京ICP備09108050號(hào)-6京公網(wǎng)安備 11010502049343號(hào)

  • <menuitem id="jw4sk"></menuitem>

    1. <form id="jw4sk"><tbody id="jw4sk"><dfn id="jw4sk"></dfn></tbody></form>
      主站蜘蛛池模板: 阳高县| 民县| 松滋市| 海盐县| 普宁市| 敦化市| 丹巴县| 白银市| 应用必备| 安泽县| 九江县| 东宁县| 怀仁县| 湾仔区| 岐山县| 美姑县| 南漳县| 永年县| 岳阳县| 密云县| 南宁市| 石泉县| 宁海县| 海丰县| 昭苏县| 鄂托克旗| 宝丰县| 新野县| 田东县| 南江县| 遵义市| 专栏| 临夏县| 荔波县| 武鸣县| 海伦市| 和顺县| 临颍县| 贺兰县| 本溪市| 开平市|