當(dāng)前位置：大數(shù)據(jù) → 業(yè)界動態(tài) → 正文

大數(shù)據(jù)技術(shù)蓬勃發(fā)展毫無頹靡跡象

責(zé)任編輯：editor006 |來源：企業(yè)網(wǎng)D1Net 2014-03-27 08:38:41 原創(chuàng)文章企業(yè)網(wǎng)D1Net

《企業(yè)網(wǎng)D1Net》3月27日訊

在當(dāng)前的互聯(lián)網(wǎng)領(lǐng)域，大數(shù)據(jù)已經(jīng)成為統(tǒng)治者，隨著移動互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、電子商務(wù)、物聯(lián)網(wǎng)、等能夠不斷產(chǎn)生大數(shù)據(jù)的新一代信息技術(shù)應(yīng)用形態(tài)的發(fā)展，正推動大數(shù)據(jù)技術(shù)的蓬勃發(fā)展。

大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。大數(shù)據(jù)技術(shù)是指從各種各樣類型的數(shù)據(jù)中，快速獲得有價值信息的能力。適用于大數(shù)據(jù)的技術(shù)，包括大規(guī)模并行處理數(shù)據(jù)庫、數(shù)據(jù)挖掘電網(wǎng)、分布式文件系統(tǒng)、分布式數(shù)據(jù)庫、云計算平臺、互聯(lián)網(wǎng)和可擴展的存儲系統(tǒng)。

大數(shù)據(jù)的作用

第一，對大數(shù)據(jù)的處理分析正在成為新一代信息技術(shù)融合應(yīng)用的結(jié)點。移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、數(shù)字家庭、電子商務(wù)等是新一代信息技術(shù)的應(yīng)用形態(tài)，這些應(yīng)用不斷產(chǎn)生大數(shù)據(jù)。云計算為這些海量、多樣化的大數(shù)據(jù)提供存儲和運算平臺。

第二，大數(shù)據(jù)是信息產(chǎn)業(yè)持續(xù)高速增長的新引擎。面向大數(shù)據(jù)市場的新技術(shù)、新產(chǎn)品、新服務(wù)、新業(yè)態(tài)會不斷涌現(xiàn)。在硬件與集成設(shè)備領(lǐng)域，大數(shù)據(jù)將對芯片、存儲產(chǎn)業(yè)產(chǎn)生重要影響，還將催生一體化數(shù)據(jù)存儲處理服務(wù)器、內(nèi)存計算等市場。在軟件與服務(wù)領(lǐng)域，大數(shù)據(jù)將引發(fā)數(shù)據(jù)快速處理分析、數(shù)據(jù)挖掘技術(shù)和軟件產(chǎn)品的發(fā)展。

第三，大數(shù)據(jù)利用將成為提高核心競爭力的關(guān)鍵因素。各行各業(yè)的決策正在從“業(yè)務(wù)驅(qū)動”轉(zhuǎn)變?yōu)?ldquo;數(shù)據(jù)驅(qū)動”。對大數(shù)據(jù)的分析可以使零售商實時掌握市場動態(tài)并迅速做出應(yīng)對；可以為商家制定更加精準(zhǔn)有效的營銷策略提供決策支持；可以幫助企業(yè)為消費者提供更加及時和個性化的服務(wù)；在醫(yī)療領(lǐng)域，可提高診斷準(zhǔn)確性和藥物有效性；在公共事業(yè)領(lǐng)域，大數(shù)據(jù)也開始發(fā)揮促進(jìn)經(jīng)濟發(fā)展、維護(hù)社會穩(wěn)定等作用。

第四，大數(shù)據(jù)時代科學(xué)研究的方法手段將發(fā)生重大改變。例如，抽樣調(diào)查是社會科學(xué)的基本研究方法。在大數(shù)據(jù)時代，可通過實時監(jiān)測、跟蹤研究對象在互聯(lián)網(wǎng)上產(chǎn)生的海量行為數(shù)據(jù)，進(jìn)行挖掘分析，揭示出規(guī)律性的東西，提出研究結(jié)論和對策。

大數(shù)據(jù)的處理

1.采集。大數(shù)據(jù)的采集是指利用多個數(shù)據(jù)庫來接收發(fā)自客戶端（Web、App或者傳感器形式等）的數(shù)據(jù)，并且用戶可以通過這些數(shù)據(jù)庫來進(jìn)行簡單的查詢和處理工作。

在大數(shù)據(jù)的采集過程中，其主要特點和挑戰(zhàn)是并發(fā)數(shù)高，因為同時有可能會有成千上萬的用戶進(jìn)行訪問和操作，比如火車票售票網(wǎng)站，并發(fā)的訪問量在峰值時達(dá)到上百萬，所以需要在采集端部署大量數(shù)據(jù)庫才能支撐。如何在這些數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片需要深入的思考和設(shè)計。

2.導(dǎo)入/預(yù)處理。雖然采集端本身會有很多數(shù)據(jù)庫，但是如果要對這些海量數(shù)據(jù)進(jìn)行有效的分析，還是應(yīng)該將這些來自前端的數(shù)據(jù)導(dǎo)入到一個集中的大型分布式數(shù)據(jù)庫，或者分布式存儲集群，并且可以在導(dǎo)入基礎(chǔ)上做一些簡單的清洗和預(yù)處理工作。也有一些用戶會在導(dǎo)入時使用Twitter的Storm對數(shù)據(jù)進(jìn)行流式計算，來滿足部分業(yè)務(wù)的實時計算需求。導(dǎo)入與預(yù)處理過程的特點和挑戰(zhàn)主要是導(dǎo)入的數(shù)據(jù)量大，每秒鐘的導(dǎo)入量經(jīng)常會達(dá)到百兆，甚至千兆級別。

3.統(tǒng)計/分析。統(tǒng)計與分析主要利用分布式數(shù)據(jù)庫，或者分布式計算集群來對存儲于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等，以滿足大多數(shù)常見的分析需求。統(tǒng)計與分析這部分的主要特點和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大，其對系統(tǒng)資源會有極大的占用。

4.挖掘。數(shù)據(jù)挖掘一般沒有什么預(yù)先設(shè)定好的主題，主要是在現(xiàn)有數(shù)據(jù)上面進(jìn)行基于各種算法的計算，從而起到預(yù)測的效果，實現(xiàn)一些高級別數(shù)據(jù)分析的需求。比較典型算法有用于聚類的Kmeans、用于統(tǒng)計學(xué)習(xí)的SVM和用于分類的NaiveBayes。該過程的特點和挑戰(zhàn)主要是用于挖掘的算法很復(fù)雜，并且計算涉及的數(shù)據(jù)量和計算量都很大，常用數(shù)據(jù)挖掘算法都以單線程為主。

D1Net評論：

不管從大數(shù)據(jù)技術(shù)本身而言，還是大數(shù)據(jù)應(yīng)用狀況來看，大數(shù)據(jù)的發(fā)展正呈現(xiàn)蓬勃向上的姿態(tài)，毫無頹靡跡象，隨著大數(shù)據(jù)作用凸顯和應(yīng)用的逐漸深入，大數(shù)據(jù)的發(fā)展將進(jìn)去全新時期，大數(shù)據(jù)一統(tǒng)天下的狀況在短時間內(nèi)是不會改變的。

關(guān)鍵字：技術(shù)大數(shù)據(jù)