大數(shù)據(jù)概念及應(yīng)用未來(lái)

責(zé)任編輯：editor006 |來(lái)源：企業(yè)網(wǎng)D1Net 2014-09-23 17:36:52 本文摘自：科技訊

麥肯錫是最早提出大數(shù)據(jù)時(shí)代已經(jīng)到來(lái)：“各個(gè)行業(yè)和領(lǐng)域都已經(jīng)被數(shù)據(jù)給滲透了，目前數(shù)據(jù)已成為非常重要的生產(chǎn)因素了。對(duì)于大數(shù)據(jù)的處理和挖掘?qū)⒁馕吨乱徊ǖ纳a(chǎn)率不斷增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)。”大數(shù)據(jù)概念最早是IBM定義的，將大數(shù)據(jù)的特征歸納為4個(gè)“V”(量Volume，多樣Variety，價(jià)值Value，速Velocity)，或者說(shuō)特點(diǎn)有四個(gè)層面：第一，數(shù)據(jù)體量巨大。大數(shù)據(jù)的起始計(jì)量單位至少是P(1000個(gè)T)、E(100萬(wàn)個(gè)T)或Z(10億個(gè)T);第二，數(shù)據(jù)類型繁多。比如，網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三，價(jià)值密度低，商業(yè)價(jià)值高。第四，處理速度快。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。

全世界每天都有幾十億人使用計(jì)算機(jī)、平板電腦、手機(jī)和其它數(shù)字設(shè)備產(chǎn)生海量數(shù)據(jù)。據(jù)Forrester的最新研究顯示：在線或移動(dòng)金融交易、社交媒體、GPS坐標(biāo)等數(shù)據(jù)源每天要產(chǎn)生超過(guò)2.5X1018的所謂“大數(shù)據(jù)”。今后幾年，數(shù)據(jù)的增長(zhǎng)速度將超越摩爾定律。

有人把數(shù)據(jù)比喻為蘊(yùn)藏能量的煤礦。煤炭按照性質(zhì)有焦煤、無(wú)煙煤、肥煤、貧煤等分類，而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似，大數(shù)據(jù)并不在“大”，而在于“有用”。價(jià)值含量、挖掘成本比數(shù)量更為重要。對(duì)于很多行業(yè)而言，如何利用這些大規(guī)模數(shù)據(jù)正成為贏得競(jìng)爭(zhēng)的關(guān)鍵。

哪些傳統(tǒng)企業(yè)最需要大數(shù)據(jù)服務(wù)呢?拋磚引玉，先舉幾個(gè)例子：1)對(duì)大量消費(fèi)者提供產(chǎn)品或服務(wù)的企業(yè)(精準(zhǔn)營(yíng)銷);2) 做小而美模式的中長(zhǎng)尾企業(yè)(服務(wù)轉(zhuǎn)型);3) 面臨互聯(lián)網(wǎng)壓力之下必須轉(zhuǎn)型的傳統(tǒng)企業(yè)(生死存亡)。

對(duì)于企業(yè)的大數(shù)據(jù)，還有一種預(yù)測(cè)：隨著數(shù)據(jù)逐漸成為企業(yè)的一種資產(chǎn)，數(shù)據(jù)產(chǎn)業(yè)會(huì)向傳統(tǒng)企業(yè)的供應(yīng)鏈模式發(fā)展，最終形成“數(shù)據(jù)供應(yīng)鏈”。這里尤其有兩個(gè)明顯的現(xiàn)象：1) 外部數(shù)據(jù)的重要性日益超過(guò)內(nèi)部數(shù)據(jù)。在互聯(lián)互通的互聯(lián)網(wǎng)時(shí)代，單一企業(yè)的內(nèi)部數(shù)據(jù)與整個(gè)互聯(lián)網(wǎng)數(shù)據(jù)比較起來(lái)只是滄海一粟;2)能提供包括數(shù)據(jù)供應(yīng)、數(shù)據(jù)整合與加工、數(shù)據(jù)應(yīng)用等多環(huán)節(jié)服務(wù)的公司會(huì)有明顯的綜合競(jìng)爭(zhēng)優(yōu)勢(shì)。

大數(shù)據(jù)中的軟件技術(shù)

大數(shù)據(jù)技術(shù)描述了新一代技術(shù)和架構(gòu)，目的是通過(guò)高速捕獲、發(fā)現(xiàn)和/或分析，經(jīng)濟(jì)高效地從種類繁多的大量數(shù)據(jù)中獲益。

目前共有兩種頂層分析方法：

1). 分析過(guò)去，不預(yù)測(cè)未來(lái)(關(guān)聯(lián)分析)

2). 分析過(guò)去，預(yù)測(cè)未來(lái)(具備監(jiān)督式學(xué)習(xí)功能的預(yù)測(cè)分析)。

目前共有三種頂層的軟件技術(shù)分類：

1) 流數(shù)據(jù)分析和復(fù)雜事件處理

結(jié)構(gòu)化數(shù)據(jù)從多個(gè)來(lái)源持續(xù)流出，以便對(duì)它們進(jìn)行“線速”分析和關(guān)聯(lián)，而不是首先將它們存儲(chǔ)在某個(gè)數(shù)據(jù)庫(kù)中。ApacheStorm和IBMInfoSphereStreams等某些解決方案提供“表述編程設(shè)計(jì)”(declarative programming)框架，讓數(shù)據(jù)經(jīng)歷轉(zhuǎn)換、加入、分割、開窗等一系列處理步驟。這種模式通常被稱為“復(fù)雜事件處理”(Complex Event Processing)。

流數(shù)據(jù)分析的結(jié)果通常被存儲(chǔ)在一個(gè)數(shù)據(jù)庫(kù)(SQL或NoSQL)中，并能觸發(fā)其它事件。單位時(shí)間(例如1小時(shí))內(nèi)所處理的數(shù)據(jù)量通常以吉字節(jié)為單位，處理時(shí)延以毫秒為單位。關(guān)聯(lián)分析和預(yù)測(cè)分析均能以線速運(yùn)行，但預(yù)測(cè)分析中通常僅評(píng)分部分以線速運(yùn)行。流數(shù)據(jù)分析的范例包括股票預(yù)測(cè)、自動(dòng)交易引擎、 M2M/傳感器分析等。

2) 數(shù)據(jù)庫(kù)

目前主要有兩類數(shù)據(jù)庫(kù)，即SQL和NoSQL。SQL數(shù)據(jù)庫(kù)向RDBMS確認(rèn)(即提供事務(wù)處理和引用完整性)。NoSQL數(shù)據(jù)庫(kù)提供各種表、 schema和接口，但不提供事務(wù)處理和引用完整性，與SQL數(shù)據(jù)庫(kù)相比，它們的時(shí)延更小，吞吐量更大，數(shù)據(jù)存儲(chǔ)容量也更大。兩種數(shù)據(jù)庫(kù)均用于管理結(jié)構(gòu)化數(shù)據(jù)。NoSQL數(shù)據(jù)庫(kù)既可以基于磁盤，也可以基于內(nèi)存。內(nèi)存數(shù)據(jù)庫(kù)以犧牲較大的磁盤容量來(lái)?yè)Q取更小的內(nèi)存時(shí)延。

3) Hadoop

流數(shù)據(jù)分析和數(shù)據(jù)庫(kù)用于處理結(jié)構(gòu)化數(shù)據(jù)，而Hadoop用于分析Web瀏覽日志、IT系統(tǒng)日志等半結(jié)構(gòu)化數(shù)據(jù)以及社交網(wǎng)絡(luò)、Twitterfeed、圖像、音頻文件等非結(jié)構(gòu)化數(shù)據(jù)。

為了分析數(shù)據(jù)，Hadoop軟件在計(jì)算機(jī)集群上運(yùn)行一系列“MapReduce”任務(wù)。給定計(jì)算機(jī)上的每一個(gè)Map任務(wù)負(fù)責(zé)在給定時(shí)間處理某個(gè) 數(shù)據(jù)子集;給定計(jì)算機(jī)上的每一個(gè)Reduce任務(wù)負(fù)責(zé)編譯在預(yù)定義的計(jì)算機(jī)集群子集上運(yùn)行的一組預(yù)定義的Map任務(wù)所產(chǎn)生的處理后的數(shù)據(jù)。下圖顯示了 MapReduce任務(wù)的迭代過(guò)程。

數(shù)據(jù)和結(jié)果與分布式計(jì)算機(jī)集群中的每臺(tái)計(jì)算機(jī)上的MapReduce任務(wù)共址。這些集體數(shù)據(jù)構(gòu)成了一個(gè)Hadoop分布式文件系統(tǒng)(HDFS)。任何一個(gè)HadoopDistribution必須至少包含Hadoop集群軟件和HDFS

SQL的重新興起：

很多傳媒大肆宣揚(yáng)NoSQL是兼容RDBMS的SQL數(shù)據(jù)庫(kù)的“終結(jié)者”。但是，RDBMS可確保數(shù)據(jù)完整性，而這對(duì)于很多應(yīng)用至關(guān)重要。因此，業(yè)內(nèi)將來(lái)有可能搭建性能媲美當(dāng)今NoSQL數(shù)據(jù)庫(kù)的RDBMS數(shù)據(jù)庫(kù)。

Hadoop2.0：

Hadoop將來(lái)有可能更多地被視為支持大型NoSQL數(shù)據(jù)庫(kù)的一個(gè)平臺(tái)，而不僅僅是一個(gè)批量分析引擎。在增添了流處理能力后(始于 ApacheStorm)，Hadoop也有可能用于實(shí)時(shí)分析。大多數(shù)大數(shù)據(jù)廠商依賴于Hadoop的未來(lái)成功，因此，我們可能會(huì)看到在此方面的投入(如與Hadoop的RESTful接口，集成Node.js等)。

6. 結(jié)語(yǔ)

大數(shù)據(jù)要求各個(gè)行業(yè)采用一種完全不同的非傳統(tǒng)方法來(lái)拓展業(yè)務(wù)。然而，并不是所有企業(yè)都具備優(yōu)秀的數(shù)據(jù)整合分析能力，所以需要借助外力獲取數(shù)據(jù)優(yōu)勢(shì)，譬如，聯(lián)合專業(yè)從事互聯(lián)網(wǎng)大數(shù)據(jù)分析的軟件企業(yè)，如蟻坊軟件，它擁有自主品牌的大數(shù)據(jù)處理平臺(tái)：螞蟻工廠（Antfact ），并專注于大數(shù)據(jù)信息挖掘的價(jià)值傳遞。這樣，就將獲得真正的數(shù)據(jù)競(jìng)爭(zhēng)優(yōu)勢(shì)，從而戰(zhàn)勝行動(dòng)較為遲緩的對(duì)手。

關(guān)鍵字：精準(zhǔn)營(yíng)銷迭代過(guò)程 RESTful