麥肯錫是最早提出大數(shù)據(jù)時(shí)代已經(jīng)到來(lái):“各個(gè)行業(yè)和領(lǐng)域都已經(jīng)被數(shù)據(jù)給滲透了,目前數(shù)據(jù)已成為非常重要的生產(chǎn)因素了。對(duì)于大數(shù)據(jù)的處理和挖掘?qū)⒁馕吨乱徊ǖ纳a(chǎn)率不斷增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)。”大數(shù)據(jù)概念最早是IBM定義的,將大數(shù)據(jù)的特征歸納為4個(gè)“V”(量Volume,多樣Variety,價(jià)值Value,速Velocity),或者說(shuō)特點(diǎn)有四個(gè)層面:第一,數(shù)據(jù)體量巨大。大數(shù)據(jù)的起始計(jì)量單位至少是P(1000個(gè)T)、E(100萬(wàn)個(gè)T)或Z(10億個(gè)T);第二,數(shù)據(jù)類型繁多。比如,網(wǎng)絡(luò)日志、視頻、圖片、地理位置信息等等。第三,價(jià)值密度低,商業(yè)價(jià)值高。第四,處理速度快。最后這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。
全世界每天都有幾十億人使用計(jì)算機(jī)、平板電腦、手機(jī)和其它數(shù)字設(shè)備產(chǎn)生海量數(shù)據(jù)。據(jù)Forrester的最新研究顯示:在線或移動(dòng)金融交易、社交媒體、GPS坐標(biāo)等數(shù)據(jù)源每天要產(chǎn)生超過(guò)2.5X1018的所謂“大數(shù)據(jù)”。今后幾年,數(shù)據(jù)的增長(zhǎng)速度將超越摩爾定律。
有人把數(shù)據(jù)比喻為蘊(yùn)藏能量的煤礦。煤炭按照性質(zhì)有焦煤、無(wú)煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數(shù)據(jù)并不在“大”,而在于“有用”。價(jià)值含量、挖掘成本比數(shù)量更為重要。對(duì)于很多行業(yè)而言,如何利用這些大規(guī)模數(shù)據(jù)正成為贏得競(jìng)爭(zhēng)的關(guān)鍵。
哪些傳統(tǒng)企業(yè)最需要大數(shù)據(jù)服務(wù)呢?拋磚引玉,先舉幾個(gè)例子:1)對(duì)大量消費(fèi)者提供產(chǎn)品或服務(wù)的企業(yè)(精準(zhǔn)營(yíng)銷);2) 做小而美模式的中長(zhǎng)尾企業(yè)(服務(wù)轉(zhuǎn)型);3) 面臨互聯(lián)網(wǎng)壓力之下必須轉(zhuǎn)型的傳統(tǒng)企業(yè)(生死存亡)。
對(duì)于企業(yè)的大數(shù)據(jù),還有一種預(yù)測(cè):隨著數(shù)據(jù)逐漸成為企業(yè)的一種資產(chǎn),數(shù)據(jù)產(chǎn)業(yè)會(huì)向傳統(tǒng)企業(yè)的供應(yīng)鏈模式發(fā)展,最終形成“數(shù)據(jù)供應(yīng)鏈”。這里尤其有兩個(gè)明顯的現(xiàn)象:1) 外部數(shù)據(jù)的重要性日益超過(guò)內(nèi)部數(shù)據(jù)。在互聯(lián)互通的互聯(lián)網(wǎng)時(shí)代,單一企業(yè)的內(nèi)部數(shù)據(jù)與整個(gè)互聯(lián)網(wǎng)數(shù)據(jù)比較起來(lái)只是滄海一粟;2)能提供包括數(shù)據(jù)供應(yīng)、數(shù)據(jù)整合與加工、數(shù)據(jù)應(yīng)用等多環(huán)節(jié)服務(wù)的公司會(huì)有明顯的綜合競(jìng)爭(zhēng)優(yōu)勢(shì)。
大數(shù)據(jù)中的軟件技術(shù)
大數(shù)據(jù)技術(shù)描述了新一代技術(shù)和架構(gòu),目的是通過(guò)高速捕獲、發(fā)現(xiàn)和/或分析,經(jīng)濟(jì)高效地從種類繁多的大量數(shù)據(jù)中獲益。
目前共有兩種頂層分析方法:
1). 分析過(guò)去,不預(yù)測(cè)未來(lái)(關(guān)聯(lián)分析)
2). 分析過(guò)去,預(yù)測(cè)未來(lái)(具備監(jiān)督式學(xué)習(xí)功能的預(yù)測(cè)分析)。
目前共有三種頂層的軟件技術(shù)分類:
1) 流數(shù)據(jù)分析和復(fù)雜事件處理
結(jié)構(gòu)化數(shù)據(jù)從多個(gè)來(lái)源持續(xù)流出,以便對(duì)它們進(jìn)行“線速”分析和關(guān)聯(lián),而不是首先將它們存儲(chǔ)在某個(gè)數(shù)據(jù)庫(kù)中。ApacheStorm和IBMInfoSphereStreams等某些解決方案提供“表述編程設(shè)計(jì)”(declarative programming)框架,讓數(shù)據(jù)經(jīng)歷轉(zhuǎn)換、加入、分割、開窗等一系列處理步驟。這種模式通常被稱為“復(fù)雜事件處理”(Complex Event Processing)。
流數(shù)據(jù)分析的結(jié)果通常被存儲(chǔ)在一個(gè)數(shù)據(jù)庫(kù)(SQL或NoSQL)中,并能觸發(fā)其它事件。單位時(shí)間(例如1小時(shí))內(nèi)所處理的數(shù)據(jù)量通常以吉字節(jié)為 單位,處理時(shí)延以毫秒為單位。關(guān)聯(lián)分析和預(yù)測(cè)分析均能以線速運(yùn)行,但預(yù)測(cè)分析中通常僅評(píng)分部分以線速運(yùn)行。流數(shù)據(jù)分析的范例包括股票預(yù)測(cè)、自動(dòng)交易引擎、 M2M/傳感器分析等。
2) 數(shù)據(jù)庫(kù)
目前主要有兩類數(shù)據(jù)庫(kù),即SQL和NoSQL。SQL數(shù)據(jù)庫(kù)向RDBMS確認(rèn)(即提供事務(wù)處理和引用完整性)。NoSQL數(shù)據(jù)庫(kù)提供各種表、 schema和接口,但不提供事務(wù)處理和引用完整性,與SQL數(shù)據(jù)庫(kù)相比,它們的時(shí)延更小,吞吐量更大,數(shù)據(jù)存儲(chǔ)容量也更大。兩種數(shù)據(jù)庫(kù)均用于管理結(jié)構(gòu)化 數(shù)據(jù)。NoSQL數(shù)據(jù)庫(kù)既可以基于磁盤,也可以基于內(nèi)存。內(nèi)存數(shù)據(jù)庫(kù)以犧牲較大的磁盤容量來(lái)?yè)Q取更小的內(nèi)存時(shí)延。
3) Hadoop
流數(shù)據(jù)分析和數(shù)據(jù)庫(kù)用于處理結(jié)構(gòu)化數(shù)據(jù),而Hadoop用于分析Web瀏覽日志、IT系統(tǒng)日志等半結(jié)構(gòu)化數(shù)據(jù)以及社交網(wǎng)絡(luò)、Twitterfeed、圖像、音頻文件等非結(jié)構(gòu)化數(shù)據(jù)。
為了分析數(shù)據(jù),Hadoop軟件在計(jì)算機(jī)集群上運(yùn)行一系列“MapReduce”任務(wù)。給定計(jì)算機(jī)上的每一個(gè)Map任務(wù)負(fù)責(zé)在給定時(shí)間處理某個(gè) 數(shù)據(jù)子集;給定計(jì)算機(jī)上的每一個(gè)Reduce任務(wù)負(fù)責(zé)編譯在預(yù)定義的計(jì)算機(jī)集群子集上運(yùn)行的一組預(yù)定義的Map任務(wù)所產(chǎn)生的處理后的數(shù)據(jù)。下圖顯示了 MapReduce任務(wù)的迭代過(guò)程。
數(shù)據(jù)和結(jié)果與分布式計(jì)算機(jī)集群中的每臺(tái)計(jì)算機(jī)上的MapReduce任務(wù)共址。這些集體數(shù)據(jù)構(gòu)成了一個(gè)Hadoop分布式文件系統(tǒng)(HDFS)。任何一個(gè)HadoopDistribution必須至少包含Hadoop集群軟件和HDFS
SQL的重新興起:
很多傳媒大肆宣揚(yáng)NoSQL是兼容RDBMS的SQL數(shù)據(jù)庫(kù)的“終結(jié)者”。但是,RDBMS可確保數(shù)據(jù)完整性,而這對(duì)于很多應(yīng)用至關(guān)重要。因此,業(yè)內(nèi)將來(lái)有可能搭建性能媲美當(dāng)今NoSQL數(shù)據(jù)庫(kù)的RDBMS數(shù)據(jù)庫(kù)。
Hadoop2.0:
Hadoop將來(lái)有可能更多地被視為支持大型NoSQL數(shù)據(jù)庫(kù)的一個(gè)平臺(tái),而不僅僅是一個(gè)批量分析引擎。在增添了流處理能力后(始于 ApacheStorm),Hadoop也有可能用于實(shí)時(shí)分析。大多數(shù)大數(shù)據(jù)廠商依賴于Hadoop的未來(lái)成功,因此,我們可能會(huì)看到在此方面的投入(如 與Hadoop的RESTful接口,集成Node.js等)。
6. 結(jié)語(yǔ)
大數(shù)據(jù)要求各個(gè)行業(yè)采用一種完全不同的非傳統(tǒng)方法來(lái)拓展業(yè)務(wù)。然而,并不是所有企業(yè)都具備優(yōu)秀的數(shù)據(jù)整合分析能力,所以需要借助外力獲取數(shù)據(jù)優(yōu)勢(shì),譬如,聯(lián)合專業(yè)從事互聯(lián)網(wǎng)大數(shù)據(jù)分析的軟件企業(yè),如蟻坊軟件,它擁有自主品牌的大數(shù)據(jù)處理平臺(tái):螞蟻工廠(Antfact ),并專注于大數(shù)據(jù)信息挖掘的價(jià)值傳遞。這樣,就將獲得真正的數(shù)據(jù)競(jìng)爭(zhēng)優(yōu)勢(shì),從而戰(zhàn)勝行動(dòng)較為遲緩的對(duì)手。