中國高度重視大數(shù)據(jù)發(fā)展。我們秉持創(chuàng)新、協(xié)調(diào)、綠色、開放、共享的發(fā)展理念,圍繞建設(shè)網(wǎng)絡(luò)強(qiáng)國、數(shù)字中國、智慧社會,全面實(shí)施國家大數(shù)據(jù)戰(zhàn)略,助力中國經(jīng)濟(jì)從高速增長轉(zhuǎn)向高質(zhì)量發(fā)展。
當(dāng)前,我國數(shù)字經(jīng)濟(jì)總量已超過 22 萬億元,占 GDP 比重逾 30%, 中央政府對于發(fā)展大數(shù)據(jù)、人工智能等前沿科技產(chǎn)業(yè)極為重視。
大數(shù)據(jù)的定義
大數(shù)據(jù)是一個寬泛的概念,從 2001 年“大數(shù)據(jù)”一詞在 Gartner 的研究報(bào)告出現(xiàn)至今,大數(shù)據(jù)一直沒有統(tǒng)一的定義。
Gartner 認(rèn)為大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。
麥肯錫全球研究所給出的定義是:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。
國際數(shù)據(jù)公司(IDC)從大數(shù)據(jù)的 4 個特征來定義,即海量的數(shù)據(jù)規(guī)模(Volume)、快速的數(shù)據(jù)流轉(zhuǎn)和動態(tài)的數(shù)據(jù)體系(Velocity)、多樣的數(shù)據(jù)類型(Variety)、巨大的數(shù)據(jù)價(jià)值(Value)。
維基百科對“大數(shù)據(jù)”的定義是“無法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合”。
無論各方對于大數(shù)據(jù)的定義有何不同,但均體現(xiàn)了大數(shù)據(jù)“大”的特征。但體量大、結(jié)構(gòu)多樣體現(xiàn)更多的是數(shù)據(jù)特征,對于數(shù)據(jù)的處理與應(yīng)用,則需要新技術(shù)(新型計(jì)算架構(gòu)、智能算法等)、新理念與新知識。因此大數(shù)據(jù)不僅“大”,而且“新”,是新資源、新工具和新應(yīng)用的綜合體。
對于大數(shù)據(jù)的處理與應(yīng)用,則需要新技術(shù)(新型計(jì)算架構(gòu)、智能算法等)、新理念與新知識。因此大數(shù)據(jù)不僅“大”,而且“新”,是新資源、新工具和新應(yīng)用的綜合體。
大數(shù)據(jù)的四大特征
在IT界雖然對大數(shù)據(jù)都有著自己不同的解讀。但大家都普遍認(rèn)為,大數(shù)據(jù)有著4“V”特征,即Volume(容量大)?Variety(種類多)?Velocity(速度快)和最重要的Value(價(jià)值密度低)。
Volume是指大數(shù)據(jù)巨大的數(shù)據(jù)量與數(shù)據(jù)完整性。十幾年前,由于存儲方式?科技手段和分析成本等的限制,使得當(dāng)時(shí)許多數(shù)據(jù)都無法得到記錄和保存。即使是可以保存的信號,也大多采用模擬信號保存,當(dāng)其轉(zhuǎn)變?yōu)閿?shù)字信號的時(shí)候,由于信號的采樣和轉(zhuǎn)換,都不可避免存在數(shù)據(jù)的遺漏與丟失。那么現(xiàn)在,大數(shù)據(jù)的出現(xiàn),使得信號得以以最原始的狀態(tài)保存下來,數(shù)據(jù)量的大小已不是最重要的,數(shù)據(jù)的完整性才是最重要的。
Variety意味著要在海量?種類繁多的數(shù)據(jù)間發(fā)現(xiàn)其內(nèi)在關(guān)聯(lián)。在互聯(lián)網(wǎng)時(shí)代,各種設(shè)備連成一個整體,個人在這個整體中既是信息的收集者也是信息的傳播者,加速了數(shù)據(jù)量的爆炸式增長和信息多樣性。這就必然促使我們要在各種各樣的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)信息之間的相互關(guān)聯(lián),把看似無用的信息轉(zhuǎn)變?yōu)橛行У男畔?,從而做出正確的判斷。
Velocity可以理解為更快地滿足實(shí)時(shí)性需求。目前,對于數(shù)據(jù)智能化和實(shí)時(shí)性的要求越來越高,比如開車時(shí)會查看智能導(dǎo)航儀查詢最短路線,吃飯時(shí)會了解其他用戶對這家餐廳的評價(jià),見到可口的食物會拍照發(fā)微博等諸如此類的人與人?人與機(jī)器之間的信息交流互動,這些都不可避免帶來數(shù)據(jù)交換。而數(shù)據(jù)交換的關(guān)鍵是降低延遲,以近乎實(shí)時(shí)的方式呈獻(xiàn)給用戶。
大數(shù)據(jù)特征里最關(guān)鍵的一點(diǎn),就是Value。Value的意思是指大數(shù)據(jù)的價(jià)值密度低。大數(shù)據(jù)時(shí)代數(shù)據(jù)的價(jià)值就像沙子淘金,數(shù)據(jù)量越大,里面真正有價(jià)值的東西就越少?,F(xiàn)在的任務(wù)就是將這些ZB?PB級的數(shù)據(jù),利用云計(jì)算?智能化開源實(shí)現(xiàn)平臺等技術(shù),提取出有價(jià)值的信息,將信息轉(zhuǎn)化為知識,發(fā)現(xiàn)規(guī)律,最終用知識促成正確的決策和行動。
大數(shù)據(jù)的關(guān)鍵技術(shù)
大數(shù)據(jù)作為一種新興技術(shù),目前尚未形成完善、達(dá)成共識的技術(shù)標(biāo)準(zhǔn)體系。對大數(shù)據(jù)的理解和分析,提出了大數(shù)據(jù)參考架構(gòu)。
大數(shù)據(jù)參考架構(gòu)總體上可以概括為“一個概念體系,二個價(jià)值鏈維度”。“一個概念體系”是指它為大數(shù)據(jù)參考架構(gòu)中使用的概念提供了一個構(gòu)件層級分類體系,即“角色—活動—功能組件”,用于描述參考架構(gòu)中的邏輯構(gòu)件及其關(guān)系;“二個價(jià)值鏈維度”分別為“IT價(jià)值鏈”和“信息價(jià)值鏈”,其中“IT價(jià)值鏈”反映的是大數(shù)據(jù)作為一種新興的數(shù)據(jù)應(yīng)用范式對IT技術(shù)產(chǎn)生的新需求所帶來的價(jià)值,“信息價(jià)值鏈”反映的是大數(shù)據(jù)作為一種數(shù)據(jù)科學(xué)方法論對數(shù)據(jù)到知識的處理過程中所實(shí)現(xiàn)的信息流價(jià)值。這些內(nèi)涵在大數(shù)據(jù)參考模型圖中得到了體現(xiàn)。
大數(shù)據(jù)的關(guān)鍵技術(shù)有:
1、數(shù)據(jù)收集
大數(shù)據(jù)時(shí)代,數(shù)據(jù)的來源極其廣泛,數(shù)據(jù)有不同的類型和格式,同時(shí)呈現(xiàn)爆發(fā)性增長的態(tài)勢,這些特性對數(shù)據(jù)收集技術(shù)也提出了更高的要求。數(shù)據(jù)收集需要從不同的數(shù)據(jù)源實(shí)時(shí)的或及時(shí)的收集不同類型的數(shù)據(jù)并發(fā)送給存儲系統(tǒng)或數(shù)據(jù)中間件系統(tǒng)進(jìn)行后續(xù)處理。數(shù)據(jù)收集一般可分為設(shè)備數(shù)據(jù)收集和Web數(shù)據(jù)爬取兩類,常常用的數(shù)據(jù)收集軟件有Splunk、Sqoop、Flume、Logstash、Kettle以及各種網(wǎng)絡(luò)爬蟲,如Heritrix、Nutch等。
2、數(shù)據(jù)預(yù)處理
數(shù)據(jù)的質(zhì)量對數(shù)據(jù)的價(jià)值大小有直接影響,低質(zhì)量數(shù)據(jù)將導(dǎo)致低質(zhì)量的分析和挖掘結(jié)果。廣義的數(shù)據(jù)質(zhì)量涉及許多因素,如數(shù)據(jù)的準(zhǔn)確性、完整性、一致性、時(shí)效性、可信性與可解釋性等。
大數(shù)據(jù)系統(tǒng)中的數(shù)據(jù)通常具有一個或多個數(shù)據(jù)源,這些數(shù)據(jù)源可以包括同構(gòu)/異構(gòu)的(大)數(shù)據(jù)庫、文件系統(tǒng)、服務(wù)接口等。這些數(shù)據(jù)源中的數(shù)據(jù)來源現(xiàn)實(shí)世界,容易受到噪聲數(shù)據(jù)、數(shù)據(jù)值缺失與數(shù)據(jù)沖突等的影響。此外數(shù)據(jù)處理、分析、可視化過程中的算法與實(shí)現(xiàn)技術(shù)復(fù)雜多樣,往往需要對數(shù)據(jù)的組織、數(shù)據(jù)的表達(dá)形式、數(shù)據(jù)的位置等進(jìn)行一些前置處理。
數(shù)據(jù)預(yù)處理形式上包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約與數(shù)據(jù)轉(zhuǎn)換等階段。
3、數(shù)據(jù)存儲
分布式存儲與訪問是大數(shù)據(jù)存儲的關(guān)鍵技術(shù),它具有經(jīng)濟(jì)、高效、容錯好等特點(diǎn)。分布式存儲技術(shù)與數(shù)據(jù)存儲介質(zhì)的類型和數(shù)據(jù)的組織管理形式直接相關(guān)。目前的主要數(shù)據(jù)存儲介質(zhì)類型包括內(nèi)存、磁盤、磁帶等;主要數(shù)據(jù)組織管理形式包括按行組織、按列組織、按鍵值組織和按關(guān)系組織;主要數(shù)據(jù)組織管理層次包括按塊級組織、文件級組織以及數(shù)據(jù)庫級組織等。
不同的存儲介質(zhì)和組織管理形式對應(yīng)于不同的大數(shù)據(jù)特征和應(yīng)用特點(diǎn)。
4、數(shù)據(jù)處理
分布式數(shù)據(jù)處理技術(shù)一方面與分布式存儲形式直接相關(guān),另一方面也與業(yè)務(wù)數(shù)據(jù)的溫度類型(冷數(shù)據(jù)、熱數(shù)據(jù))相關(guān)。目前主要的數(shù)據(jù)處理計(jì)算模型包括MapReduce計(jì)算模型、DAG計(jì)算模型、BSP計(jì)算模型等。
(1)MapReduce分布式計(jì)算框架
MapReduce是一個高性能的批處理分布式計(jì)算框架,用于對海量數(shù)據(jù)進(jìn)行并行分析和處理。與傳統(tǒng)數(shù)據(jù)倉庫和分析技術(shù)相比,MapReduce 適合處理各種類型的數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),并且可以處理數(shù)據(jù)量為TB 和 PB 級別的超大規(guī)模數(shù)據(jù)。
(2)分布式內(nèi)存計(jì)算系統(tǒng)
使用分布式共享內(nèi)存進(jìn)行計(jì)算可以有效的減少數(shù)據(jù)讀寫和移動的開銷,極大的提高數(shù)據(jù)處理的性能。支持基于內(nèi)存的數(shù)據(jù)計(jì)算,兼容多種分布式計(jì)算框架的通用計(jì)算平臺是大數(shù)據(jù)領(lǐng)域所必需的重要關(guān)鍵技術(shù)。
(3)分布式流計(jì)算系統(tǒng)
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)的增長速度超過了存儲容量的增長,在不遠(yuǎn)的將來,人們將無法存儲所有的數(shù)據(jù),同時(shí),數(shù)據(jù)的價(jià)值會隨著時(shí)間的流逝而不斷減少,此外,很多數(shù)據(jù)涉及用戶的隱私無法進(jìn)行存儲。對數(shù)據(jù)流進(jìn)行實(shí)時(shí)處理的技術(shù)獲得了人們越來越多的關(guān)注。
5、數(shù)據(jù)分析
大數(shù)據(jù)分析技術(shù)包括已有數(shù)據(jù)信息的分布式統(tǒng)計(jì)分析技術(shù),以及未知數(shù)據(jù)信息的分布式挖掘和深度學(xué)習(xí)技術(shù)。分布式統(tǒng)計(jì)分析技術(shù)基本都可藉由數(shù)據(jù)處理技術(shù)直接完成,分布式挖掘和深度學(xué)習(xí)技術(shù)則可以進(jìn)一步細(xì)分為:
(1)聚類
聚類指將物理或抽象對象的集合分組成為由類似的對象組成的多個類的過程。
(2)分類
分類是指在一定的有監(jiān)督的學(xué)習(xí)前提下,將物體或抽象對象的集合分成多個類的過程。也可以認(rèn)為,分類是一種基于訓(xùn)練樣本數(shù)據(jù)(這些數(shù)據(jù)已經(jīng)被預(yù)先貼上了標(biāo)簽)區(qū)分另外的樣本數(shù)據(jù)標(biāo)簽的過程,即另外的樣本數(shù)據(jù)應(yīng)該如何貼標(biāo)簽。
(3)關(guān)聯(lián)分析
關(guān)聯(lián)分析是一種簡單、實(shí)用的分析技術(shù),就是發(fā)現(xiàn)存在于大量數(shù)據(jù)集中的關(guān)聯(lián)性或相關(guān)性,從而描述了一個事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式。關(guān)聯(lián)分析在數(shù)據(jù)挖掘領(lǐng)域也稱為關(guān)聯(lián)規(guī)則挖掘。
(4)深度學(xué)習(xí)
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)研究中的一個新的領(lǐng)域,其動機(jī)在于建立、模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機(jī)制來解釋數(shù)據(jù),例如圖像,聲音和文本。深度學(xué)習(xí)的實(shí)質(zhì),是通過構(gòu)建具有很多隱層的機(jī)器學(xué)習(xí)模型和海量的訓(xùn)練數(shù)據(jù),來學(xué)習(xí)更有用的特征,從而最終提升分類或預(yù)測的準(zhǔn)確性。
6、數(shù)據(jù)可視化
數(shù)據(jù)可視化(Data Visualization)運(yùn)用計(jì)算機(jī)圖形學(xué)和圖像處理技術(shù),將數(shù)據(jù)換為圖形或圖像在屏幕上顯示出來,并進(jìn)行交互處理。它涉及到計(jì)算機(jī)圖形學(xué)、圖像處理、計(jì)算機(jī)輔助設(shè)計(jì)、計(jì)算機(jī)視覺及人機(jī)交互等多個技術(shù)領(lǐng)域。數(shù)據(jù)可視化概念首先來自科學(xué)計(jì)算可視化(Visualization in Scientific Computing),科學(xué)家們不僅需要通過圖形圖像來分析由計(jì)算機(jī)算出的數(shù)據(jù),而且需要了解在計(jì)算過程中數(shù)據(jù)的變化。
大數(shù)據(jù)產(chǎn)業(yè)鏈
大數(shù)據(jù)產(chǎn)業(yè)鏈包括一切與大數(shù)據(jù)產(chǎn)生與聚集(數(shù)據(jù)源)、組織與管理(儲存)、分析與發(fā)現(xiàn)(技術(shù))、交易、應(yīng)用與衍生產(chǎn)業(yè)相關(guān)的所有活動。按照數(shù)據(jù)價(jià)值實(shí)現(xiàn)流程,貴陽大數(shù)據(jù)交易所發(fā)布的《2016 年中國大數(shù)據(jù)交易產(chǎn)業(yè)白皮書》將大數(shù)據(jù)產(chǎn)業(yè)鏈分為六大層級:數(shù)據(jù)源、大數(shù)據(jù)硬件支撐層、大數(shù)據(jù)技術(shù)層、大數(shù)據(jù)交易層、大數(shù)據(jù)應(yīng)用層與大數(shù)據(jù)衍生層,其中每一層都包含相應(yīng)的 IT 硬件設(shè)施、軟件技術(shù)與信息服務(wù)等,構(gòu)成了大數(shù)據(jù)產(chǎn)業(yè)鏈的完整閉環(huán)。
數(shù)據(jù)源:
大數(shù)據(jù)產(chǎn)業(yè)基礎(chǔ)。數(shù)據(jù)源是大數(shù)據(jù)產(chǎn)業(yè)鏈的第一個環(huán)節(jié),是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的基礎(chǔ)。由于中國大數(shù)據(jù)流通在全社會還未形成規(guī)模,目前數(shù)據(jù)源區(qū)塊主要集中在政府管理部門、互聯(lián)網(wǎng)巨頭、移動通訊企業(yè)等手中。隨著互聯(lián)網(wǎng)滲透不斷深入,數(shù)據(jù)產(chǎn)生方式也變得更加多樣,數(shù)據(jù)源已經(jīng)呈現(xiàn)出爆炸式增長,越來越多的企業(yè)將加入數(shù)據(jù)生產(chǎn)和采集行業(yè),數(shù)據(jù)源將進(jìn)一步擴(kuò)大。
硬件支撐:
大數(shù)據(jù)底層支柱。大數(shù)據(jù)硬件是指數(shù)據(jù)產(chǎn)生、采集、傳輸、存儲、計(jì)算等一系列與大數(shù)據(jù)產(chǎn)業(yè)鏈相關(guān)的硬件設(shè)備。包含傳感器、移動智能終端、各種有線/無線傳輸設(shè)備、存儲設(shè)備、服務(wù)器、網(wǎng)絡(luò)/安全設(shè)備等。在大數(shù)據(jù)需求的刺激下,越來越多的硬件產(chǎn)品都打出“智能牌”。智能硬件逐漸改變?nèi)藗內(nèi)粘I畹耐瑫r(shí),還在用戶無觸發(fā)、無感知的情況下,24 小時(shí)不間斷采集數(shù)據(jù)。
技術(shù)層:
大數(shù)據(jù)價(jià)值實(shí)現(xiàn)手段。大數(shù)據(jù)技術(shù)層指實(shí)現(xiàn)一切大數(shù)據(jù)采集與預(yù)處理、存儲管理、大數(shù)據(jù)分析挖掘、大數(shù)據(jù)安全和大數(shù)據(jù)可視化的技術(shù)手段。大數(shù)據(jù)技術(shù)能夠?qū)⒋笠?guī)模數(shù)據(jù)中隱藏的信息和知識挖掘出來,為社會經(jīng)濟(jì)活動提供依據(jù),提高各個領(lǐng)域的運(yùn)行效率,甚至整個社會經(jīng)濟(jì)的集約化程度,是大數(shù)據(jù)價(jià)值實(shí)現(xiàn)的重要條件。
交易層:
最大化數(shù)據(jù)價(jià)值。隨著大數(shù)據(jù)技術(shù)的成熟和發(fā)展,大數(shù)據(jù)在商業(yè)上的應(yīng)用越來越廣泛,有關(guān)大數(shù)據(jù)的交互、整合、交換日益增多,大數(shù)據(jù)交易也應(yīng)運(yùn)而生。大數(shù)據(jù)交易可以打破信息孤島及行業(yè)信息壁壘,匯聚海量高價(jià)值數(shù)據(jù),對接數(shù)據(jù)市場的多樣化需求,完善產(chǎn)業(yè)生態(tài)環(huán)境,實(shí)現(xiàn)數(shù)據(jù)價(jià)值的最大化,對推進(jìn)大數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新發(fā)展方面具有深遠(yuǎn)意義。目前大數(shù)據(jù)交易有交易所模式、電商模式、API 模式,大數(shù)據(jù)的價(jià)值通過數(shù)據(jù)確權(quán)、清洗、交易等形式得以釋放和體現(xiàn)。
應(yīng)用層:
大數(shù)據(jù)價(jià)值體現(xiàn)。大數(shù)據(jù)的價(jià)值體現(xiàn)在大數(shù)據(jù)應(yīng)用上。大數(shù)據(jù)產(chǎn)業(yè)的下游由大量公司組成,它們基本上扮演的角色是大數(shù)據(jù)生態(tài)圈里的數(shù)據(jù)提供者、特色服務(wù)運(yùn)營者和產(chǎn)品分銷商,基本通過開放平臺和搜索引擎獲取用戶,處于產(chǎn)業(yè)的邊緣地帶。目前,大數(shù)據(jù)應(yīng)用在各行各業(yè)的發(fā)展呈現(xiàn)“階梯式”格局:互聯(lián)網(wǎng)行業(yè)是大數(shù)據(jù)應(yīng)用的領(lǐng)跑者,政府、金融、電信、交通、醫(yī)療等領(lǐng)域積極嘗試大數(shù)據(jù),其中政府、金融會在近幾年呈爆發(fā)式增長。
衍生層:
大數(shù)據(jù)下的新業(yè)態(tài)。大數(shù)據(jù)衍生層是指基于大數(shù)據(jù)分析和應(yīng)用而衍生出來的各種新業(yè)態(tài)。大數(shù)據(jù)分析和應(yīng)用,在經(jīng)濟(jì)社會各領(lǐng)域的擴(kuò)散滲透,不僅促進(jìn)相關(guān)產(chǎn)業(yè)生產(chǎn)率水平的提升,同時(shí)也衍生出很多與之相關(guān)聯(lián)的新興產(chǎn)業(yè),使得人類生產(chǎn)生活、工作消費(fèi)方式發(fā)生根本性轉(zhuǎn)變。
我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展現(xiàn)狀
1 、政策支撐大數(shù)據(jù)產(chǎn)業(yè)發(fā)展
2017 年 1 月工信部發(fā)布《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016-2020 年)》,規(guī)劃認(rèn)為我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展有五點(diǎn)現(xiàn)狀:
1)、信息化積累了豐富的數(shù)據(jù)資源,我國已成為產(chǎn)生和積累數(shù)據(jù)量最大、數(shù)據(jù)類型最豐富的國家之一;
2)、大數(shù)據(jù)技術(shù)創(chuàng)新取得明顯突破,在軟硬件、平臺建設(shè)、智能分析及開源技術(shù)方面均取得一定進(jìn)展;
3)、大數(shù)據(jù)應(yīng)用推進(jìn)勢頭良好,在互聯(lián)網(wǎng)服務(wù)中得到廣泛應(yīng)用,同時(shí)向傳統(tǒng)產(chǎn)業(yè)積極滲透;
4)、我國大數(shù)據(jù)產(chǎn)業(yè)體系初具雛形。龍頭企業(yè)引領(lǐng)下上下游企業(yè)互動的產(chǎn)業(yè)格局初步形成,同時(shí)基于大數(shù)據(jù)的創(chuàng)新創(chuàng)業(yè)日趨活躍,大數(shù)據(jù)技術(shù)、產(chǎn)業(yè)與服務(wù)成為社會資本投入的熱點(diǎn);
5)、大數(shù)據(jù)產(chǎn)業(yè)支撐能力日益增強(qiáng),形成了大數(shù)據(jù)標(biāo)準(zhǔn)化工作機(jī)制,標(biāo)準(zhǔn)體系初步形成,同時(shí)大數(shù)據(jù)安全保障體系和法律法規(guī)不斷完善。
應(yīng)用為代表的下游產(chǎn)業(yè)將成為大數(shù)據(jù)主體。中國大數(shù)據(jù)應(yīng)用市場規(guī)模重點(diǎn)集中在政府和金融等領(lǐng)域,與這幾個領(lǐng)域數(shù)據(jù)量大有關(guān)。隨著大數(shù)據(jù)產(chǎn)業(yè)上游格局逐漸穩(wěn)定,硬件設(shè)備及技術(shù)逐漸成熟,以及政府的不斷推動,大數(shù)據(jù)應(yīng)用行業(yè)增速也將超過其他行業(yè)。
目前,大數(shù)據(jù)也已經(jīng)成為我國戰(zhàn)略方向之一。2017 年 12 月 8 日中央政治局就實(shí)施國家大數(shù)據(jù)戰(zhàn)略進(jìn)行了第二次集體學(xué)習(xí),習(xí)近平在主持會議時(shí)說:“大數(shù)據(jù)發(fā)展日新月異,我們應(yīng)該審時(shí)度勢、精心謀劃、超前布局、力爭主動” 。
2、互聯(lián)網(wǎng)巨頭引領(lǐng)產(chǎn)業(yè)發(fā)展
BAT 等互聯(lián)網(wǎng)巨頭引領(lǐng)大數(shù)據(jù)產(chǎn)業(yè)。國內(nèi)互聯(lián)網(wǎng)企業(yè)業(yè)務(wù)布局各個方向擁有大量用戶,擁有巨量的數(shù)據(jù),企業(yè)對這些數(shù)據(jù)進(jìn)行采集于分析,用于支撐其自身的電子商務(wù)、定向廣告和影視娛樂等傳統(tǒng)業(yè)務(wù),來獲取更多的經(jīng)濟(jì)效益。同時(shí),在互聯(lián)網(wǎng)產(chǎn)業(yè) O2O的趨勢下,互聯(lián)網(wǎng)企業(yè)逐漸將業(yè)務(wù)延伸到金融、保險(xiǎn)、旅游、教育、交通服務(wù)等多個領(lǐng)域,在這一過程中又進(jìn)一步豐富了數(shù)據(jù)來源,促進(jìn)了分析技術(shù)的發(fā)展,擴(kuò)展了大數(shù)據(jù)分析在諸多行業(yè)的應(yīng)用。
熱門行業(yè)應(yīng)用競爭較為激烈。隨著大數(shù)據(jù)逐漸成熟,基礎(chǔ)設(shè)施逐漸完善,產(chǎn)業(yè)上游已經(jīng)初具規(guī)模,各種行業(yè)應(yīng)用不斷落地。從需求方來看,企業(yè)對于大數(shù)據(jù)應(yīng)用的需求持續(xù)增強(qiáng),并著力培育自身的數(shù)據(jù)資產(chǎn),各類大數(shù)據(jù)應(yīng)用逐漸落地,并成為產(chǎn)業(yè)鏈的核心。
從供給方來看,新興技術(shù)推動大數(shù)據(jù)技術(shù)環(huán)境趨向成熟,行業(yè)大數(shù)據(jù)應(yīng)用逐漸豐富,大數(shù)據(jù)生態(tài)系統(tǒng)多元化程度加強(qiáng)。相比于全球大數(shù)據(jù)應(yīng)用于廣泛的領(lǐng)域,我國應(yīng)用主要集中在政府、金融、電商、醫(yī)療健康等領(lǐng)域,競爭較為激烈。
3、工業(yè)互聯(lián)網(wǎng)下大數(shù)據(jù)價(jià)值凸顯
數(shù)據(jù)是工業(yè)互聯(lián)網(wǎng)的核心。工業(yè)互聯(lián)網(wǎng)是互聯(lián)網(wǎng)和新一代信息技術(shù)與全球工業(yè)系統(tǒng)深度融合集成所形成的產(chǎn)業(yè)的應(yīng)用生態(tài)。工業(yè)互聯(lián)網(wǎng)的實(shí)質(zhì)首先是全面互聯(lián),在全面互聯(lián)的基礎(chǔ)上,通過數(shù)據(jù)流動和分析,形成智能化變革,形成新的模式和新的業(yè)態(tài),因此工業(yè)互聯(lián)網(wǎng)比互聯(lián)網(wǎng)更強(qiáng)調(diào)數(shù)據(jù),更強(qiáng)調(diào)充分的聯(lián)接,數(shù)據(jù)的傳輸、集成以及分析和建模,數(shù)據(jù)是工業(yè)互聯(lián)網(wǎng)的核心。
大數(shù)據(jù)應(yīng)用將帶來工業(yè)企業(yè)創(chuàng)新和變革的新時(shí)代。通過互聯(lián)網(wǎng)、移動物聯(lián)網(wǎng)等帶來的低成本感知、高速移動連接、分布式計(jì)算和高級分析,信息技術(shù)和全球工業(yè)系統(tǒng)正在深入融合,給全球工業(yè)帶來深刻的變革,創(chuàng)新企業(yè)的研發(fā)、生產(chǎn)、運(yùn)營、營銷和管理方式。
80 多家企業(yè)聯(lián)盟,打造工業(yè)數(shù)據(jù)生態(tài)體系。2017 年 12 月8 日包括聯(lián)想牽頭海爾、騰訊云、TCL 智能制造等 80 多家企業(yè)成立了“工業(yè)大數(shù)據(jù)產(chǎn)業(yè)應(yīng)用聯(lián)盟”,旨在打造覆蓋工業(yè)企業(yè)全價(jià)值流程、全產(chǎn)業(yè)生命周期的數(shù)據(jù)生態(tài)體系。
4 、“數(shù)字中國”加碼大數(shù)據(jù)
數(shù)字經(jīng)濟(jì)已經(jīng)成為帶動中國經(jīng)濟(jì)增長的核心動力。根據(jù)騰訊研究院發(fā)布的《中國互聯(lián)網(wǎng)+數(shù)字經(jīng)濟(jì)指數(shù)(2017)》數(shù)據(jù),2016 年,中國數(shù)字經(jīng)濟(jì)總量達(dá)到 22.6 萬億元,同比增長超過 18.9%,顯著高于當(dāng)年 GDP 增速,占 GDP 的比重達(dá)到 30.3%,對 GDP 的貢獻(xiàn)已達(dá)到 69.9%。同時(shí),報(bào)告測算得出 2016 年數(shù)字經(jīng)濟(jì)對于我國新增就業(yè)的貢獻(xiàn)已經(jīng)超過 1/5,成為帶動就業(yè)增長的新引擎。
5、美國大數(shù)據(jù)發(fā)展領(lǐng)跑世界,中美仍有明顯差異
美國大數(shù)據(jù)進(jìn)入國家戰(zhàn)略,發(fā)展領(lǐng)跑世界。2009 年至今,Data.gov(美國政府?dāng)?shù)據(jù)庫)全面開放了 40 萬聯(lián)邦政府原始數(shù)據(jù)集,同時(shí)宣布采用新的“開源政府平臺”管理數(shù)據(jù),代碼將向各國開發(fā)者開放。從這個角度看,大數(shù)據(jù)已成為美國國家創(chuàng)新戰(zhàn)略、國家安全戰(zhàn)略、國家 ICT 產(chǎn)業(yè)發(fā)展戰(zhàn)略以及國家信息網(wǎng)絡(luò)安全戰(zhàn)略的核心領(lǐng)域。
根據(jù)貴陽大數(shù)據(jù)交易所發(fā)布的《2016 年中國大數(shù)據(jù)交易產(chǎn)業(yè)白皮書》的數(shù)據(jù),2017 年美國大數(shù)據(jù)市場規(guī)模為 1431 億美元,按當(dāng)年人民幣對美元平均匯率 6.75 計(jì)算,2017 年美國大數(shù)據(jù)市場規(guī)模為中國的 2.7 倍。同時(shí),貴陽大數(shù)據(jù)交易所預(yù)計(jì) 2020 年美國大數(shù)據(jù)市場規(guī)模將達(dá)到 3823 億美元,占全球市場份額達(dá)到 37.2%,遠(yuǎn)遠(yuǎn)超過排名第二的中國,發(fā)展領(lǐng)跑世界。雖然近年來中國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展迅速,且日趨成熟,但與領(lǐng)跑者美國仍有三到五年的差距。
十九大結(jié)束之后,政治局第二次集體學(xué)習(xí)即“審時(shí)度勢精心謀劃超前布局力爭主動,實(shí)施國家大數(shù)據(jù)戰(zhàn)略加快建設(shè)數(shù)字中國”, 更突顯國家大數(shù)據(jù)戰(zhàn)略在國家持續(xù)發(fā)展中的核心地位!明確了大數(shù)據(jù)戰(zhàn)略的核心思想:大數(shù)據(jù)是信息化發(fā)展的新階段;大數(shù)據(jù)產(chǎn)業(yè)生態(tài)要自主可控;推動實(shí)體經(jīng)濟(jì)和數(shù)字經(jīng)濟(jì)融合發(fā)展;建設(shè)全國信息共享體系和平臺;大數(shù)據(jù)要在改善民生領(lǐng)域有所作為;保障國家數(shù)據(jù)安全。