国产香港日本三级在线观看,国产精品亚洲一区二区在线观看 ,亚洲精品国产网红在线

大數據產業現狀和未來發展方向分析

責任編輯：editor004

2017-02-17 11:55:35

摘自：中國投資咨詢網

在存儲方面，2000 年左右谷歌等提出的文件系統(GFS)、以及隨后的 Hadoop 的分布式文件系統 HDFS(Hadoop Distributed File System)奠定了大數據存儲技術的基礎。

大數據是新資源、新技術和新理念的混合體。從資源視角來看，大數據是新資源，體現了一種全新的資源觀。1990 年以來，在摩爾定律的推動下，計算存儲和傳輸數據的能力在以指數速度增長，每GB 存儲器的價格每年下降 40%。2000 年以來，以 Hadoop 為代表的分布式存儲和計算技術迅猛發展，極大的提升了互聯網企業數據管理能力，互聯網企業對“數據廢氣”(Data Exhaust)的挖掘利用大獲成功，引發全社會開始重新審視“數據”的價值，開始把數據當作一種獨特的戰略資源對待。大數據的所謂 3V 特征(體量大、結構多樣、產生處理速度快)主要是從這個角度描述的。

從技術視角看，大數據代表了新一代數據管理與分析技術。傳統的數據管理與分析技術以結構化數據為管理對象、在小數據集上進行分析、以集中式架構為主，成本高昂。與“貴族化”的數據分析技術相比，源于互聯網的，面向多源異構數據、在超大規模數據集(PB量級)上進行分析、以分布式架構為主的新一代數據管理技術，與開源軟件潮流疊加，在大幅提高處理效率的同時(數據分析從 T+1 到T+0 甚至實時)，成百倍的降低了數據應用成本。

從理念的視角看，大數據打開了一種全新的思維角度。大數據的應用，賦予了“實事求是”新的內涵，其一是“數據驅動”，即經營管理決策可以自下而上地由數據來驅動，甚至像量化股票交易、實時競價廣告等場景中那樣，可以由機器根據數據直接決策;其二是“數據閉環”，觀察互聯網行業大數據案例，它們往往能夠構造起包括數據采集、建模分析、效果評估到反饋修正各個環節在內的完整“數據閉環”，從而能夠不斷地自我升級，螺旋上升。目前很多“大數據應用”，要么數據量不夠大，要么并非必須使用新一代技術，但體現了數據驅動和數據閉環的思維，改進了生產管理效率，這是大數據思維理念應用的體現。

如何界定大數據產業

大數據本身既能形成新興產業，也能推動其他產業發展。當前，國內外缺乏對大數據產業的公認界定。我們認為，大數據產業可以從狹義和廣義兩個層次界定。

從狹義看，當前全球圍繞大數據采集、存儲、管理和挖掘，正在逐漸形成了一個“小生態”，即大數據核心產業。大數據核心產業為全社會大數據應用提供數據資源、產品工具和應用服務，支撐各個領域的大數據應用，是大數據在各個領域應用的基石。應該注意到，狹義大數據產業仍然圍繞信息的采集加工構建，屬于信息產業的一部分。

　　圖：大數據核心產業構成

數據資源部分負責原始數據的供給和交換，根據數據來源的不同，可以細分為數據資源提供者和數據交易平臺兩種角色。數據基礎能力部分負責與數據生產加工相關的基礎設施和技術要素供應，根據數據加工和價值提升的生產流程，數據基礎能力部分主要包括數據存儲、數據處理和數據庫(數據管理)等多個角色。

數據分析/可視化部分負責數據隱含價值的挖掘、數據關聯分析和可視化展現等，既包括傳統意義上的 BI、可視化和通用數據分析工具，也包括面向非結構化數據提供的語音、圖像等媒體識別服務。

數據應用部分根據數據分析和加工的結果，面向電商、金融、交通、氣象、安全等細分行業提供精準營銷、信用評估、出行引導、信息防護等企業或公眾服務。

根據 IDC、Wikibon 等咨詢機構預測，2016 年，全球的大數據核心產業規模約為 300 億美元。

　　圖：全球大數據產業規模(2011-2026)

目前大數據產業的統計口徑尚未建立。對于我國大數據產業的規模，各個研究機構均采取間接方法估算。中國信息通信研究院結合對大數據相關企業的調研測算，2015 年我國大數據核心產業的市場規模達到 115.9 億元，增速達 38%，預計 2016 年將達到 168 億元，2017-2018 年還將維持 40%左右的高速增長。

　　圖：中國大數據產業規模估計

從廣義看，大數據具有通用技術的屬性，能夠提升運作效率，提高決策水平，從而形成由數據驅動經濟發的“大生態”，即廣義大數據產業。廣義大數據產業包含了大數據在各個領域的應用，已經超出了信息產業的范疇。

據華沙經濟研究所測算，歐盟 27 國因大數據的引進，至 2020 年將獲得 1.9%的額外 GDP 增長。美國麥肯錫預計，到 2020 年美國大數據應用帶來的增加值將占 2020 年 GDP 的 2%-4%。中國信息通信研究院預計，到2020年大數據將帶動中國GDP 2.8-4.2%。

大數據產業發展的要面臨的挑戰

我國大數據產業發展已具備一定基礎，但要實現從“數據大國”向“數據強國”轉變，還面臨諸多挑戰。

一是對數據資源及其價值的認識不足。

全社會尚未形成對大數據客觀、科學的認識，對數據資源及其在人類生產、生活和社會管理方面的價值利用認識不足，存在盲目追逐硬件設施投資、輕視數據資源積累和價值挖掘利用等現象。

二是技術創新與支撐能力不夠。

大數據需要從底層芯片到基礎軟件再到應用分析軟件等信息產業全產業鏈的支撐，無論是新型計算平臺、分布式計算架構，還是大數據處理、分析和呈現方面與國外均存在較大差距，對開源技術和相關生態系統的影響力仍然較弱，總體上難以滿足各行各業大數據應用需求。

三是數據資源建設和應用水平不高。

用戶普遍不重視數據資源的建設，即使有數據意識的機構也大多只重視數據的簡單存儲，很少針對后續應用需求進行加工整理。數據資源普遍存在質量差，標準規范缺乏，管理能力弱等現象。跨部門、跨行業的數據共享仍不順暢，有價值的公共信息資源和商業數據開放程度低。數據價值難以被有效挖掘利用，大數據應用整體上處于起步階段，潛力遠未釋放。

四是信息安全和數據管理體系尚未建立。

數據所有權、隱私權等相關法律法規和信息安全、開放共享等標準規范缺乏，技術安全防范和管理能力不夠，尚未建立起兼顧安全與發展的數據開放、管理和信息安全保障體系。

五是人才隊伍建設亟需加強。

綜合掌握數學、統計學、計算機等相關學科及應用領域知識的綜合性數據科學人才缺乏，遠不能滿足發展需要，尤其是缺乏既熟悉行業業務需求，又掌握大數據技術與管理的綜合型人才。

三大方向預測大數據技術發展未來趨勢

(一)社交網絡和物聯網技術拓展了數據采集技術渠道

經過行業信息化建設，醫療、交通、金融等領域已經積累了許多內部數據，構成大數據資源的“存量”;而移動互聯網和物聯網的發展，大大豐富了大數據的采集渠道，來自外部社交網絡、可穿戴設備、車聯網、物聯網及政府公開信息平臺的數據將成為大數據增量數據資源的主體。當前，移動互聯網的深度普及，為大數據應用提供了豐富的數據源。

根據中國互聯網絡信息中心(CNNIC)第 38 次《中國互聯網絡發展狀況統計報告》，截至 2016 年 6 月，我國網民規模達 7.1 億，互中國信息通信研究院聯網普及率達到 51.7%，超過全球平均水平 3.1 個百分點。其中，我國手機網民規模達 6.65 億。網民中使用手機上網的人群占比提升至92.5%。線下企業通過與互聯網企業的合作，或者利用開放的應用編程接口(API，Application Programming Interface)或網絡爬蟲，可以采集到豐富的網絡數據可以作為內容數據的有效補充。

另外，快速發展的物聯網，也將成為越來越重要的大數據資源提供者。相對于現有互聯網數據雜亂無章和價值密度低的特點，通過可穿戴、車聯網等多種數據采集終端，定向采集的數據資源更具利用價值。例如，智能化的可穿戴設備經過幾年的發展，智能手環、腕帶、手表等可穿戴正在走向成熟，智能鑰匙扣、自行車、筷子等設備層出窮，國外 Intel、Google、Facebook，國內百度、京東、小米等有所布局。

根據 IDC 公司預計，到 2016 年底，全球可穿戴設備的出貨量將達到 1.019 億臺，較 2015 年增長 29.0%。到 2020 年之前，可穿戴設備市場的年復合增長率將為 20.3%，而 2020 年將達到 2.136 億臺?？纱┐髟O備可7×24 小時不間斷地收集個人健康數據，在醫療保健領域有廣闊的應用前景，一旦技術成熟，設備測量精度達到醫用要求，電池續航能力也有顯著增強，就很可能會進入大規模應用階段，從而成為重要的大數據來源。再如，車聯網已經進入快速成長期。

據 StrategyAnalytics 公司預計，2016 年前裝車聯網市場滲透率將達到 19%，在未來 5 年內迎來發展黃金時期，2020 年將達到 49%。不過，值得注意的是，即便外部數據越來越豐富，但可獲取性還不夠高，一方面受目前技術水平所限，車聯網、可穿戴設備等數據采集精度、數據清洗技術和數據質量還達不到實用要求;另一方面，由于體制機制原因，導致行業和區域上的條塊分割，數據割據和孤島普遍存在，跨企業跨行業數據資源的融合仍然面臨諸多障礙。

根據中國信息通信研究院 2015 年對國內 800 多家企業的調研來看，有 50%以上的企業把內部業務平臺數據、客戶數據和管理平臺數據作為大數據應用最主要的數據來源。企業內部數據仍是大數據主要來源，但對外部數據的需求日益強烈。當前，有 32%的企業通過外部購買所獲得的數據;只有18%的企業使用政府開放數據。如何促進大數據資源建設，提高數據質量，推動跨界融合流通，是推動大數據應用進一步發展的關鍵問題之一。

總體來看，各行業都在致力于在用好存量資源的基礎之上，積極拓展新興數據收集的技術渠道，開發增量資源。社交媒體、物聯網等大大豐富了數據采集的潛在渠道，理論上，數據獲取將變得越來越容易。

(二) 分布式存儲和計算技術夯實了大數據處理的技術基礎

大數據存儲和計算技術是整個大數據系統的基礎。

在存儲方面，2000 年左右谷歌等提出的文件系統(GFS)、以及隨后的 Hadoop 的分布式文件系統 HDFS(Hadoop Distributed File System)奠定了大數據存儲技術的基礎。

與傳統系統相比，GFS/HDFS 將計算和存儲節點在物理上結合在一起，從而避免在數據密集計算中易形成的 I/O吞吐量的制約，同時這類分布式存儲系統的文件系統也采用了分布式架構，能達到較高的并發訪問能力。

在計算方面，谷歌在 2004 年公開的 MapReduce 分布式并行計算技術，是新型分布式計算技術的代表。一個 MapReduce 系統由廉價的通用服務器構成，通過添加服務器節點可線性擴展系統的總處理能力(Scale Out)，在成本和可擴展性上都有巨大的優勢。

(三) 深度神經網絡等新興技術開辟大數據分析技術的新時代

大數據數據分析技術，一般分為聯機分析處理(OLAP，OnlineAnalytical Processing)和數據挖掘(Data Mining)兩大類。

OLAP技術，一般基于用戶的一系列假設，在多維數據集上進行交互式的數據集查詢、關聯等操作(一般使用 SQL 語句)來驗證這些假設，代表了演繹推理的思想方法。

數據挖掘技術，一般是在海量數據中主動尋找模型，自動發展隱藏在數據中的模式(Pattern)，代表了歸納的思想方法。

傳統的數據挖掘算法主要有：

(1)聚類，又稱群分析，是研究(樣品或指標)分類問題的一種統計分析方法，針對數據的相似性和差異性將一組數據分為幾個類別。屬于同一類別的數據間的相似性很大，但不同類別之間數據的相似性很小，跨類的數據關聯性很低。企業通過使用聚類分析算法可以進行客戶分群，在不明確客戶群行為特征的情況下對客戶數據從不同維度進行分群，再對分群客戶進行特征提取和分析，從而抓住客戶特點推薦相應的產品和服務。

(2)分類，類似于聚類，但是目的不同，分類可以使用聚類預先生成的模型，也可以通過經驗數據找出一組數據對象的共同點，將數據劃分成不同的類，其目的是通過分類模型將數據項映射到某個給定的類別中，代表算法是 CART(分類與回歸樹)。企業可以將用戶、產品、服務等各業務數據進行分類，構建分類模型，再對新的數據進行預測分析，使之歸于已有類中。分類算法比較成熟，分類準確率也比較高，對于客戶的精準定位、營銷和服務有著非常好的預測能力，幫助企業進行決策。

(3)回歸，反映了數據的屬性值的特征，通過函數表達數據映射的關系來發現屬性值之間的一覽關系。它可以應用到對數據序列的預測和相關關系的研究中。企業可以利用回歸模型對市場銷售情況進行分析和預測，及時作出對應策略調整。在風險防范、反欺詐等方面也可以通過回歸模型進行預警。

傳統的數據方法，不管是傳統的 OLAP 技術還是數據挖掘技術，都難以應付大數據的挑戰。首先是執行效率低。傳統數據挖掘技術都是基于集中式的底層軟件架構開發，難以并行化，因而在處理 TB 級以上數據的效率低。其次是數據分析精度難以隨著數據量提升而得到改進，特別是難以應對非結構化數據。

在人類全部數字化數據中，僅有非常小的一部分(約占總數據量的 1%)數值型數據得到了深入分析和挖掘(如回歸、分類、聚類)，大型互聯網企業對網頁索引、社交數據等半結構化數據進行了淺層分析(如排序)，占總量近 60%的語音、圖片、視頻等非結構化數據還難以進行有效的分析。

所以，大數據分析技術的發展需要在兩個方面取得突破，一是對體量龐大的結構化和半結構化數據進行高效率的深度分析，挖掘隱性知識，如從自然語言構成的文本網頁中理解和識別語義、情感、意圖等;二是對非結構化數據進行分析，將海量復雜多源的語音、圖像和視頻數據轉化為機器可識別的、具有明確語義的信息，進而從中提取有用的知識。

目前來看，以深度神經網絡等新興技術為代表的大數據分析技術已經得到一定發展。

神經網絡是一種先進的人工智能技術，具有自身自行處理、分布存儲和高度容錯等特性，非常適合處理非線性的以及那些以模糊、不完整、不嚴密的知識或數據，十分適合解決大數據挖掘的問題。

典型的神經網絡模型主要分為三大類：第一類是以用于分類預測和模式識別的前饋式神經網絡模型，其主要代表為函數型網絡、感知機;第二類是用于聯想記憶和優化算法的反饋式神經網絡模型，以 Hopfield的離散模型和連續模型為代表。第三類是用于聚類的自組織映射方法，以 ART 模型為代表。不過，雖然神經網絡有多種模型及算法，但在特定領域的數據挖掘中使用何種模型及算法并沒有統一的規則，而且人們很難理解網絡的學習及決策過程。

隨著互聯網與傳統行業融合程度日益加深，對于 web 數據的挖掘和分析成為了需求分析和市場預測的重要段。Web 數據挖掘是一項綜合性的技術，可以從文檔結構和使用集合中發現隱藏的輸入到輸出的映射過程。

目前研究和應用比較多的是 PageRank 算法。PageRank是Google算法的重要內容，于2001年9月被授予美國專利，以Google創始人之一拉里·佩奇(Larry Page)命名。PageRank 根據網站的外部鏈接和內部鏈接的數量和質量衡量網站的價值。這個概念的靈感，來自于學術研究中的這樣一種現象，即一篇論文的被引述的頻度越多，一般會判斷這篇論文的權威性和質量越高。

需要指出的是，數據挖掘與分析的行業與企業特點強，除了一些最基本的數據分析工具外，目前還缺少針對性的、一般化的建模與分析工具。各個行業與企業需要根據自身業務構建特定數據模型。數據分析模型構建的能力強弱，成為不同企業在大數據競爭中取勝的關鍵。

數據數據劃分數據清洗