大數據的產業鏈分析大數據完整的產業鏈構成如下圖所示,可分為標準與規范、數據安全、數據采集、數據存儲與管理、數據分析與挖掘、數據運維以及數據應用幾個環節,覆蓋了數據從產生到應用的整個生命周期。
1、數據標準與規范
大數據標準體系是開展大數據應用的前提條件,沒有統一的標準體系,數據共享、分析、挖掘、決策支持將無從談起。大數據標準包括體系結構標準、數據格式與表示標準、組織管理標準、安全標準和評測標準。在標準化建設方面,參與單位主要包括中國電子技術標準化研究院、各個數據庫公司、數據擁有部門以及各個行業的標準化組織。
2、 數據安全
隨著海量數據的不斷增加,對數據存儲和訪問的安全性要求越來越高,從而對數據的訪問控制技術、加密保護技術以及多副本與容災機制等提出了更高的要求。另外,由于大數據處理主要采用分布式計算方法,這必然面臨著數據傳輸、信息交互等環節,如何在這些環節中保護數據價值不泄露、信息不丟失,保護所有站點的安全是大數據發展面對的重大挑戰。在大數據時代,傳統的隱私數據內涵與外延有了巨大突破和延伸,數據的多元化與彼此的關聯性進一步發展,使得對單一數據的隱私保護方法變得極其脆弱,需要針對多元數據融合的安全提出。在數據安全環節上主要參與單位包括中國電子科技集團公司第30研究所以及奇虎 360、瑞星等殺毒軟件公司。
3 、數據采集
政府部門、以 BAT 為代表的互聯網企業、運營商是當前大數據的主要擁有者。除此之外,利用網絡爬蟲或網站公開 API 等途徑對網絡數據進行采集也是大數據的主要來源。現實世界中的數據大多不完整或不一致,無法直接進行數據挖掘或挖掘結果不理想,需要對采集的數據進行填補、平滑、合并、規格化、檢查一致性等數據預處理操作,并且往往需要大量的人工參與,因此數據采集和清洗成為大數據產業鏈的一個重要環節。
4 、數據存儲與管理
大數據存儲與管理的主要參與者以傳統數據庫企業為主,國際上主要有 IBM、Oracle、Intel、Green-plum、infor Matri Cloudera 等; 國內主要有中興、華為、用友、浪潮、托爾思、數據堂、九次方、億贊普、達夢等。各家企業針對大數據應用開展各具特色的數據庫架構和數據組織管理研究,形成針對具體領域的產品。
5 、數據分析與挖掘
大數據分析與挖掘的意圖主要集中在兩方面: 一是從大量的機構結構化和半結構化數據中分析出計算機可以理解的語義信息或知識,二是對隱性的知識,如關聯情況、意圖等進行挖掘。常用的方法包括分類、聚類、關聯規則挖掘、序列模式挖掘、時間序列分析預測等。數據分析與挖掘的核心算法與軟件主要掌握在大型數據庫公司及高校的手里,國際上主要參與者包括 IBM、甲骨文、微軟、谷歌、亞馬遜、Facebook 等,國內主要參與單位包括數據庫企業、高校、以 BAT 為代表的大型互聯網企業等。數據分析與挖掘的能力直接決定了大數據的應用推廣程度和范圍,是大數據產業的核心。
6、 數據運維
由于數據的重要性得到普遍認可,除政府部門不具備數據運維服務條件外,數據的采集者通常就是數據運維者。各地政府方面則通常利用大數據平臺建設來推動政府大數據的公開與共享,如云上貴州,吸引個人和企業用戶開展創新與創業,積極推動大數據的增值服務。
7、 數據應用
大數據對傳統信息技術帶來革命性挑戰,正在重構信息技術體系和產業格局。國內以阿里巴巴、百度、騰訊、人大金倉、浪潮、曙光、南大通用為代表的互聯網企業、云計算和數據庫廠商紛紛加大應用推廣力度,在國際先進的開源大數據技術基礎上,形成獨自的大數據平臺構建和應用服務解決方案,以支撐不同行業不同領域的專業化應用。雖然這些企業在平臺構建上有著得天獨厚的優勢,但是在某些具體業務領域,并不擅長或者關切。傳統企業以及從事大數據的微型企業是具體業務領域上大數據應用的主力軍。應用是大數據價值的體現,是大數據發展的原始推動力。當前大數據的應用正倒逼軟件技術、數據架構、數據共享方式的轉變,在轉變思維過程中需要積極轉變思維,明確出數據共享的方式是什么,數據擁有者的利益如何平衡,商業模式如何開展等等。