摘要
據IDC的預測,2012年的數字化內容將增長到2.7ZB,較2011年增長48%。至2015年,數字化內容將以火箭式的速度逼近8ZB。大數據的時代已經到來,并且大數據在未來的時間內將影響著政府、企業以及個人的工作與生活,在此環境下,數據將成為與人財物比肩的資源,面對如此寶貴的財富,如何讓大數據發揮大價值已經成為政府、企業以及信息化廠商急需解決的問題,同方在國內率先提出數據資源體系的概念,通過數據資源體系讓大數據發揮大價值。
如何發揮數據的價值
眾所周知,大數據的時代已經到來,在大數據時代,數據的存儲也好、數據的整合加工、分析挖掘也罷,都是為了使用數據,讓數據發揮最大價值,現階段在政府機關及企業中對數據進行挖掘分析讓其發揮最大價值的方法主要有兩種,一種是信息化程度較高,技術實力較強的政府機關或企業,通過自有的技術讓數據發揮最大的價值,典型的代表如國外的沃爾瑪、亞馬遜、谷歌等公司,國內的阿里巴巴、百度等公司,這些公司在數據存儲、整合加工、分析挖掘及應用方面有業內較好且領先的技術,但是所具有的技術都是為了滿足自身業務發展的需要而開發設計,不對外公布;另一種是采用市場中主流的一些數據挖掘工具、數據分析工具、商業智能工具對已有的數據進行相關的挖掘、分析,讓其產生價值,采用此類方法進行數據整合加工、分析挖掘的用戶,可以達到初步的數據分析要求,但是由于其涉及的數據量巨大、數據種類眾多、數據結構復雜、數據之間相互獨立缺少關聯關系、數據覆蓋的業務面較廣,僅是通過一些數據分析挖掘工具很難讓已有數據發揮其最大價值。因此,讓大數據發揮最大價值,不僅要采用數據分析挖掘等相關工具,更重要的是從數據的本質和數據所描述的業務出發,規劃和整理數據,建立起數據之間相互的關聯關系,并體系化對數據進行管理,才有可能讓數據源源不斷的、最大化的發揮其價值。
同方在大數據領域率先提出了數據資源體系的概念,數據資源體系的形成是對數據進行規劃設計,圍繞用戶的核心目標,采用頂層設計的方法對核心目標進行層層的分解,形成可落實各層級目標的指標體系,并且以指標體系為基礎,形成可描述業務、存儲數據、描述數據的元數據體系,并且以元數據體系為指導,形成一套即可以滿足用戶各層級的應用需求,又能夠讓數據源源不斷、最大化發揮價值的數據資源體系。
數據資源體系的形成,首先要對數據進行資源化,然后將數據資源進行體系化管理,下面將對數據資源體系的形成進行詳細分析。
如何讓數據“資源化”
首先,數據是資源,是可以與人、財、物比肩的資源,更進一步數據已形成與石油、煤炭等相當的戰略資源,與其他資源相同,數據也需要采用科學的方法進行開采、挖掘才可能發揮出其應有的價值,與其他資源不同的是,數據是可再生、可重復利用的資源,并且只要通過科學的方法和技術對數據進行挖掘,就可以讓數據源源不斷的發揮他的價值。中國的信息化產業經過近幾十年的發展,在各行業、各領域已經積累了大量的數據,據有關機構調查,這些已經產生的數據中95%以上的數據都存放在各自的存儲設備或硬盤中,自產生之后就沒有經過任何使用,一直屬于沉睡狀態,因此,這些數據也就不產生任何價值,也就不能稱之為資源。對于此類數據如不能讓其成為資源,并發揮價值,對于數據的擁有者來說,數據的存儲與維護將會無止境的投入,這些無價值的投入將會給數據的擁有者帶來巨大的負擔,而這個負擔又不能丟棄,必須由數據擁有者來承擔,因為這些數據的擁有者始終認為,這些數據是其擁有的具有無限價值的資源,如何喚醒這些沉睡中的數據,并讓其真正意義上成為資源是現階段各行業、各領域的數據擁有者都在思考,并力爭解決的問題。
對于以上問題的解決,首先需要將沉睡的數據喚醒,也就是將數據進行資源化,讓其真正意義上成為數據資源,并將所形成的數據資源進行體系化管理,最終形成數據資源體系。分析以上問題,數據不能形成資源,不能發揮其價值的原因主要有以下兩點:
第一、已經存在的數據相互獨立,沒有建立相互的關聯關系,而數據價值的產生往往需要從多維度、多角度分析相關數據才可能會挖掘出其價值;
第二、數據的存儲與使用缺乏統一的規劃設計,已有的數據大多數來源于是已經建立的各類業務系統,而各業務系統都是為了滿足各自業務板塊的需要而建立,缺乏統一的規劃和設計,因此,對于已有數據的存儲和使用以及新生數據的存儲和使用缺乏統一的規劃和設計。
因此,將數據形成數據資源主要需要解決以上兩個問題,對于數據的統一規劃和設計同方采用頂層設計的方法,從用戶的核心目標出發,站在全局的角度規劃和設計數據采集、存儲、整合加工、分析挖掘及應用等方面的標準和規則,并通過頂層設計的方法將核心目標自頂向下進行層層分解,分解為一系列具體的工作目標和工作任務,層層貫徹實施,并通過工作部署、跟蹤、監測、評價、調整、反饋等一系列手段和措施,確保各項工作與核心目標保持一致,并且將已經產生或以后產生的數據規劃到各層級目標及任務中,在此過程中,將納入到規劃體系內的數據通過指標和元數據的方法進行描述,將數據分解為“細粒度的數據元素+相對粗粒度的數據集及其組織結構描述”,把數據元素(最小的不可再分的信息單元)做為數據資源的最小描述與管理單位,基于各種數據元素的按需組合形成面向實際業務、管理、服務需要的數據集并對數據集的構成形式和組織關系提供統一規范的描述形式,形成粗粒度的資源管理單元,再把數據元素和數據集用資源管理的手段和方法組織在一起,實現數據的資源化。
如何讓數據資源體系化
數據要發揮價值,首先是將數據形成資源,對于已經形成的數據資源只有通過科學的技術和方法進行管理和使用才可以不斷的發揮數據資源的價值,在此過程中對于數據資源的不斷使用,需要一個科學合理的管理和保障體系做支撐,才能讓數據資源源源不斷的發揮最大價值,因此需要將已形成的數據資源進行體系化管理,從而形成數據資源體系。
讓數據資源體系化,首先對于體系的規劃設計也要采用頂層設計的方法,圍繞著組織的核心目標,將已經形成的數據資源進行規劃和設計,將已經通過指標與元數據描述的數據資源按照統一的規劃設計形成指標體系,并以指標體系為基礎形成元數據體系,以指標體系、元數據體系為指導逐步完成數據的采集、整合加工、綜合應用、共享發布、信息服務與推送等一系列數據資源生產的流程,從而將整個過程形成一套完整的體系,即數據資源體系。
數據資源體系讓數據發揮價值
在形成的數據資源體系中,擴展是全方位的,指標可以通過擴充其屬性來不斷完善,并可以通過資源管理手段進行擴充和增加,以此支持數據元素級別的資源增長;而數據集更是可以隨時按需創建,只要數據元素足夠全面,針對每一業務需要都可以創建一個特定的數據集來全面支撐,這樣就可以最大程度的滿足各種不同的數據層面需求,從而最大程度發揮數據的價值。
小結
大數據時代已經來臨,政府機關及企事業單位對于數據價值挖掘的需求也越來越多,發揮數據的價值,不僅僅是使用數據分析挖掘工具,更應該從對數據的規劃設計做起,通過數據資源體系為數據源源不斷發揮其最大價值打好最結實的基礎,最終讓大數據發揮數據的最大價值。