近年來,隨著互聯網、物聯網、云計算、三網融合等技術的發展,大數據(Big Data)及其挖掘利用問題,成為了產業界、學術界與政府部門各方面關注的熱門話題,并正在從不同方面促進著我們的生活、工作和思維方式的改變。如何加強對具有文化內涵和特征的大數據的利用,也是需要我們,特別是從提高對各類文化資源管理和利用水平的角度,進一步加以關注的問題。
什么是大數據
所謂大數據是指數據量大。但究竟怎樣的量才算大,目前并沒有統一的定義。一般認為,大數據的數量級至少應該達到“太字節”(Terabyte, TB)以上。因為達到了這個量級以上的數據,利用現有IT技術和軟硬件工具將難以實現在可容忍的時間內,對其進行有效的感知、獲取、管理、處理和利用,必須要開發新的數據管理和處理軟硬件技術,才能滿足應用需求。
除了數據量浩大外,大數據還有兩個特點,一是模態繁多,包括結構化數據、半結構化數據和非結構化數據;二是生成快速,大數據往往以數據流的形式動態、快速地產生,具有很強的時效性,用戶只有把握好對數據流的掌控才能有效利用這些數據,充分挖掘其中的價值。
從戰略高度重視文化資源管理
關于文化資源及其管理的內涵,學術界有著不同的認識。按照維基百科的解釋,所謂文化資源管理(Cultural Resource Management, CRM)是針對任何與文化相關的資產的管理,主要包括歷史的、技術的、社會的、建筑的或科學價值的文化遺產等,也包括當代的、創新的科技與文化資產。
由此可以看出,對于一個國家和民族來講,文化資源是其文明發展的歷史過程中沉積形成的獨有資產,具有唯一性和不可擴展性等特點,因此,具有不可估量的文化、經濟、社會價值和意義,是代表一個國家文化軟實力的核心內容和象征要素,也是各類文化藝術產品創作的基礎資料和源泉。所以,我們應該從戰略的高度來重視文化資源的管理和保護問題。
用大數據技術推進文化資源管理
僅從數據量大這一特點,可將大數據分為兩類,一類是基于互聯網、物聯網而不斷快速、隨機產生的大量多形態的數據,可稱為非結構化數據或隨機大數據;另一類則是按照一定的計劃和規則,有意識地采集的大量具有不同形態的數字化信息和數據,可稱為結構化數據或有序大數據。從文化資源管理的角度看,這兩類大數據都存在,并具有很大的利用價值。
其中一類大數據是由大量的網絡搜索、下載、點擊、上傳等而形成的隨機大數據。對這些數據進行挖掘分析的一個基本用途之一,就是對文化消費行為的分析。
通過對不同互聯網用戶群體的文化消費特點和偏好的分析,將有利于更全面地了解各類文化產品、文化活動的市場需求,更有針對性地開發創作相關內容、形式的文化產品,以滿足各類消費者的需要,這對于提高文化產業的生產效率是具有重要意義的。
另一類大數據是有計劃地采集的各類歷史文化資源數字化信息。對這類數據的有效管理和充分挖掘、利用,或許是大數據及其分析技術更為重要的應用角度和需求。
隨著數字化技術在文化資源管理中的應用,各類博物館、圖書館,以及其他社會組織,都在對各類物質與非物質文化遺產開展數字化保護工作,以便更好地實現對歷史文化資源的保護、保存和利用。
這些數字化文化資源信息的不斷產生和完善,在客觀上為我們建立了一個龐大的、具有大數據特征的數據庫和資源庫的同時,為我們進一步加強對中華民族的社會、文化發展歷史和特點的系統研究,加深對中華文化精髓的認知,辨識“基因”,延續文脈,確定我國文化建設應加強保護、傳承、傳播的中華文化重點內容,制定國家文化發展戰略,提供了前所未有的基礎和條件,從而不但可以大大提高我們對于中華文化內涵、特點和歷史的研究效率,更有可能實現與得到很多僅依靠傳統的研究方法所無法得到的,甚至難以想象的效果和結果。
但由于這些數據資源分散在不同的單位、部門,又沒有統一的格式標準,能否在現行體制下,采用技術手段,按照一定的共享共建機制,通過一個實際或虛擬數據交匯中心或平臺的構建,整合各類數據資源,并在此基礎上,進一步發揮計算機中文信息處理、模式識別、知識挖掘等大數據分析技術的優勢,面向各類文化研究、文化藝術創作、文化管理等用戶提供更為優質、高效的信息服務,便成為了一個值得文化與科技相關領域共同探討和推進的任務。
為了實現以上文化資源管理目標,更好地發揮大數據分析技術的優勢,促進文化發展,除應鼓勵各類文化信息數據擁有部門、企業,結合需求加強對相關軟、硬件及應用系統的開發外,通過實施跨部門的“中華文化資源保護與傳承促進工程”等方式,在促進相關文化資源數據信息資源建設的同時,促進大數據分析相關先進信息技術的應用,加強對于中華文化的系統研究和傳承利用。這對于推動文化體制改革、提升我國文化資源管理與利用水平、加強文化建設、促進文化產業發展、保障文化安全都將具有重要的意義。