文化資源是體現一個國家文化實力的核心要素,也是國家文化及文化產業發展的基礎和源頭。我國對各類物質和非物質文化資源數字化工作的開展,為我們利用大數據分析等先進技術,加強對中華文化的充分認知和深入挖掘利用提供了前所未有的契機和條件。
如何利用大數據等先進信息技術的手段,進一步加深對中華民族幾千年文明史的系統了解和認知,在更好地支撐我國文化產業發展的同時,促進中華文化血脈的傳承延續,是科技部高技術中心在組織開展科技部委托的“國家文化科技創新戰略研究”項目過程中意識到的重大問題。
日前,由該中心主辦的主題為“大數據技術在文化資源管理中的應用”的“西苑沙龍”在京召開。沙龍邀請了國內研究大數據技術和模式識別、中文信息處理、知識挖掘等先進信息技術以及有關文化藝術創作、文化企業等方面的專家學者,圍繞著大數據技術在加強文化資源管理中的作用、需求和技術途徑等方面問題,展開了一場跨學科、跨領域的深刻討論。
歷史文化資源大數據與分析技術
大數據是指數據量大,但究竟怎樣的量才算大,目前并沒有統一的定義。一般認為,大數據的數量級至少應該達“太字節”(tb)以上。因為達到了這個量級以上的數據,利用現有it技術和軟硬件工具將難以實現在可容忍的時間內,對其進行有效感知、獲取、管理、處理和利用,必須要開發新的數據管理和處理軟硬件技術,才能滿足應用需求。
隨著各類數字化文化資源信息的不斷產生,各類數字化文化資源庫的不斷建立與完善,在客觀上為我們建立了一個龐大的、具有大數據特征的數據庫和資源庫。這為我們進一步利用大數據分析等先進的信息技術手段,實現對這些文化資源信息的整合、梳理、分析、凝練,提供了前所未有的基礎和條件。
其中,基于數字化的歷史文化資源大數據是有計劃地對各類歷史文化資源數字化所形成的大數據信息。對這類數據的有效管理和充分挖掘、利用,或許是大數據及其分析技術最為重要的應用角度和需求。
1947年春天,一名牧童在死海附近的一個山洞里發現了一些殘缺不堪的手稿。1948年至1956年間,研究人員又在死海西北基伯昆蘭曠野陸續發現11個藏有手稿的洞穴。十多年間,考古學家發掘出近4萬古卷殘片,種類多達600多種。這些手稿大部分用希伯來文寫在羊皮上,公元前二三世紀到公元70年間寫成,記錄了大量關于《圣經》和基督教起源的重要信息。這在近代考古史上非常罕見,被稱為20世紀最偉大的考古發現之一。這就是著名的“死海古卷”。
利用數據處理技術,“死海古卷”機器近幾年自動修復的效率,已經與數百人類專家過去一個世紀的成果相當。另外,梵高、勃魯蓋爾等大師畫作鑒別精準度達到了95%以上。這些都是目前利用大數據分析技術進行畫作鑒別、古文獻修復、歷史文物分析等取得的驚人成果。
中華文化與信息孤島
一個國家、民族的文化資源是其文明發展的歷史過程中沉積形成的獨有資產,具有唯一性和不可擴展等特點。因此,具有不可估量的文化、經濟和社會價值和意義,是代表一個國家文化軟實力的核心內容和象征要素,也是各類文化藝術產品創作的基礎資料和源泉。
青花瓷背后還有哪些我們不知曉的特點?手工織造對于現代工藝是否有所啟發?經過幾千年的文化沉淀,先輩給我們留下了無數的財富,但僅靠少數的專家一件一件文物的深究,對于進一步發掘文明成果來說,是否仍不成體系,不甚具體,不夠全面?或者在這些文化瑰寶里,有著更多我們不了解的東西?
大數據分析技術在歷史文化分析研究的成果,對于我們進一步加深對中華民族文明發展的歷史,認知、辨識中華文化“基因”、延續文脈,明確我國文化建設應加強保護、傳承和對外傳播的重點內容,制定國家文化發展戰略具有重要的意義。
第三次文物普查表明,現在在不可移動文物總數已經達到了76.6722萬件;在可移動文物,預計在3億件組的規模。每年我國有100個博物館新增,平均三天就出現一個博物館。目前很多博物館、圖書館,以及非物質文化遺產保護組織與部門,正在以不同方式、為不同的應用目的,開展著對各類歷史文化資源的數字化工作,客觀上形成了一個前所未有的難得的中華文化資源大數據匯集。
但由于這些數字化資源分散在不同的單位、部門,且基本沒有統一的格式標準,形成了一系列新的“信息孤島”。出于各種原因,各自獨守一攤,各類數據如果無法匯集到一起,也就難以充分發揮其應有的作用。
文化部民族民間文藝發展中心主任李松認為,傳統文化資源數字化整備技術應用能力低下,體制機制制約使得資源碎片化,行政制約非常嚴重。國家文物局博物館與社會文物司副司長羅靜表示,在數據融合方面,信息的“孤島”也是非常嚴重的。就海量數據來說,如果沒有通過一定的融合、整合,其實它還是海量數據,而不是大數據。此外,文化數據整體框架上面也存在碎片化的狀態。
文化與科技的共同任務
如何消除這些信息孤島?如何有效整合各自整理出的數字化文化資源?如何利用大數據分析技術對這些資源的價值進行進一步的挖掘和利用?
在現行體制下,專家期望通過一定的技術手段,以及適宜的共享共建機制,構建一個實際或虛擬的數據交匯中心或平臺,整合各類數據資源。以便在此基礎上,進一步發揮計算機中文信息處理、模式識別、知識挖掘等大數據分析技術的優勢,加強文化研究,促進我們對中華文化的認知和保護利用。
也正因此,面向各類文化研究、文化藝術創作、文化管理等用戶提供更為優質、高效的信息服務,便成為了一個需要文化與科技相關領域共同探討、推進的任務。
專家們認為,根據歷史文化資源數據信息來源及其結構多元、主要應用領域、方式與用戶多樣等特點,面向歷史文化資源管理的大數據分析系統,應是數據來源和應用端開放的,能夠實現對數據提供相關主體和各類用戶共建共享的數據管理平臺。
為建立開放共享的數據交匯中心,需要建立技術系統構架,并需解決的四方面的技術問題:建立數字化標準;設計統一的跨平臺中間件;實現高效的數據共享;加強對應用于文化資源大數據分析的基礎技術的集成利用。
同時,加強各類數字文化資源的共享利用,不但需要有適宜的技術支撐,同時也需要面對應用需求和客觀現實條件,加強頂層設計,在組織管理模式和保障措施上有所創新。
首先應加強對我國文化數字資源管理的系統規劃。明確總體目標、任務和發展戰略,提出有利于促進國家文化資源信息大數據管理利用的,由國家和社會相關機構共享共建的組織機制、商業模式和技術框架與標準。
第二可通過國家層面的文化資源管理與共享工程的組織,引導有關圖書、文物、非遺保護部門以及各類文化企業、研究機構等有關單位和組織,共同圍繞國家文化資源管理的發展戰略和目標,開展各類歷史文化數字資源庫的建設,及其價值挖掘研究和綜合利用產品開發。
第三可通過建立國家數字文化資源整合管理虛擬平臺等方式,從技術上為各類、各源的文化資源大數據的整合、交匯和綜合利用,以及安全維護、利益分配和知識產權保護等提供支撐。
第四是開展形式多樣的應用示范,選擇若干重點文化主題,組織開展系統深入的文化研究;并充分發揮市場和各類文化企業的作用,開展基于中國歷史文化資源的,形式多樣的文化、藝術服務產品開發,為提升我國文化產品的文化內涵和中華文化的國際傳播力和影響力提供支撐。
“文化原動力是國家建設的基礎性建設,需要科技部跟文化部共同有一些軟研究在頂層設計上,然后在架構好的時候給科技一些力量,余下的由業界來做。”中科院自動化研究所研究員徐波說。
■專家視點
李松 文化部民族民間文藝發展研究中心主任:
我強烈呼吁關注改善文化資源整備的技術環境,包括各類資源搶救、修復、復原、記錄的相關技術,提高各類形式媒介注錄效能的相關技術,加強大數據管理、清晰、分析的相關技術,進一步融合到各類資源信息的標準化體系建設。
我建議在國家戰略層面應該構建大型的文化系統工程,建設文化研究和文化傳承的數字化廣泛應用體系。
羅靜 國家文物局博物館與社會文物司副司長:
從國外來看,行業的數字化相關工作可以分為幾類,政府主導、博物館主導、ngo主導、企業主導的相關工作。從需求提出、數據采集、數據融合、數據挖掘、智慧應用方面來看,大數據技術在文化資源管理中依舊存在很多問題,整體的框架不清楚,而且大多數文化機構在做的工作都是局部的探索性的工作。
孫茂松 清華大學計算機科學與技術系教授:
關于國內對大數據在文化資源管理上的應用,我提出這么兩條建議:1)做基礎的應用。例如,現在所有《二十四史》都已信息化,但處于原生態,連最起碼的分詞都沒有。2)構建中國傳統文化本體體系和知識圖譜的工程。
孫一鋼 中國國家圖書館研究員:
現在是傳統圖書館和數字圖書館并行的階段。數字圖書館很重要,在承擔一個國家文化傳承的職責。從數字圖書館技術服務體系來講,大數據現在面臨著非常嚴重的知識組織理論和系統的研究問題。
徐波 中國科學院自動化研究所研究員:
不管是小數據還是大數據,還是需要有很好的復雜算法來刻畫豐富的內在信息。大數據模式識別技術聚焦,一個是怎么感知深度學習,另一個是認知層面的知識圖譜和推演,這是兩個很共性的問題。
總而言之,我認為整個模式識別技術原來是比較分散的研究模式,可能會面向終極創新大科學工程的研究模式方面發展,然后慢慢逼近人的智能水平。
不管是博物館、圖書館還是非遺,最后形成的就是文本、圖像、影像、聲音,核心就是文化資源的管理和應用。文化的資源管理,首先是應用的問題。
周志華 南京大學計算機軟件新技術國家重點實驗室教授:
數據挖掘也就是機器學習提供數據分析技術再加上數據庫提供數據管理技術一起來成為數據挖掘,這在醫學、考古等方面有諸多的應用。關于大數據,有3個誤區:有大數據,“模型”不重要;大數據,只要“相關”,不要“因果”;大數據,需搭配新的方法。
金海 華中科技大學計算機科學與技術學院教授:
在海量的知識管理和推理方面,通過海量數據甄別推演新的文化知識,這些技術為文化創新提供多元文化要素轉型升華。云計算是大數據技術的支撐環節,對大數據資源挖掘提供了基礎的設施,同時包括大規模的離線數據處理、流式數據處理、內存計算技術等為大數據挖掘提供技術支撐。云計算的主要目的為文化創新提供軟硬件的支撐平臺。
曾成鋼 清華大學美術學院教授:
大數據雖然跟美術沒有直接關聯,但提供了很多支撐技術,對業務來說至關重要,開辟了新的方法和途徑。
關健 上海方正數字出版技術有限公司副總經理:
方正公司利用大數據技術,做了數據收集和聚合的引擎,匯集很多文化教育信息,基于傳統的數據庫技術,做圖書出版類的決策和分析,包括從內容匯聚到最后內容重新組織展現的完整解決方案。
張加萬 天津大學國家示范性軟件學院教授:
大數據技術在文物保護方面相關的工作現在是做得較多的,例如文物的三維數字化及應用等。總的來說,有四個方面的工作是非常重大的。第一,如何把館藏文物的資源和網絡資源進行整合,通過建立分布式、異構、虛擬文物知識庫及應用平臺。不僅要把分析放進去,還要把知識放進去。第二,關于基于大數據準入的標識和鑒別。第三,基于大數據分析的文物劣化機理研究。最后,基于大數據分析的觀眾和游客行為及個性化服務技術。從人、物、環境的角度進行研究,并且來解決服務質量的問題。
許魯 中國科學院計算技術研究所研究員:
從文化資源的管理角度,我們需要公平自由的文化共享,需要大數據技術的支撐,存儲技術的作用明顯。