關(guān)于我們聯(lián)系我們

古籍數(shù)字化國學大數(shù)據(jù)化

責任編輯：editor007 |來源：企業(yè)網(wǎng)D1Net 2013-09-16 12:20:39 本文摘自：《光明日報》

訪談嘉賓：趙敏俐：首都師范大學文學院教授、中國詩歌研究中心主任

孫茂松：清華大學計算機科學與技術(shù)系教授、中國中文信息學會副理事長

張濤：北京師范大學易學文化研究院教授、院長

尹小林：首都師范大學電子文獻研究所所長

特邀主持人：杜曉勤（北京大學中文系教授、中國古代詩歌研究中心副主任）

主持人：21世紀進入第二個十年，信息技術(shù)得到突飛猛進的發(fā)展。我們正在進入一個全方位的“大數(shù)據(jù)時代”，呈現(xiàn)出從“云計算”到“大數(shù)據(jù)”的發(fā)展趨勢。這個發(fā)展趨勢不是虛空的，而是正在對社會生活和學術(shù)研究產(chǎn)生著實實在在的重大影響。今天在座的都是中國古籍數(shù)字化事業(yè)的參與者和見證人。我們希望通過這樣一個小型的討論，與廣大讀者一起分享各位關(guān)于古籍整理與國學研究如何應(yīng)對“大數(shù)據(jù)時代”問題的思考。

一

趙敏俐：“大數(shù)據(jù)時代”已經(jīng)降臨了。它表現(xiàn)在各個領(lǐng)域，不僅僅是生產(chǎn)領(lǐng)域，還包括知識領(lǐng)域。“大數(shù)據(jù)時代”是一場革命，它不僅會促進經(jīng)濟發(fā)展、科技進步，在文化領(lǐng)域也會起到巨大的作用。十七屆六中全會《關(guān)于深化文化體制改革、推動社會主義文化大發(fā)展大繁榮若干重大問題的決定》明確提出：“要加強文化典籍整理和出版工作，推進文化典籍資源數(shù)字化建設(shè)。”我們應(yīng)站在“大數(shù)據(jù)時代”這樣一個新的高度，來理解和認識中央推進古籍數(shù)據(jù)化事業(yè)的戰(zhàn)略意義。

主持人：趙敏俐教授，您是倡導(dǎo)古籍數(shù)字化的重要學者，而且已經(jīng)主持研制了一些古籍數(shù)據(jù)庫。請問您對“大數(shù)據(jù)時代”之“大”是如何理解的？

趙敏俐：我想，“大”應(yīng)該包括兩個方面的內(nèi)容。首先是規(guī)模上的“大”。按尹小林的提法，幾百萬到一千萬字的數(shù)據(jù)庫算是小型數(shù)據(jù)庫；幾千萬到一億字的數(shù)據(jù)庫算是中型數(shù)據(jù)庫；從一億字到十億字算是大型數(shù)據(jù)庫，超過十億字以上的應(yīng)該算是超大型數(shù)據(jù)庫。

另一方面是功能上的“大”。功能的強大是超大規(guī)模古籍數(shù)據(jù)庫很重要的標志。怎樣才能算功能的強大？到目前為止，我們雖然已經(jīng)做了很多古籍數(shù)字化的工作，比如把古籍做了一般的簡單掃描，入庫后也可以進行一般的查找，實現(xiàn)了一部分功能，但這個功能和我們想做的超大規(guī)模古籍數(shù)據(jù)庫還有差距。按照我的理解，超大規(guī)模古籍數(shù)據(jù)庫應(yīng)該有這樣幾方面的特點：第一，因為它有超大規(guī)模的數(shù)據(jù)量，其中文獻種類和內(nèi)容都非常豐富，有更大的包容性。和過去中小規(guī)模數(shù)據(jù)庫只是某一個類別、某一個專題的內(nèi)容相比，通過這樣的數(shù)據(jù)庫進行綜合整理之后，可以把更多更豐富的信息匯集在一起，可以獲得更多、更全面、更準確的資料，為研究者提供更多的便利。第二，超大規(guī)模古籍數(shù)據(jù)庫的建設(shè)因為有更多技術(shù)層面的支持，所以能夠?qū)崿F(xiàn)更多的功能，如對古籍的自動識別、自動標點、自動排版、智能檢索、智能分析，可實現(xiàn)多種數(shù)據(jù)格式的轉(zhuǎn)換和輸出，可以滿足文、史、哲、經(jīng)各學科研究所提出的各種特殊需要，更能適應(yīng)跨學科綜合研究的高級需要。只有具備了這樣兩個特點，才能稱之為超大規(guī)模古籍數(shù)據(jù)庫。

為什么“大”就會帶來一些功能上的突破呢？比如說，關(guān)于“中國古代詩詞韻律的發(fā)展狀況”這一研究課題。一直以來，我們的理想是把先秦、兩漢、魏晉南北朝到唐宋時代每一首詩、每一首詞的每一個字的讀音、聲調(diào)、韻部等全都統(tǒng)計出來，由此再考察中國古代詩歌聲律的發(fā)展，弄清它們之間的變化。這在過去是不可能做到的。現(xiàn)在有了中國古代詩歌文本和古代漢語音韻數(shù)據(jù)庫，這樣的工作就可以做了。超大規(guī)模古籍數(shù)據(jù)庫的建設(shè)，可以使得學者們從那種非常繁重的翻檢古書的勞動當中騰出更多的時間，發(fā)現(xiàn)前人未能發(fā)現(xiàn)的課題，或者前人雖已發(fā)現(xiàn)但囿于精力和技術(shù)條件未能研究的課題，進行更多的創(chuàng)造性勞動。將人文社會科學的研究和現(xiàn)代科學技術(shù)手段完美結(jié)合起來，是未來的發(fā)展方向。超大規(guī)模古籍數(shù)據(jù)庫所帶來的功能是不可比擬的，對于學術(shù)的發(fā)展和人文學科的建設(shè)的推動都是巨大的。

再比如，《二十四史》的標點。這項工作從上世紀五十年代末開始，先后參與的專家學者上百人，歷時20年才得以完成。如果用同樣的傳統(tǒng)人工方式，來標點總字數(shù)是《二十四史》25倍的《四庫全書》，同樣人力需要工作500年時間，這顯然是不現(xiàn)實的。今天就不一樣了，借助于現(xiàn)代技術(shù)手段來標點，效率可以提高50倍以上。也就是說，最多10年就可以完成《四庫全書》的標點整理工作。而且在這期間，技術(shù)還會不斷進步，時間因此還會縮短。我們預(yù)計，用5到8年把這個工作完成，是有相當把握的。

孫茂松：利用現(xiàn)代信息技術(shù)，將傳統(tǒng)文化典籍以數(shù)字化“大數(shù)據(jù)”的形式保留下來，并且發(fā)揚光大，正在日益引起許多國家，特別是發(fā)達國家的重視。一個典型的例子是，由哈佛大學、麻省理工學院、Google和大英百科全書的專家學者組成的一個研究小組，2011年1月在著名的《科學》雜志發(fā)表了一篇題為《基于數(shù)以百萬計數(shù)字化圖書的文化定量分析》的文章。該項工作利用Google Books中數(shù)字化質(zhì)量比較高的超過500萬種圖書，時間跨度從公元1500年到公元2000年，規(guī)模總計5000億詞，其中英文3610億詞、法文450億詞、西班牙文450億詞、德文370億詞、中文130億詞、俄文350億詞，以及希伯來文20億詞（據(jù)估計，占人類有史以來出版圖書總種數(shù)的4%），借鑒基因組學（Genomics）的思路，對這些圖書組成的“大數(shù)據(jù)”進行分析，如發(fā)現(xiàn)單詞或人名在歷史文獻中隨時間變化的頻率，由此推導(dǎo)出人類文化的發(fā)展趨勢和演變規(guī)律。他們把這個全新的研究領(lǐng)域稱為“文化組學”（Culturomics）。這個例子表現(xiàn)了歷史文獻“大數(shù)據(jù)”建設(shè)與高水平研究的成功結(jié)合。值得注意的是，Google Books中的中文圖書其實已經(jīng)具有相當規(guī)模了，這顯然對我們形成了一種巨大壓力。還需要指出的一點，與現(xiàn)實世界中源源不斷產(chǎn)生的科研大數(shù)據(jù)、互聯(lián)網(wǎng)大數(shù)據(jù)、企業(yè)大數(shù)據(jù)、感知大數(shù)據(jù)相比，歷史文獻大數(shù)據(jù)的總量規(guī)模要小得多，并且基本上已經(jīng)“固化”了，原則上不會產(chǎn)生新的數(shù)據(jù)，數(shù)字化一點就離目標近一點，只要我們本著“愚公移山”的精神，就一定可以完成中國古籍數(shù)字化的歷史重任。　二

主持人：標點整理《四庫全書》的藍圖真是令人振奮。我在想，如果把它作為我們國家應(yīng)對大數(shù)據(jù)時代的挑戰(zhàn)，一個率先建設(shè)的超大規(guī)模古籍數(shù)據(jù)庫，一個文化強國的龍頭工程，諸位專家認為會有怎樣的文化意義和社會影響？

張濤：《四庫全書》的整理是一個意義非凡的大型項目。如何更好地閱讀和使用《四庫全書》，怎樣進一步挖掘其在各個方面的價值，實際上也是我們古典文獻學、歷史文獻學，特別是新興的數(shù)字文獻學學科建設(shè)和學術(shù)發(fā)展需要面對的一個重要課題。

根據(jù)我對古籍的認識，《四庫全書》的版本，也就是庫本，其文獻價值不容低估。有許多重要典籍，庫本是最好的。而要深度挖掘和廣泛應(yīng)用庫本在學術(shù)研究、文化推廣、社會影響等方面的價值，就需要超大規(guī)模數(shù)據(jù)庫的建設(shè)。

《易經(jīng)》是群經(jīng)之首。我們最近幾年一直在做易學典籍的整理研究工作，其中一個重要項目就是與首都師范大學電子文獻研究所合作研發(fā)《中華易學全書》。這是一次大型專題數(shù)據(jù)庫建設(shè)，是古籍數(shù)字化的一個很好的示范項目，也是我們進一步深刻認識數(shù)字文獻學之價值和意義的一個重要切入點。

《四庫》經(jīng)部易類圖書共有158種，1757卷，2400多萬字，可謂集大成，都是經(jīng)典中的經(jīng)典。這說明四庫館臣的學術(shù)眼光、文化修養(yǎng)和研究水平是值得景仰和稱道的，而數(shù)據(jù)庫的建設(shè)又凸顯了這些易學典籍的價值。尤其現(xiàn)在是一個讀圖時代，需要有高清晰度的易圖。以前出書的時候，光易卦符號和易圖就很難弄好，現(xiàn)在首都師范大學電子文獻研究所把這個問題解決了。有了高清晰度的易圖，對易學研究者來說是一個大大的驚喜，其中的學術(shù)價值自然也是毋庸置疑的。

另外我認為，雖然《四庫全書》的紙質(zhì)版印了這么多，但翻閱、查找極其不便。盡管現(xiàn)在已有可以檢索的電子版，但沒有標點整理，存在不少問題。因此，超大規(guī)模古籍數(shù)據(jù)庫建設(shè)，先選擇《四庫全書》作為一個切入點，以后再選擇更多的文化經(jīng)典，這是切實可行、簡捷高效的工作思路，也符合學術(shù)研究的發(fā)展規(guī)律。

國家要求中華文化應(yīng)以更大的步伐走出去，并不斷擴大在世界文明對話中的話語權(quán)，大規(guī)模古籍數(shù)據(jù)化正順應(yīng)了這一要求，將大大助力中華文化的對外傳播，助力更好地搭建中外文明對話的橋梁，推動人類文明進一步向前發(fā)展。

孫茂松：可以預(yù)期，這個古籍數(shù)據(jù)庫一旦建成，將對推動我國的文化傳承事業(yè)發(fā)揮重要作用，尤其是為相關(guān)研究的開展提供堅實的數(shù)據(jù)基礎(chǔ)。我在前面講過，國際上基于歷史文獻數(shù)據(jù)庫開展的研究是成果眾多的。如哈佛大學和麻省理工學院的學者2007年10月在著名的《自然》雜志上發(fā)表的文章《語言演化動力學的定量化》，利用一個規(guī)模近1800萬詞、跨度長達1200年的英語歷時語料庫CELEX，通過定量分析揭示了英語不規(guī)則動詞向規(guī)則動詞的演化規(guī)律。再如，多倫多大學的學者最近借助計算機統(tǒng)計技術(shù)對大約100多萬份中世紀英國的契據(jù)（其中大多數(shù)契據(jù)都沒有標明年代）進行斷代：他們使用1萬份署有年代的契據(jù)，考察所使用的語言隨時間的變化情況，以此來確定其他契據(jù)的年代，取得了有價值的實驗結(jié)果。此外，從2007年開始，歐洲每年都舉辦“文化遺產(chǎn)、社會科學和人類學中的語言技術(shù)論壇”（LaTeCH），研討的話題包括：文化遺產(chǎn)、社會科學和人類學中的知識表示、知識發(fā)現(xiàn)和文本挖掘、本體、數(shù)據(jù)模型和層級體系的自動構(gòu)建和標準化、語篇分析、不同來源、載體信息的鏈接和檢索等。我國在這方面的研究實際上是落后了，需要奮起直追。依托“超大規(guī)模古籍數(shù)據(jù)庫”，可做的事情有很多，如計算機自動作詩和集句、歷史文獻斷代和作者推斷、中國歷史典籍和古典文學作品的詞匯層語言加工、中國傳統(tǒng)文化本體體系和知識圖譜構(gòu)建、中國傳統(tǒng)文化基因在現(xiàn)代生活中使用狀況大規(guī)模量化調(diào)查等，囿于時間關(guān)系，我在這里就不展開談了。

關(guān)鍵字：數(shù)據(jù)化數(shù)字化

熱文