甲骨文研究搭上大數(shù)據(jù)快車
甲骨文研究中,考釋和綴合是公認的重點和難題。隨著時代的發(fā)展,傳統(tǒng)的甲骨文研究手段逐漸遇到瓶頸:已發(fā)現(xiàn)的5000多個甲骨文字中能夠明確破譯出來的只有1500字左右,余下的3000多字,或音不可卒讀,或義不可明喻,或形不可構(gòu)照,考釋難度非常大,傳統(tǒng)考釋方法效果非常不明顯,如何才能解決這些難題?
探尋大數(shù)據(jù)云計算新路徑
大數(shù)據(jù)、云計算的發(fā)展為甲骨文研究提供了新的路徑和方法。2000年,地處甲骨文發(fā)源地的安陽師范學院組建了甲骨文信息化處理團隊。16年來,圍繞甲骨文信息處理,學院積極整合校內(nèi)資源,組成一支跨專業(yè)、多學科聯(lián)合攻關(guān)的學術(shù)團隊。憑借已經(jīng)建成的甲骨文數(shù)據(jù)庫的優(yōu)勢,安陽師范學院甲骨文信息處理團隊開始嘗試利用語言學、數(shù)學、計算機科學、信息技術(shù)對甲骨文進行語義、語法處理和知識挖掘。
“我們希望通過努力,實現(xiàn)甲骨文研究從傳統(tǒng)的‘文獻查閱—經(jīng)驗積累—突發(fā)冥想的研究范式’到‘大數(shù)據(jù)分析—多源異構(gòu)信息融合—機器學習和知識推理’的新的甲骨文研究范式。”安陽師范學院副院長姚遠峰說。
開發(fā)甲骨文數(shù)字化平臺
開創(chuàng)新的研究范式,就要探索新的研究方法。安陽師范學院甲骨文信息處理團隊根據(jù)成員自身研究方向和甲骨文研究趨勢,重點開展了甲骨文語義、語法、字形、數(shù)據(jù)挖掘研究。
韓江蘇是安陽師范學院歷史與文博學院的博士,在研究中她發(fā)現(xiàn)甲骨文的考辨研究成果豐富,但因為缺乏全面系統(tǒng)的整理,檢索起來非常困難。能不能把圖、文、字結(jié)合起來,開發(fā)一個既全面又便捷的信息化資料庫?為了將這一想法付諸實踐,2001年,韓江蘇牽頭成立了“甲骨文信息化課題組”,并于2004年申報國家社科基金課題。十年辛苦磨一劍,2011年11月,課題最終成果——“甲骨文圖文資料庫”迎來了專家組的檢查驗收。資料庫收錄了《甲骨文合集》《補編》《英藏》等九種甲骨著錄共72264片甲骨。5位國家社科基金鑒定專家認為,該資料庫是目前世界上資料最全、檢索最為方便、功能定位最明確的甲骨文資料庫。
劉永革是安陽師范學院計算機與信息工程學院院長,也是甲骨文數(shù)字化平臺研究小組的負責人。劉永革介紹,他們團隊建設(shè)的甲骨文數(shù)字化平臺已錄入7萬多條甲骨片資料,是目前國內(nèi)外最大最全的甲骨文電子信息庫。
電腦上輸入甲骨文字,查找相應釋義,還能查看該字多種寫法的所有甲骨圖片,這是以前想都不敢想的事情,現(xiàn)已變成現(xiàn)實。劉永革說:“甲骨文數(shù)字化平臺為甲骨文研究者提供了一個多方位研究手段,未來,我們將朝著把‘一片甲骨驚天下’變成‘數(shù)字甲骨驚天下’的方向不斷努力。”
讓計算機成為“甲骨文專家”
甲骨文專家知識對甲骨文信息處理起著至關(guān)重要的作用,但是甲骨文專家知識的共享和傳承程度極低。如何讓計算機享有甲骨文專家的知識,為甲骨文進行知識挖掘奠定基礎(chǔ)?構(gòu)建甲骨文知識圖譜是甲骨文信息處理團隊一直努力的方向。“將甲骨文及相關(guān)學科的知識構(gòu)建成大規(guī)模知識網(wǎng)絡,這樣我們就可以讓計算機成為‘甲骨文專家’,我們就可以借此開展進一步的研究。”甲骨文信息處理團隊成員熊晶說。甲骨文是目前發(fā)現(xiàn)最早的成系統(tǒng)的文字,現(xiàn)代漢字在語法和造字上與甲骨文是一脈相承的,熊晶以此還提出了以甲骨文為源頭的“漢字基因”和“漢字家族”的概念,漢字的演變歷史就是“漢字基因”的選擇、交叉和變異過程。“我希望通過漢字的遺傳算法計算,找到甲骨文破譯的突破口。”熊晶說。
此外,安陽師范學院甲骨文信息處理團隊還著手構(gòu)建甲骨文拓片網(wǎng)絡——借助甲骨拓片數(shù)據(jù)庫,針對每個未識別甲骨字,通過多次計算,保留該字“可能性最大的前10~20個語義”,并把這個結(jié)果作為輔助考釋線索提供給甲骨文專家,再由專家針對這些數(shù)量不多的“可能性最大的語義”進行下一步專業(yè)的推測和判斷;甲骨文單字網(wǎng)絡——構(gòu)建包括甲骨文演化、拓片、語義、構(gòu)件的多源異構(gòu)復雜網(wǎng)絡,進而利用復雜網(wǎng)絡的自組織演化、可控性、信息挖掘和智能算法優(yōu)化等多個方面解決甲骨文的重大問題;甲骨文語言可拓模型——將甲骨文語言形式化為可拓模型,建立起可拓甲骨文語言模型庫,再通過對可拓模型的變換與推理使計算機用可拓方法理解甲骨文語言,為甲骨學研究提供一種新的計算機輔助研究方法。
安陽師范學院院長黑建敏表示,甲骨文是祖先賜給我們的珍貴禮物,未來,學院將利用大數(shù)據(jù)、云平臺等現(xiàn)代技術(shù)手段,進一步加大甲骨文研究力度,傳承好、發(fā)揮好甲骨文的作用,為弘揚中華文明作出安師人應有的貢獻。