目前清華大學圖書館館藏紙質(zhì)書達300多萬種,電子書600多萬種、近7萬種電子期刊、幾億篇文章,并采用專業(yè)的資源發(fā)現(xiàn)系統(tǒng)為用戶提供紙質(zhì)書和電子資源的整合檢索。資源發(fā)現(xiàn)系統(tǒng)自帶的知識庫包含7億多條高品質(zhì)的文章級元數(shù)據(jù),是龐大的元數(shù)據(jù)倉儲;此外,清華大學圖書館還在發(fā)現(xiàn)系統(tǒng)平臺匯集融合了從維基百科下載的開放數(shù)據(jù),以及由圖書館員收集整理的清華教工的學術(shù)簡介等。基于上述數(shù)據(jù)基礎,清華大學圖書館在以下兩方面進行了探索和實踐。
數(shù)據(jù)集成。清華大學圖書館嘗試在檢索平臺“水木搜索”上綜合運用多來源數(shù)據(jù)。將書、刊、文章等元數(shù)據(jù)匯聚在一起用于檢索,用戶可通過開放鏈接技術(shù)定位及獲取資源;維基百科的詞條、清華教工簡介、豆瓣書評、清華學生打過的標簽則在展示層與檢索結(jié)果關聯(lián),用戶可在一個檢索結(jié)果頁面獲得不同層次、不同角度的信息內(nèi)容。
挖掘數(shù)據(jù)價值。從目前情況看,圖書館的數(shù)據(jù)規(guī)模以及對數(shù)據(jù)處理的實效性雖遠未達到大數(shù)據(jù)處理的需求,但是基于大數(shù)據(jù)開展的挖掘數(shù)據(jù)價值、提取知識的理念卻深深影響了圖書館的服務模式。
海量權(quán)威的元數(shù)據(jù)匯集到一起,蘊藏了大量的知識,對基于數(shù)據(jù)的知識服務帶來重要影響。清華大學圖書館嘗試對這些數(shù)據(jù)集合做一些分析工作,即從元數(shù)據(jù)倉儲中提取關鍵詞等信息,分析關鍵詞走向,分析作者與合作者的關系,建立以人為中心的知識關聯(lián)網(wǎng)絡。
基于時間軸進行趨勢分析。研究某學科領域在一個時間段的發(fā)展趨勢對了解該學科的發(fā)展脈絡、預測未來的發(fā)展方向至關重要。清華大學圖書館采用提取文章關鍵詞并分析關鍵詞在時間軸上分布的方法來給出該領域的發(fā)展趨勢。該服務的初步嘗試已得到讀者的良好反饋。
建立以學者為中心的知識關聯(lián)網(wǎng)絡。清華大學圖書館以海量多來源數(shù)據(jù)為基礎,通過分析海量文獻數(shù)據(jù)的特點,自動甄別出清華大學目標學者(ThuRID),獲取目標學者的學術(shù)出版物、與其緊密關聯(lián)的合作者、期刊會議等信息,應用開放鏈接技術(shù)準確定位清華學者學術(shù)出版物的全文,采用可視化視圖的方式直觀展示學者的學術(shù)歷程,以及以學者為中心的科研網(wǎng)絡。目前,清華大學圖書館已經(jīng)成功甄別出清華50位專家學者,并建立了以他們?yōu)橹行牡闹R關聯(lián)網(wǎng)絡。
清華大學圖書館用于分析的主要數(shù)據(jù)集合還是英文數(shù)據(jù),我們期待著和中國知網(wǎng)這樣的國內(nèi)數(shù)據(jù)提供商在數(shù)據(jù)挖掘及增值應用方面有更多的合作。此外,中國知網(wǎng)在國內(nèi)外大力推廣數(shù)字出版,這使得建設一個從資源產(chǎn)生到資源應用的快速通道成為可能,我們也在積極思考如何和中國知網(wǎng)攜手共建這個快速通道,也希望數(shù)字出版能從資源誕生那一刻起即考慮到與應用環(huán)節(jié)的有機銜接,共同促進知識的傳播與再利用。