目前清華大學圖書館館藏紙質書達300多萬種,電子書600多萬種、近7萬種電子期刊、幾億篇文章,并采用專業的資源發現系統為用戶提供紙質書和電子資源的整合檢索。資源發現系統自帶的知識庫包含7億多條高品質的文章級元數據,是龐大的元數據倉儲;此外,清華大學圖書館還在發現系統平臺匯集融合了從維基百科下載的開放數據,以及由圖書館員收集整理的清華教工的學術簡介等。基于上述數據基礎,清華大學圖書館在以下兩方面進行了探索和實踐。
數據集成。清華大學圖書館嘗試在檢索平臺“水木搜索”上綜合運用多來源數據。將書、刊、文章等元數據匯聚在一起用于檢索,用戶可通過開放鏈接技術定位及獲取資源;維基百科的詞條、清華教工簡介、豆瓣書評、清華學生打過的標簽則在展示層與檢索結果關聯,用戶可在一個檢索結果頁面獲得不同層次、不同角度的信息內容。
挖掘數據價值。從目前情況看,圖書館的數據規模以及對數據處理的實效性雖遠未達到大數據處理的需求,但是基于大數據開展的挖掘數據價值、提取知識的理念卻深深影響了圖書館的服務模式。
海量權威的元數據匯集到一起,蘊藏了大量的知識,對基于數據的知識服務帶來重要影響。清華大學圖書館嘗試對這些數據集合做一些分析工作,即從元數據倉儲中提取關鍵詞等信息,分析關鍵詞走向,分析作者與合作者的關系,建立以人為中心的知識關聯網絡。
基于時間軸進行趨勢分析。研究某學科領域在一個時間段的發展趨勢對了解該學科的發展脈絡、預測未來的發展方向至關重要。清華大學圖書館采用提取文章關鍵詞并分析關鍵詞在時間軸上分布的方法來給出該領域的發展趨勢。該服務的初步嘗試已得到讀者的良好反饋。
建立以學者為中心的知識關聯網絡。清華大學圖書館以海量多來源數據為基礎,通過分析海量文獻數據的特點,自動甄別出清華大學目標學者(ThuRID),獲取目標學者的學術出版物、與其緊密關聯的合作者、期刊會議等信息,應用開放鏈接技術準確定位清華學者學術出版物的全文,采用可視化視圖的方式直觀展示學者的學術歷程,以及以學者為中心的科研網絡。目前,清華大學圖書館已經成功甄別出清華50位專家學者,并建立了以他們為中心的知識關聯網絡。
清華大學圖書館用于分析的主要數據集合還是英文數據,我們期待著和中國知網這樣的國內數據提供商在數據挖掘及增值應用方面有更多的合作。此外,中國知網在國內外大力推廣數字出版,這使得建設一個從資源產生到資源應用的快速通道成為可能,我們也在積極思考如何和中國知網攜手共建這個快速通道,也希望數字出版能從資源誕生那一刻起即考慮到與應用環節的有機銜接,共同促進知識的傳播與再利用。