摘要:提出構建數字圖書館主題搜索引擎的總體系統設計。利用一個預處理系統盡量選擇高質量的種子站點,從而產生Web主題定義數據;在系統控制器的協調下,各主題爬行器同步地采集爬行器所推薦的Web資源,對下載的資源進行文本分類與主題識別;將已經下載的Web資源按學科分類存儲在Web主題資源庫中,通過全局信息庫建立索引,接入通用接口進行依主題檢索。依賴數字圖書館各方面特點,提出支持多線程主題爬行器的設計,并提出一種新穎的URL主題相關性剪切算法EPR,為實現數字圖書館主題搜索引擎原型提供重要的設計。基于開源Lucene平臺進行系統擴展而形成最終系統,實驗結果表明該工作是相當有效的,尤其是提出的相關性判別算法EPR,具有相當的創新性和實際應用價值。 關鍵詞:數字圖書館;主題;爬行器;搜索引擎;EPR算法 中圖分類號:TP181;TP393 文獻標志碼:A 文章編號:1001-3695(2009)08-2952-04