林鈺杰,吳麗賢
(廣東電網有限責任公司 佛山供電局,廣東 佛山528000)
基于Lucene的企業電子文檔搜索系統的開發研究
林鈺杰,吳麗賢
(廣東電網有限責任公司 佛山供電局,廣東 佛山528000)
隨著企業信息化的發展,企業的信息資源越來越豐富,電子文檔已成為企業信息傳遞、保存的重要形式,如何讓員工快速全面地從海量的電子文檔中找到所需的內容,日趨顯得重要。針對企業電子文檔搜索的現狀和不足,本文研究了全文檢索技術和全文檢索工具Lucene,并將其引入到系統開發中,在主流的B/S分層架構基礎上,重點對文本提取模塊、中文詞劃分模塊、索引模塊和搜索模塊進行了設計與實現,構建了一個基于Lucene的企業電子文檔搜索系統。實踐表明,本系統為企業員工提供了一種高效的電子文檔檢索方式,提高了員工的工作效率,改善了系統用戶體驗并提升了企業信息化水平。
Lucene;全文檢索;電子文檔;企業搜索引擎
隨著企業規模擴大、業務拓展以及信息化發展,企業內部的電子文檔信息每天都在快速增長,這些文檔以不同的格式分別保存在磁盤和數據庫中,總數據量十分龐大[1]。雖然幾乎所有的信息系統都為用戶提供了信息檢索功能,但基本上僅支持關鍵字匹配查詢,而且只能檢索數據庫中的信息,對于存儲在磁盤上的文件卻無能為力。部分系統會采用數據庫自帶的檢索功能,但是檢索結果往往不理想[2]。由于企業員工在日常工作中離不開對電子文檔的頻繁搜索,為避免大量時間和精力的浪費,改善搜索效果,提高工作效率,開發一個適用于企業內部的電子文檔搜索系統是勢在必行的事情。……