詹茂森 秦勇
摘要:在基于社會計算的個性化推薦系統開發中,搜索引擎的開發是其中一個重要的環節,搜索引擎的質量直接關系系統搜索結果的性能。該文對該內容進行了專題的研究,為該模塊的設計提供了良好的理論基礎,也為系統相關主題的開發奠定了一定的基礎。
關鍵詞:搜索引擎;推薦;系統
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)22-5370-03
基于社會計算的個性化推薦系統的搜索引擎是系統開發的一個重要環節,該搜索結果質量直接關系到系統的性能,從而直接影響到系統的整體性能。本系統中解析的文檔類型以html文檔為主,采用Lucene搜索引擎,獨立于運行平臺的方式,實現了文檔的解析和索引的創建。
1 Lucene搜索引擎簡介
1) Lucene
Lucene 是一個出色并且是開源的全文搜索引擎。他并不是一個完整的全文檢索應用,但是它提供了大量的 API ,可以方便能夠高效快捷地地對全文創建索引,最主要的是,他可以對現有的在各種各種的系統增加全文檢索的功能,官方也一直維護、更新版本,使用越來越方便,深受廣大編程者和用戶的青睞。
Lucene是一個高效的、 可擴展的全文檢索庫, 僅支持純文本文件的索引(Index)和檢索(Search), 并不處理從其他格式的文件中抽取純文本文件, 或從網絡中抓取文件。簡單地說, Lucene實現兩個功能,分別是索引和檢索。索引所做的工作是為各種各樣的文檔構建Lucene 所能夠識別的索引文件。
Lucene作為一個非常優秀并且開源的全文搜索引擎,不僅性能高,架構清晰,擴展性強,而且其建立索引后的文件格式也獨立于應用平臺,從而使索引文件能夠跨平臺共享,對任意可轉換為文本格式的數據都能夠進行索引和搜索。……