文本分類技術在搜索引擎中的應用

2010-07-27 06:40:18劉苗苗張永生

中國新技術新產品 2010年4期

劉苗苗張永生

（大慶石油學院，河北秦皇島 066004）

1 引言

面對萬維網上海量的信息資源，人們迫切需要從中快速準確地找到有用的信息，搜索引擎技術的誕生為信息檢索提供了方便，它以一定的策略在互聯網中搜集、發現信息，對其進行提取和處理，從而為用戶提供檢索服務[1]。但由于其查準率或查全率不高，其檢索結果遠不能令人滿意，因此本文以現有搜索引擎工作機制為基礎，提出將文本分類[2]和特征抽取[3]技術應用到搜索引擎上，通過文本分類器將檢索結果進行快速自動分類，以分類目錄樹的方式來顯示檢索結果。該方法有效地改善了檢索結果的組織，大大降低了用戶所需瀏覽的檢索結果數量，方便用戶快速找到跟查詢請求相關的有用信息。

2 搜索引擎概述

2.1 搜索引擎概念

廣義的搜索引擎指一切提供信息檢索服務的工具或系統。狹義的搜索引擎指利用網絡自動搜索技術軟件對web資源進行搜集、整理并提供檢索服務的一類信息服務系統[4]。它一般包括信息搜集、信息整理和用戶查詢三部分。

2.2 搜索引擎工作原理及性能指標

搜索引擎至少有三個因素值得重視：數據庫、用戶搜索、搜索結果排序。其工作原理是：首先利用高性能的Spider程序在互聯網中發現并搜集有用的網頁信息，然后利用分析索引系統將收集到的信息進行分類整理，建立索引數據庫，最后當用戶輸入關鍵詞搜索時，搜索系統從索引數據庫中找到符合該關鍵詞的所有相關網頁，并將其鏈接地址和頁面內容摘要等內容組織起來返回給用戶，而與用戶的搜索條件最相關的結果因其相關度高而出現在檢索結果最前面的位置。

影響一個搜索引擎系統性能的因素有很多[5]，最主要的是信息檢索模型，包括文檔和查詢的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法等。評價一個搜索引擎系統好與壞的指標有查全率、查準率及響應速度和時間等。

3 基于文本分類和特征抽取的搜索引擎系統

3.1 系統模型設計

圖1 基于文本分類的搜索引擎模型

圖2 文本自動分類的過程

搜索引擎位于信息檢索系統的底層，它以Web上的信息為處理對象，用戶可以通過可視化接口跟檢索器相連。由于現有的搜索引擎技術在查全率或查準率方面不能令人滿意，因此本文提出了基于文本自動分類的搜索引擎系統。該系統分為以下6個基本部分：Robot、查詢分析器、索引器、檢索器、文本分類器和用戶接口，其模型如圖1所示。

Robot：可稱為“自動跟蹤索引軟件”，它在網絡上檢索文件且自動跟蹤該文件的超文本結構并循環檢索被參照的所有文件，隨時將新信息添加到搜索引擎中供查詢；查詢分析器：主要是對本地文檔集合的文檔進行分析以用于索引；索引器：它將文檔表示為一種便于檢索的方式并存儲在索引數據庫中；檢索器：從索引數據庫中找出與用戶的查詢請求相關的文檔，提交給文本分類器；文本分類器：將檢索器提交過來的文檔進行自動分類，其關鍵技術主要有文本的表示[6]、特征項的抽取、分類算法的選擇等等；用戶接口：為用戶提供可視化的查詢輸入和結果輸出界面。

上面所述的基于文本自動分類的搜索引擎的設計中，Robot軟件程序編制、分析器、索引器、檢索器的功能與設計均是建立在當前搜索引擎工作機制的基礎之上。目前文本的平面分類技術已經發展的比較成熟，分類的正確率達到90%以上，分類器對于文本層次分類和并行處理方面的研究有待加強，這是制約其應用到搜索引擎上的瓶頸。

3.2 系統設計思想及關鍵技術

文本分類是信息檢索的關鍵。目前目錄式搜索引擎的分類是由人工完成的，因此實時性差，更新速度慢，查全率低，成本也較高，且檢索的最終結果是網址，不便于瀏覽。而全文檢索式搜索引擎的檢索結果是一個線性文檔的列表，雖然經過了相關度排序，但用戶仍需要逐個瀏覽才能找出所需信息。基于以上兩種搜索引擎的缺點本文提出將粗糙集的文本自動分類技術應用到搜索引擎上。在該系統中文本分類器的設計是其中的難點，將其應用到搜索引擎上需要解決兩個主要問題：其一文本分類器對檢索出來的文本的分類速度應該足夠快，否則用戶會感到沒有耐心等待檢索結果的顯示，即要提高搜索引擎的響應速度；其二是分類的準確率要高，方便用戶在確定的目錄下準確查找到所需要的文本，即要提高查準率。

系統中用到的關鍵技術主要是文本自動分類和特征抽取。

文本自動分類一般分為訓練和分類兩個階段，其系統流程如圖2所示。研究文本自動分類的關鍵問題是如何構造分類函數。

文本的特征抽取也是設計中的一個重點。在分類階段，經過預處理后，文本的特征向量維數仍然很高，因此在分類前需要進行特征子集的選取。一般情況下對于正文中特征項的抽取[4]是構造一個評估函數，對特征集中的每個特征進行獨立的評估，然后對所有的特征按照其評估分的大小排序，選取預定數目的最佳特征作為文本的特征集。

總之，文本自動分類以及特征抽取技術在搜索引擎上的應用，將給信息檢索技術的研究帶來一定的啟發與幫助。

4 總結與展望

在對現有搜索引擎技術及其工作原理進行總結的基礎上，本文提出了基于文本分類和特征抽取的搜索引擎系統的設計，對其系統設計、工作原理及可行性進行了一定的探討。該系統能對搜索結果進行快速自動分類，在一定程度上改善了信息檢索的效率及質量，方便了用戶的信息查詢。如果能夠實現檢索結果的快速聯機分類，將會給目前的信息檢索技術帶來新的突破，便于用戶快速檢索到需要的結果，這是本文下一步的研究目標。

[1]搜索引擎簡介及研究專欄-搜索引擎發展歷史.http://www.china-seo.org/se-jj/history.htm

[2]王漢萍,張繼軍等.基于粗糙集的文本自動分類方法的研究[J],信息技術,2003年第8期

[3]魏天濱.基于粗糙集理論的文本分類規則抽取[J],中國海洋大學學報自然科學版,2003,33(6):943～949

[4]搜索引擎直通車-搜索引擎發展史[EB/OL].http://www.se-express.com/about/about.htm

[5]馬彪,李恒.搜索引擎的性能評價[EB/OL].新世紀圖書館 2003年第6期

[6]方蘭、王明文文本自動分類技術及其應用[J]，計算機與現代化 2004.7第107期,25～29