999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本分類技術在搜索引擎中的應用

2010-07-27 06:40:18劉苗苗張永生
中國新技術新產品 2010年4期
關鍵詞:信息檢索搜索引擎分類

劉苗苗 張永生

(大慶石油學院,河北 秦皇島 066004)

1 引言

面對萬維網上海量的信息資源,人們迫切需要從中快速準確地找到有用的信息,搜索引擎技術的誕生為信息檢索提供了方便,它以一定的策略在互聯網中搜集、發現信息,對其進行提取和處理,從而為用戶提供檢索服務[1]。但由于其查準率或查全率不高,其檢索結果遠不能令人滿意,因此本文以現有搜索引擎工作機制為基礎,提出將文本分類[2]和特征抽取[3]技術應用到搜索引擎上,通過文本分類器將檢索結果進行快速自動分類,以分類目錄樹的方式來顯示檢索結果。該方法有效地改善了檢索結果的組織,大大降低了用戶所需瀏覽的檢索結果數量,方便用戶快速找到跟查詢請求相關的有用信息。

2 搜索引擎概述

2.1 搜索引擎概念

廣義的搜索引擎指一切提供信息檢索服務的工具或系統。狹義的搜索引擎指利用網絡自動搜索技術軟件對web資源進行搜集、整理并提供檢索服務的一類信息服務系統[4]。它一般包括信息搜集、信息整理和用戶查詢三部分。

2.2 搜索引擎工作原理及性能指標

搜索引擎至少有三個因素值得重視:數據庫、用戶搜索、搜索結果排序。其工作原理是:首先利用高性能的Spider程序在互聯網中發現并搜集有用的網頁信息,然后利用分析索引系統將收集到的信息進行分類整理,建立索引數據庫,最后當用戶輸入關鍵詞搜索時,搜索系統從索引數據庫中找到符合該關鍵詞的所有相關網頁,并將其鏈接地址和頁面內容摘要等內容組織起來返回給用戶,而與用戶的搜索條件最相關的結果因其相關度高而出現在檢索結果最前面的位置。

影響一個搜索引擎系統性能的因素有很多[5],最主要的是信息檢索模型,包括文檔和查詢的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法等。評價一個搜索引擎系統好與壞的指標有查全率、查準率及響應速度和時間等。

3 基于文本分類和特征抽取的搜索引擎系統

3.1 系統模型設計

圖1 基于文本分類的搜索引擎模型

圖2 文本自動分類的過程

搜索引擎位于信息檢索系統的底層,它以Web上的信息為處理對象,用戶可以通過可視化接口跟檢索器相連。由于現有的搜索引擎技術在查全率或查準率方面不能令人滿意,因此本文提出了基于文本自動分類的搜索引擎系統。該系統分為以下6個基本部分:Robot、查詢分析器、索引器、檢索器、文本分類器和用戶接口,其模型如圖1所示。

Robot:可稱為“自動跟蹤索引軟件”,它在網絡上檢索文件且自動跟蹤該文件的超文本結構并循環檢索被參照的所有文件,隨時將新信息添加到搜索引擎中供查詢;查詢分析器:主要是對本地文檔集合的文檔進行分析以用于索引;索引器:它將文檔表示為一種便于檢索的方式并存儲在索引數據庫中;檢索器:從索引數據庫中找出與用戶的查詢請求相關的文檔,提交給文本分類器;文本分類器:將檢索器提交過來的文檔進行自動分類,其關鍵技術主要有文本的表示[6]、特征項的抽取、分類算法的選擇等等;用戶接口:為用戶提供可視化的查詢輸入和結果輸出界面。

上面所述的基于文本自動分類的搜索引擎的設計中,Robot軟件程序編制、分析器、索引器、檢索器的功能與設計均是建立在當前搜索引擎工作機制的基礎之上。目前文本的平面分類技術已經發展的比較成熟,分類的正確率達到90%以上,分類器對于文本層次分類和并行處理方面的研究有待加強,這是制約其應用到搜索引擎上的瓶頸。

3.2 系統設計思想及關鍵技術

文本分類是信息檢索的關鍵。目前目錄式搜索引擎的分類是由人工完成的,因此實時性差,更新速度慢,查全率低,成本也較高,且檢索的最終結果是網址,不便于瀏覽。而全文檢索式搜索引擎的檢索結果是一個線性文檔的列表,雖然經過了相關度排序,但用戶仍需要逐個瀏覽才能找出所需信息。基于以上兩種搜索引擎的缺點本文提出將粗糙集的文本自動分類技術應用到搜索引擎上。在該系統中文本分類器的設計是其中的難點,將其應用到搜索引擎上需要解決兩個主要問題:其一文本分類器對檢索出來的文本的分類速度應該足夠快,否則用戶會感到沒有耐心等待檢索結果的顯示,即要提高搜索引擎的響應速度;其二是分類的準確率要高,方便用戶在確定的目錄下準確查找到所需要的文本,即要提高查準率。

系統中用到的關鍵技術主要是文本自動分類和特征抽取。

文本自動分類一般分為訓練和分類兩個階段,其系統流程如圖2所示。研究文本自動分類的關鍵問題是如何構造分類函數。

文本的特征抽取也是設計中的一個重點。在分類階段,經過預處理后,文本的特征向量維數仍然很高,因此在分類前需要進行特征子集的選取。一般情況下對于正文中特征項的抽取[4]是構造一個評估函數,對特征集中的每個特征進行獨立的評估,然后對所有的特征按照其評估分的大小排序,選取預定數目的最佳特征作為文本的特征集。

總之,文本自動分類以及特征抽取技術在搜索引擎上的應用,將給信息檢索技術的研究帶來一定的啟發與幫助。

4 總結與展望

在對現有搜索引擎技術及其工作原理進行總結的基礎上,本文提出了基于文本分類和特征抽取的搜索引擎系統的設計,對其系統設計、工作原理及可行性進行了一定的探討。該系統能對搜索結果進行快速自動分類,在一定程度上改善了信息檢索的效率及質量,方便了用戶的信息查詢。如果能夠實現檢索結果的快速聯機分類,將會給目前的信息檢索技術帶來新的突破,便于用戶快速檢索到需要的結果,這是本文下一步的研究目標。

[1]搜索引擎簡介及研究專欄-搜索引擎發展歷史.http://www.china-seo.org/se-jj/history.htm

[2]王漢萍,張繼軍等.基于粗糙集的文本自動分類方法的研究[J],信息技術,2003年第8期

[3]魏天濱.基于粗糙集理論的文本分類規則抽取[J],中國海洋大學學報自然科學版,2003,33(6):943~949

[4]搜索引擎直通車-搜索引擎發展史[EB/OL].http://www.se-express.com/about/about.htm

[5]馬彪,李恒.搜索引擎的性能評價[EB/OL].新世紀圖書館 2003年第6期

[6]方蘭、王明文 文本自動分類技術及其應用[J],計算機與現代化 2004.7第107期,25~29

猜你喜歡
信息檢索搜索引擎分類
分類算一算
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
基于神經網絡的個性化信息檢索模型研究
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
主站蜘蛛池模板: 久久黄色影院| 亚洲精品无码不卡在线播放| a国产精品| 国产视频a| 国产三级韩国三级理| 久久免费视频6| 国产精品视频a| 激情网址在线观看| 国产91视频观看| 日韩精品毛片| 永久天堂网Av| 欧美色综合久久| 免费Aⅴ片在线观看蜜芽Tⅴ| 久久综合伊人77777| 伊人91在线| 国产精品成人不卡在线观看| 日韩免费无码人妻系列| 在线免费不卡视频| 欧美专区日韩专区| 国产乱子伦一区二区=| 91色老久久精品偷偷蜜臀| 性做久久久久久久免费看| 国产成人亚洲精品蜜芽影院| 国产导航在线| 欧美三級片黃色三級片黃色1| 久久精品人人做人人爽电影蜜月| 免费不卡在线观看av| 婷婷六月色| 青草视频在线观看国产| 亚洲五月激情网| 国产尤物在线播放| 手机在线免费毛片| 99视频在线精品免费观看6| 国产在线自在拍91精品黑人| 996免费视频国产在线播放| 天天综合天天综合| 黄色网站不卡无码| 毛片基地视频| 亚洲AⅤ波多系列中文字幕| 免费看的一级毛片| 亚洲永久精品ww47国产| 国产欧美网站| 国产精品lululu在线观看| 曰韩免费无码AV一区二区| 国产欧美日韩精品综合在线| 伊人国产无码高清视频| 国产成人夜色91| 国产福利免费视频| 九月婷婷亚洲综合在线| 欧美全免费aaaaaa特黄在线| 欧美五月婷婷| 91精品国产丝袜| 男人天堂亚洲天堂| 第一区免费在线观看| 国产精品一线天| 五月天香蕉视频国产亚| 91无码视频在线观看| 亚洲天堂伊人| 天天操精品| 久久无码av三级| 亚洲国产综合精品中文第一| 最新精品久久精品| 国产免费久久精品44| 婷婷久久综合九色综合88| 乱人伦视频中文字幕在线| 欧美日本视频在线观看| 亚洲动漫h| 天天综合亚洲| a级毛片免费看| 日韩av无码精品专区| 久久青青草原亚洲av无码| 中文字幕免费视频| 人妻免费无码不卡视频| 亚洲一级毛片在线观播放| 色偷偷av男人的天堂不卡| 精品成人一区二区三区电影 | 久久精品国产91久久综合麻豆自制| 亚洲精品波多野结衣| 国产91麻豆免费观看| 99视频精品在线观看| 欧美中文字幕在线播放| 亚洲永久色|