999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

文本分類技術在搜索引擎中的應用

2010-07-27 06:40:18劉苗苗張永生
中國新技術新產品 2010年4期
關鍵詞:信息檢索搜索引擎分類

劉苗苗 張永生

(大慶石油學院,河北 秦皇島 066004)

1 引言

面對萬維網上海量的信息資源,人們迫切需要從中快速準確地找到有用的信息,搜索引擎技術的誕生為信息檢索提供了方便,它以一定的策略在互聯網中搜集、發現信息,對其進行提取和處理,從而為用戶提供檢索服務[1]。但由于其查準率或查全率不高,其檢索結果遠不能令人滿意,因此本文以現有搜索引擎工作機制為基礎,提出將文本分類[2]和特征抽取[3]技術應用到搜索引擎上,通過文本分類器將檢索結果進行快速自動分類,以分類目錄樹的方式來顯示檢索結果。該方法有效地改善了檢索結果的組織,大大降低了用戶所需瀏覽的檢索結果數量,方便用戶快速找到跟查詢請求相關的有用信息。

2 搜索引擎概述

2.1 搜索引擎概念

廣義的搜索引擎指一切提供信息檢索服務的工具或系統。狹義的搜索引擎指利用網絡自動搜索技術軟件對web資源進行搜集、整理并提供檢索服務的一類信息服務系統[4]。它一般包括信息搜集、信息整理和用戶查詢三部分。

2.2 搜索引擎工作原理及性能指標

搜索引擎至少有三個因素值得重視:數據庫、用戶搜索、搜索結果排序。其工作原理是:首先利用高性能的Spider程序在互聯網中發現并搜集有用的網頁信息,然后利用分析索引系統將收集到的信息進行分類整理,建立索引數據庫,最后當用戶輸入關鍵詞搜索時,搜索系統從索引數據庫中找到符合該關鍵詞的所有相關網頁,并將其鏈接地址和頁面內容摘要等內容組織起來返回給用戶,而與用戶的搜索條件最相關的結果因其相關度高而出現在檢索結果最前面的位置。

影響一個搜索引擎系統性能的因素有很多[5],最主要的是信息檢索模型,包括文檔和查詢的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法等。評價一個搜索引擎系統好與壞的指標有查全率、查準率及響應速度和時間等。

3 基于文本分類和特征抽取的搜索引擎系統

3.1 系統模型設計

圖1 基于文本分類的搜索引擎模型

圖2 文本自動分類的過程

搜索引擎位于信息檢索系統的底層,它以Web上的信息為處理對象,用戶可以通過可視化接口跟檢索器相連。由于現有的搜索引擎技術在查全率或查準率方面不能令人滿意,因此本文提出了基于文本自動分類的搜索引擎系統。該系統分為以下6個基本部分:Robot、查詢分析器、索引器、檢索器、文本分類器和用戶接口,其模型如圖1所示。

Robot:可稱為“自動跟蹤索引軟件”,它在網絡上檢索文件且自動跟蹤該文件的超文本結構并循環檢索被參照的所有文件,隨時將新信息添加到搜索引擎中供查詢;查詢分析器:主要是對本地文檔集合的文檔進行分析以用于索引;索引器:它將文檔表示為一種便于檢索的方式并存儲在索引數據庫中;檢索器:從索引數據庫中找出與用戶的查詢請求相關的文檔,提交給文本分類器;文本分類器:將檢索器提交過來的文檔進行自動分類,其關鍵技術主要有文本的表示[6]、特征項的抽取、分類算法的選擇等等;用戶接口:為用戶提供可視化的查詢輸入和結果輸出界面。

上面所述的基于文本自動分類的搜索引擎的設計中,Robot軟件程序編制、分析器、索引器、檢索器的功能與設計均是建立在當前搜索引擎工作機制的基礎之上。目前文本的平面分類技術已經發展的比較成熟,分類的正確率達到90%以上,分類器對于文本層次分類和并行處理方面的研究有待加強,這是制約其應用到搜索引擎上的瓶頸。

3.2 系統設計思想及關鍵技術

文本分類是信息檢索的關鍵。目前目錄式搜索引擎的分類是由人工完成的,因此實時性差,更新速度慢,查全率低,成本也較高,且檢索的最終結果是網址,不便于瀏覽。而全文檢索式搜索引擎的檢索結果是一個線性文檔的列表,雖然經過了相關度排序,但用戶仍需要逐個瀏覽才能找出所需信息。基于以上兩種搜索引擎的缺點本文提出將粗糙集的文本自動分類技術應用到搜索引擎上。在該系統中文本分類器的設計是其中的難點,將其應用到搜索引擎上需要解決兩個主要問題:其一文本分類器對檢索出來的文本的分類速度應該足夠快,否則用戶會感到沒有耐心等待檢索結果的顯示,即要提高搜索引擎的響應速度;其二是分類的準確率要高,方便用戶在確定的目錄下準確查找到所需要的文本,即要提高查準率。

系統中用到的關鍵技術主要是文本自動分類和特征抽取。

文本自動分類一般分為訓練和分類兩個階段,其系統流程如圖2所示。研究文本自動分類的關鍵問題是如何構造分類函數。

文本的特征抽取也是設計中的一個重點。在分類階段,經過預處理后,文本的特征向量維數仍然很高,因此在分類前需要進行特征子集的選取。一般情況下對于正文中特征項的抽取[4]是構造一個評估函數,對特征集中的每個特征進行獨立的評估,然后對所有的特征按照其評估分的大小排序,選取預定數目的最佳特征作為文本的特征集。

總之,文本自動分類以及特征抽取技術在搜索引擎上的應用,將給信息檢索技術的研究帶來一定的啟發與幫助。

4 總結與展望

在對現有搜索引擎技術及其工作原理進行總結的基礎上,本文提出了基于文本分類和特征抽取的搜索引擎系統的設計,對其系統設計、工作原理及可行性進行了一定的探討。該系統能對搜索結果進行快速自動分類,在一定程度上改善了信息檢索的效率及質量,方便了用戶的信息查詢。如果能夠實現檢索結果的快速聯機分類,將會給目前的信息檢索技術帶來新的突破,便于用戶快速檢索到需要的結果,這是本文下一步的研究目標。

[1]搜索引擎簡介及研究專欄-搜索引擎發展歷史.http://www.china-seo.org/se-jj/history.htm

[2]王漢萍,張繼軍等.基于粗糙集的文本自動分類方法的研究[J],信息技術,2003年第8期

[3]魏天濱.基于粗糙集理論的文本分類規則抽取[J],中國海洋大學學報自然科學版,2003,33(6):943~949

[4]搜索引擎直通車-搜索引擎發展史[EB/OL].http://www.se-express.com/about/about.htm

[5]馬彪,李恒.搜索引擎的性能評價[EB/OL].新世紀圖書館 2003年第6期

[6]方蘭、王明文 文本自動分類技術及其應用[J],計算機與現代化 2004.7第107期,25~29

猜你喜歡
信息檢索搜索引擎分類
分類算一算
分類討論求坐標
數據分析中的分類討論
教你一招:數的分類
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
基于神經網絡的個性化信息檢索模型研究
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
主站蜘蛛池模板: 国产成人1024精品| 国产h视频在线观看视频| 日韩中文无码av超清| 亚洲伊人天堂| 国产尤物jk自慰制服喷水| 人妻丰满熟妇啪啪| 国产成人久久综合777777麻豆| 亚洲精品自产拍在线观看APP| 久久综合一个色综合网| 欧美yw精品日本国产精品| 日a本亚洲中文在线观看| 国产在线精品99一区不卡| 亚洲成人精品在线| 成人免费午夜视频| 麻豆精选在线| 国产成人亚洲精品色欲AV| 欧美一区二区人人喊爽| 欧美亚洲欧美区| 亚洲av无码久久无遮挡| 激情综合激情| 国产午夜人做人免费视频| 天天躁夜夜躁狠狠躁图片| 中文字幕亚洲综久久2021| 日韩高清一区 | 99久久精品无码专区免费| 啪啪免费视频一区二区| 视频二区国产精品职场同事| 5388国产亚洲欧美在线观看| 欧洲亚洲欧美国产日本高清| 天天综合网色| 亚洲IV视频免费在线光看| 69av免费视频| 久久久久88色偷偷| 97人人模人人爽人人喊小说| 欧美有码在线观看| 中文成人在线| 伊人久久大香线蕉aⅴ色| 伊人国产无码高清视频| 久久一级电影| 亚洲毛片一级带毛片基地| 亚洲无线国产观看| 麻豆精品国产自产在线| 国产精品制服| 波多野结衣一级毛片| 99九九成人免费视频精品| 免费国产一级 片内射老| 人妻一本久道久久综合久久鬼色| 在线色国产| 国产一级毛片在线| 日本一本正道综合久久dvd| 国产迷奸在线看| 真实国产精品vr专区| 蜜臀av性久久久久蜜臀aⅴ麻豆| P尤物久久99国产综合精品| 亚洲va在线∨a天堂va欧美va| 天天躁夜夜躁狠狠躁图片| 国产91蝌蚪窝| 国产乱人伦AV在线A| 日韩成人免费网站| 中文字幕人成人乱码亚洲电影| 亚洲AV无码一二区三区在线播放| 91口爆吞精国产对白第三集| av大片在线无码免费| 成人av手机在线观看| 性视频久久| 亚洲中文字幕23页在线| 亚洲一级毛片在线观播放| 99久久婷婷国产综合精| 农村乱人伦一区二区| 国产www网站| 久久精品国产91久久综合麻豆自制| 高清国产在线| 成人久久精品一区二区三区| 爱爱影院18禁免费| 亚洲品质国产精品无码| www.91中文字幕| 黄色成年视频| 国产欧美精品午夜在线播放| 国产在线精品网址你懂的| 国产成人精品综合| 精品伊人久久久大香线蕉欧美| 97免费在线观看视频|