999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

信息搜索引擎綜述及系統架構設計

2008-01-01 00:00:00郭偉青
商場現代化 2008年3期

[摘要] 本文介紹了搜索引擎的發展與分類,給出了一種搜索引擎的架構并對各個組成部分進行了分析,最后分析了如何來評價搜索引擎性能的技術指標。

[關鍵詞] 搜索引擎 發展 分類 技術指標

一、引言

互聯網發展的今天,一方面離不開其開放、共享的特性帶給人們的全新體驗,另一方面也離不開數以億計的為其提供各類豐富內容的網絡節點。互聯網被普及前,人們查閱資料第一想到的便是擁有大量書籍資料的圖書館,到了今天,很多人都會選擇一種更方便、快捷、全面、準確的方式——使用搜索引擎。

二、搜索引擎的歷史

20世紀90年初,當時萬維網(World Wide Web)還未出現,為了查詢散布在各個分散的主機中的文件,曾有過Archie, Gopher等搜索工具,隨著互聯網的迅速發展,基于HTTP訪問的web技術的迅速普及,它們就不再能適應用戶的需要。1994年,Lycos推出了基于Robot的數據發現技術。1998年10月,Google誕生,它是目前最流行的搜索引擎之一,具備很多獨特而且優秀的功能,并且在界面等方面實現了革命性創新。

三、搜索引擎的分類

按照信息搜集方法和服務提供方式的不同,搜索引擎系統可以分為三大類。但各種搜索引擎站點正在結合其他搜索引擎的優點,在類型上有逐漸融合的趨勢。

1.目錄式(Directory)搜索引擎。以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。該類搜索引擎因為加入了人的智能,所以信息準確、導航質量高,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。這類搜索引擎的代表是:Yahoo!(dir.yahoo.com)和Open Directory Project(www.dmoz.org)。

2.基于機器人(Robot-based)的搜索引擎。基于機器人的搜索引擎是一種典型的搜索引擎。由一個稱為爬蟲(Spiders或robots)的機器人程序以某種策略自動地在Internet中搜集和發現信息,由索引器為搜集到的信息建立索引,由檢索器根據用戶的查詢輸入檢索索引庫,并將查詢結果返回給用戶。該方式力求能夠對WWW中所有數據進行檢索,涉及網上的任何領域,然而由于WWW 的海量信息,實際運行中往往只能對WWW 中部分內容進行檢索。這類搜索引擎的代表是:Google(www.google.com),國內的有百度(www.baidu.com)等。

3.元搜索引擎(Meta-searchengine)。元搜索引擎的基本思想是:當搜索引擎受到來自客戶的查詢請求后,自動將這些查詢請求轉發給其它多個搜索引擎,并將各搜索引擎返回的查詢結果收集起來進行處理,最終提供給用戶。這類搜索引擎沒有自己的數據,而是將用戶的查詢請求同時向多個搜索引擎遞交,將返回的結果進行重復排除、重新排序等處理后,作為自己的結果返回給用戶。這類搜索引擎的代表是WebCrawler、InfoMarket等。

四、搜索引擎基本組成

1.搜索器。搜索器的功能是在Internet中漫游,發現和搜集信息。搜索器搜集的信息類型多種多樣,包括HTML文本、XML文本、Newsgroup文章、FTP文件、字處理文檔(如Word,Postscript, PDF)、多媒體信息(如圖片、聲音、動畫、視頻)等。它常常是一個或者多個互相協調的計算機程序,日夜不停地運行,目的是要盡可能多、盡可能快地搜集各種類型的新信息,同時因為Internet上的信息更新很快,所以還要定期更新已經搜集過的舊信息,以避免死連接和無效連接。

2.索引器。索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表。索引項有客觀索引項和內容索引項兩種:客觀項與文檔的語意內容無關,內容索引項是用來反映文檔內容的。一個搜索引擎的有效性在很大程度上取決于索引的質量。

3.檢索器。檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,并實現某種用戶相關性反饋機制。檢索器常用的信息檢索模型有集合理論模型、代數模型、概率模型和混合模型四種。

4.用戶接口。用戶接口的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。用戶接口的設計和實現使用人機交互的理論和方法,以充分適應人類的思維習慣。

五、搜索引擎技術指標

可以用查全率(Recall)和查準率(Pricision)衡量一個搜索引擎的性能,定義如下:

查準率(精度)=搜索到的相關文檔數/搜索到的全部文檔數

查全率(召回率)=搜索到的相關文檔數/包含的全部相關文檔數

影響一個搜索引擎系統的性能有很多因素,最主要的是信息檢索模型,包括文檔和查詢的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法和用戶進行相關度反饋的機制等。

六、小結

互聯網技術的發展,使得互聯網上的信息量急劇增加,信息越來越豐富,越來越多的網絡用戶依靠搜索引擎技術,從浩瀚的信息海洋中獲取信息,為學習、生活提供越來越多的便利,搜索引擎技術必將會有更大的發展應用。

參考文獻:

[1]李曉明:http://www.se-express.com[EB]

[2]劉峰王秀坤楊南海馬霖:中英文專業搜索引擎中數據采集加工的設計與實現[J].計算機應用研究.2004,21(10):155~157

注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。

主站蜘蛛池模板: 亚洲av日韩av制服丝袜| 国产流白浆视频| 在线观看国产精美视频| 精品国产一区二区三区在线观看| 亚洲无限乱码一二三四区| 国产精品极品美女自在线网站| 日韩a在线观看免费观看| a国产精品| 制服无码网站| 99ri国产在线| 国产爽爽视频| 国产精欧美一区二区三区| 毛片免费视频| 日韩欧美高清视频| 国产欧美性爱网| 99r在线精品视频在线播放| 中文字幕2区| 99在线视频网站| 久久婷婷五月综合97色| 色综合狠狠操| 久久精品国产亚洲AV忘忧草18| 国产成人三级| 国产尤物在线播放| 高清精品美女在线播放| 高清无码不卡视频| 亚洲网综合| 五月天福利视频| 国产成人精品免费av| 99草精品视频| www精品久久| 久久亚洲精少妇毛片午夜无码| 久久国产精品电影| 日韩在线第三页| 国产精品黑色丝袜的老师| 国产精品三级专区| 亚洲AV永久无码精品古装片| 激情影院内射美女| 欧美一级高清片欧美国产欧美| 国产成人无码综合亚洲日韩不卡| 91免费国产在线观看尤物| 91精选国产大片| 91娇喘视频| 亚洲国产日韩视频观看| 欧美一区二区三区国产精品| 国产网站免费看| а∨天堂一区中文字幕| 夜精品a一区二区三区| 久久精品这里只有国产中文精品| 国产精品3p视频| 青草视频久久| 午夜人性色福利无码视频在线观看| 国产福利一区在线| 国禁国产you女视频网站| 亚洲综合色婷婷中文字幕| 成人免费网站在线观看| 一本久道久久综合多人| 国产精品视频猛进猛出| 在线国产欧美| 欧美a在线| 狠狠综合久久| 5555国产在线观看| 国产chinese男男gay视频网| 中文字幕精品一区二区三区视频 | 99热这里只有精品免费国产| 精品五夜婷香蕉国产线看观看| 人妻少妇乱子伦精品无码专区毛片| 无码免费的亚洲视频| 午夜性刺激在线观看免费| 国产成人综合久久精品下载| 天天综合亚洲| 国产在线视频福利资源站| 欧美成人影院亚洲综合图| 国产精品亚洲精品爽爽| vvvv98国产成人综合青青| 欧美精品亚洲精品日韩专区va| 中文字幕在线不卡视频| 国产日本欧美亚洲精品视| 91po国产在线精品免费观看| 久久99国产综合精品女同| 亚洲综合网在线观看| AV网站中文| 激情乱人伦|