999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

搜索引擎發展的初步探討

2009-04-29 00:00:00周雅翠
現代情報 2009年5期

〔摘 要〕隨著科學研究的深入發展,人們對文獻需求越來越廣泛,對搜索引擎理論的研究正在朝著多元化、專業化方向發展。特別是新型文獻載體的出現,開闊了搜索引擎理論研究的新視野。本文從搜索引擎的組成,搜索引擎的分類,如何識別搜索引擎的優劣,搜索引擎的未來發展動向等方面對搜索引擎技術做介紹。

〔關鍵詞〕搜索引擎;發展;分類

〔中圖分類號〕TP393.4 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)05-0020-03

Discussion on the Development of Search EngineZhou Yacui

(School of Computer Science and Engineering,Jilin Agricultural and Civil Engineering Institute,Changchun 130000,China)

〔Abstract〕With the development of scientific research,people have more requirements for literature,the study on search engine is more diversity and professional.The emergence of new literature carrier explored the new field for search engine study.This paper discussed the combination,classification and the development trend of search engine,expounded on how to recognize the good from the bad.

〔Keywords〕search engine;development;classification

1 搜索引擎的組成

一個搜索引擎是由搜索器、索引器、檢索器和用戶接口4個部分組成。

1.1 搜索器

搜索器的功能是在互聯網中發現和搜集信息。它常常是一個計算機程序,需要晝夜不停地運行。它的任務就是收集各種信息,同時因為互聯網上的信息更新很快,所以還要定期更新已經搜集過的舊信息。目前有兩種搜集信息的策略:從一個起始URL集合開始,順著這些URL中的超級鏈接(Hyperlink),以寬度優先、深度優先或啟發式方式循環地在互聯網中發現信息。這些起始URL可以是任意的URL,但常常是一些非常流行、包含很多鏈接的站點(如www.sina.com.cn)。將Web空間按照域名、IP地址或國家域名劃分,每個搜索器負責一個子空間的遍歷搜索。搜索器搜集的信息文件類型有許多種,包括HTML、XML、FTP文件、Word文檔以及大量的視頻及音頻信息。搜索器的實現常常采用分布式、并行計算等技術,以提高信息發現和更新的速度。商業搜索引擎的信息發現可以達到每天幾億個網頁。

1.2 索引器

索引器的功能是分析搜索器所搜索到的信息,從中抽取出索引項,用于建立表示文檔以及生成文檔庫的索引表。索引項有客觀索引項和內容索引項兩種:客觀項與文檔的語意內容無關,如作者名、URL、更新時間、編碼、長度、鏈接流行度(Link Popularity)等等;內容索引項是用來反映文檔內容的,如關鍵詞及其權重、短語、單字等等。內容索引項可以分為單索引項和多索引項(或稱短語索引項)2種。單索引項對于英文來講是英語單詞,比較容易提取,因為單詞之間有天然的分隔符(空格);對于中文等連續書寫的語言,必須進行詞語的切分。在搜索引擎中,一般要給單索引項賦與一個權值,以表示該索引項對文檔的區分度,同時用來計算查詢結果的相關度。使用的方法一般有統計法、信息論法和概率法。短語索引項的提取方法有統計法、概率法和語言學法。索引表一般使用某種形式的倒排表(Inversion List),即由索引項查找相應的文檔。索引表也可能要記錄索引項在文檔中出現的位置,以便檢索器計算索引項之間的相鄰或接近關系(Proximity)。索引器可以使用集中式索引算法或分布式索引算法。當數據量很大時,必須實現即時索引(Instant Indexing),否則不能夠跟上信息量急劇增加的速度。索引算法對索引器的性能(如大規模峰值查詢時的響應速度)有很大的影響。一個搜索引擎的時效性在很大程度上取決于索引的質量。

1.3 檢索器

檢索器的功能是根據用戶的查詢在索引庫中快速檢索出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,并實現某種用戶相關性反饋機制。檢索器常用的信息檢索模型有集合理論模型、代數模型、概率模型和混合模型4種。

1.4 用戶接口

用戶接口的作用是輸入用戶查詢內容、顯示查詢結果、提供用戶相關性反饋機制。是為方便用戶使用計算機資源所建立的用戶和計算機之間的聯系。通常指軟件接口,即在人機聯系的硬設備接口基礎上開發的軟件。如建立和清除連接、發送和接收數據、發送中斷信息、控制出錯、生成狀態報告表等。

2 搜索引擎的分類

按照信息搜集方法和服務提供方式的不同,搜索引擎系統可以分為三大類:

2.1 目錄式搜索引擎

以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網站,提供目錄瀏覽服務和直接檢索服務。該類搜索引擎因為加入了人的智能,所以信息準確、導航質量高,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。這類搜索引擎的代表是:MSN.com、Yahoo.com等,而國內最有名的目錄式搜索引擎是hao123.com。

2.2 機器人搜索引擎

由一個稱為蜘蛛(Spider)的機器人程序以某種策略自動地在互聯網中搜集和發現信息,由索引器為搜集到的信息建立索引,由檢索器根據用戶的查詢輸入檢索索引庫,并將查詢結果返回給用戶。服務方式是面向網頁的全文檢索服務。該類搜索引擎的優點是信息量大、更新及時、毋需人工干預,缺點是返回信息過多,有很多無關信息,用戶必須從結果中進行篩選。這類搜索引擎的代表是:Google;國內代表為:百度等。

2.3 元搜索引擎

這類搜索引擎沒有自己的數據,而是將用戶的查詢請求同時向多個搜索引擎遞交,將返回的結果進行重復排除、重新排序等處理后,作為自己的結果返回給用戶。服務方式為面向網頁的全文檢索。這類搜索引擎的優點是返回結果的信息量更大、更全,缺點是不能夠充分使用所使用搜索引擎的功能,用戶需要做更多的篩選。

3 如何判斷搜索引擎的優劣

判定一個檢索系統的優劣,主要從質量、費用和時間三方面來衡量。因此,對計算機網絡信息檢索的效果評價,也應該從這3個方面進行。質量標準主要通過查全率與查準率進行評價。費用標準即檢索費用是指用戶為檢索課題所投入的運行費用。時間標準是指花費時間,包括檢索準備時間、檢索過程時間、獲取文獻時間等。查全率和查準率是判定檢索效果的主要標準,而后兩者相對來說要次要些。

查全率是指系統在進行某一檢索時,檢出的相關文獻量與系統文獻庫中相關文獻總量的比率,它反映該系統文獻庫中實有的相關文獻量在多大程度上被檢索出來。

查全率=[檢出相關文獻量/文獻庫內相關文獻總量]100%。

查準率是指系統在進行某一檢索時,檢出的相關文獻量與檢出文獻總量的比率,它反映每次從該系統文獻庫中實際檢出的全部文獻中有多少是相關的。

查準率=[檢出相關文獻量/檢出文獻總量]100%。

查全率與查準率是評價檢索效果的兩項重要指標,查全率和查準率與文獻的存儲與信息檢索兩個方面是直接相關的,也就是說,與系統的收錄范圍、索引語言、標引工作和檢索工作等有著非常密切的關系。

3.1 影響查全率的因素

影響查全率的因素從文獻存儲來看,主要有:文獻庫收錄文獻不全;索引詞匯缺乏控制和專指性;詞表結構不完整;詞間關系模糊或不正確;標引不詳;標引前后不一致;標引人員遺漏了原文的重要概念或用詞不當等。此外,從情報檢索角度來看,主要有:檢索策略過于簡單;選詞和進行邏輯組配不當;檢索途徑和方法太少;檢索人員業務不熟練和缺乏耐心;檢索系統不具備截詞功能和反饋功能,檢索時不能全面地描述檢索要求等。

3.2 影響查準率的因素

影響查準率的因素主要有:索引詞不能準確描述文獻主題和檢索要求;組配規則不嚴密;選詞及詞間關系不正確;標引過于詳盡;組配錯誤;檢索時所用檢索詞(或檢索式)專指度不夠,檢索面寬于檢索要求;檢索系統不具備邏輯“非”功能和反饋功能;檢索式中允許容納的詞數量有限;截詞部位不當,檢索式中使用邏輯“或”不當等等。

實際上,影響檢索效果的因素是非常復雜的。根據相關專家所做的檢索統計實驗表明,查全率與查準率是呈互逆關系的。要想做到查全,勢必會要對檢索范圍和限制逐步放寬,則結果是會把很多不相關的文獻也帶進來,影響了查準率。企圖使查全率和查準率都同時提高,不是很容易的。強調一方面,忽視另一方面,也是不妥當的。應當根據具體課題的要求,合理調節查全率和查準率,保證檢索效果。

4 搜索引擎的未來發展趨勢

搜索引擎經過幾年的發展和摸索,越來越貼近人們的需求,搜索引擎的技術也得到了很大的發展。搜索引擎的最新技術發展包括以下幾個方面:

4.1 提高搜索引擎對用戶檢索提問的理解

為了提高搜索引擎對用戶檢索提問的理解,就必須有一個好的檢索提問語言,為了克服關鍵詞檢索和目錄查詢的缺點,現在已經出現了自然語言智能答詢。用戶可以輸入簡單的疑問句,比如“how can kill virus of computer?”。搜索引擎在對提問進行結構和內容的分析之后,或直接給出提問的答案,或引導用戶從幾個可選擇的問題中進行再選擇。自然語言的優勢在于,一是使網絡交流更加人性化,二是使查詢變得更加方便、直接、有效。就以上面的例子來講,如果用關鍵詞查詢,多半人會用“virus”這個詞來檢索,結果中必然會包括各類病毒的介紹、病毒是怎樣產生的等等許多無效信息,而用“how can kill virus of computer?”,搜索引擎會將怎樣殺病毒的信息提供給用戶,提高了檢索效率。

4.2 對檢索結果進行處理

4.2.1 基于鏈接評價的搜索引擎

基于鏈接評價的搜索引擎的優秀代表是Goggle,它獨創的“鏈接評價體系”是基于這樣一種認識,一個網頁的重要性取決于它被其它網頁鏈接的數量,特別是一些已經被認定是“重要”的網頁的鏈接數量。這種評價體制與《科技引文索引》的思路非常相似,但是由于互聯網是在一個商業化的環境中發展起來的,一個網站的被鏈接數量還與它的商業推廣有著密切的聯系,因此這種評價體制在某種程度上缺乏客觀性。

4.2.2 基于訪問大眾性的搜索引擎

基于訪問大眾性的搜索引擎的代表是direct hit,它的基本理念是多數人選擇訪問的網站就是最重要的網站。根據以前成千上萬的網絡用戶在檢索結果中實際所挑選并訪問的網站和他們在這些網站上花費的時間來統計確定有關網站的重要性排名,并以此來確定哪些網站最符合用戶的檢索要求。因此具有典型的趨眾性特點。這種評價體制與基于鏈接評價的搜索引擎有著同樣的缺點。

4.2.3 去掉檢索結果中附加的多余信息

有調查指出,過多的附加信息加重了用戶的信息負擔,為了去掉這些過多的附加信息,可以采用用戶定制、內容過濾等檢索技術。

參考文獻

[1]賈福新,鄭紅軍.現代信息檢索[M].北京:機械工業出版社,2005.

[2]徐寶文.搜索引擎與信息獲取技術[M].北京:清華大學出版社,2003.

[3]王通.搜索引擎排名秘笈[M].北京:企業管理出版社,2004.

主站蜘蛛池模板: 亚洲三级色| 日韩二区三区无| 91精品国产91久久久久久三级| 午夜影院a级片| 一级一级一片免费| 成人蜜桃网| 国产成人精品亚洲77美色| 欧美区国产区| 丰满的少妇人妻无码区| 日韩在线网址| 999在线免费视频| 无码一区18禁| 国产成人高精品免费视频| 午夜电影在线观看国产1区| 亚洲欧美综合在线观看| 97成人在线观看| 久久香蕉国产线看观看精品蕉| 26uuu国产精品视频| 午夜毛片免费观看视频 | 在线欧美a| 2021亚洲精品不卡a| 色成人综合| 免费国产在线精品一区| 国产91全国探花系列在线播放| 99伊人精品| 国产区福利小视频在线观看尤物| 亚洲av无码牛牛影视在线二区| 99久久性生片| 91色在线视频| 91精品国产自产在线老师啪l| 色噜噜在线观看| 久久女人网| 午夜影院a级片| 极品私人尤物在线精品首页| 无码人妻免费| 国产成熟女人性满足视频| 综合亚洲网| 亚洲一级毛片在线观播放| 久久五月天国产自| 欧美成人午夜影院| 亚洲一区二区在线无码| 成人福利在线免费观看| 亚洲欧美另类日本| a级毛片免费在线观看| 免费a级毛片视频| 亚洲国产成人无码AV在线影院L| 亚洲天堂免费观看| 青青青国产免费线在| 色偷偷一区二区三区| 亚洲国产精品美女| 亚洲swag精品自拍一区| 久久国产亚洲欧美日韩精品| 国产亚洲美日韩AV中文字幕无码成人| 三上悠亚精品二区在线观看| 亚洲天堂伊人| 国产在线八区| 特级精品毛片免费观看| 在线日韩一区二区| 久久五月视频| 国产无码精品在线播放| 自拍欧美亚洲| 欧美曰批视频免费播放免费| 欧美自慰一级看片免费| 亚洲欧美日韩另类在线一| 中文字幕va| 欧美精品黑人粗大| 国模粉嫩小泬视频在线观看| 在线一级毛片| 高清久久精品亚洲日韩Av| 亚洲人成色在线观看| 日韩经典精品无码一区二区| 日本手机在线视频| 亚洲区一区| 久操中文在线| 中文字幕欧美日韩| 国产高清精品在线91| 国产精品网曝门免费视频| 国产靠逼视频| 日韩第九页| 九色在线观看视频| 最新国产网站| 欧美精品三级在线|