[摘要] 本文介紹了搜索引擎的發展與分類,給出了一種搜索引擎的架構并對各個組成部分進行了分析,最后分析了如何來評價搜索引擎性能的技術指標。
[關鍵詞] 搜索引擎 發展 分類 技術指標
一、引言
互聯網發展的今天,一方面離不開其開放、共享的特性帶給人們的全新體驗,另一方面也離不開數以億計的為其提供各類豐富內容的網絡節點。互聯網被普及前,人們查閱資料第一想到的便是擁有大量書籍資料的圖書館,到了今天,很多人都會選擇一種更方便、快捷、全面、準確的方式——使用搜索引擎。
二、搜索引擎的歷史
20世紀90年初,當時萬維網(World Wide Web)還未出現,為了查詢散布在各個分散的主機中的文件,曾有過Archie, Gopher等搜索工具,隨著互聯網的迅速發展,基于HTTP訪問的web技術的迅速普及,它們就不再能適應用戶的需要。1994年,Lycos推出了基于Robot的數據發現技術。1998年10月,Google誕生,它是目前最流行的搜索引擎之一,具備很多獨特而且優秀的功能,并且在界面等方面實現了革命性創新。
三、搜索引擎的分類
按照信息搜集方法和服務提供方式的不同,搜索引擎系統可以分為三大類。但各種搜索引擎站點正在結合其他搜索引擎的優點,在類型上有逐漸融合的趨勢。
1.目錄式(Directory)搜索引擎。以人工方式或半自動方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。該類搜索引擎因為加入了人的智能,所以信息準確、導航質量高,缺點是需要人工介入、維護量大、信息量少、信息更新不及時。這類搜索引擎的代表是:Yahoo!(dir.yahoo.com)和Open Directory Project(www.dmoz.org)。
2.基于機器人(Robot-based)的搜索引擎。基于機器人的搜索引擎是一種典型的搜索引擎。由一個稱為爬蟲(Spiders或robots)的機器人程序以某種策略自動地在Internet中搜集和發現信息,由索引器為搜集到的信息建立索引,由檢索器根據用戶的查詢輸入檢索索引庫,并將查詢結果返回給用戶。該方式力求能夠對WWW中所有數據進行檢索,涉及網上的任何領域,然而由于WWW 的海量信息,實際運行中往往只能對WWW 中部分內容進行檢索。這類搜索引擎的代表是:Google(www.google.com),國內的有百度(www.baidu.com)等。
3.元搜索引擎(Meta-searchengine)。元搜索引擎的基本思想是:當搜索引擎受到來自客戶的查詢請求后,自動將這些查詢請求轉發給其它多個搜索引擎,并將各搜索引擎返回的查詢結果收集起來進行處理,最終提供給用戶。這類搜索引擎沒有自己的數據,而是將用戶的查詢請求同時向多個搜索引擎遞交,將返回的結果進行重復排除、重新排序等處理后,作為自己的結果返回給用戶。這類搜索引擎的代表是WebCrawler、InfoMarket等。
四、搜索引擎基本組成
1.搜索器。搜索器的功能是在Internet中漫游,發現和搜集信息。搜索器搜集的信息類型多種多樣,包括HTML文本、XML文本、Newsgroup文章、FTP文件、字處理文檔(如Word,Postscript, PDF)、多媒體信息(如圖片、聲音、動畫、視頻)等。它常常是一個或者多個互相協調的計算機程序,日夜不停地運行,目的是要盡可能多、盡可能快地搜集各種類型的新信息,同時因為Internet上的信息更新很快,所以還要定期更新已經搜集過的舊信息,以避免死連接和無效連接。
2.索引器。索引器的功能是理解搜索器所搜索的信息,從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表。索引項有客觀索引項和內容索引項兩種:客觀項與文檔的語意內容無關,內容索引項是用來反映文檔內容的。一個搜索引擎的有效性在很大程度上取決于索引的質量。
3.檢索器。檢索器的功能是根據用戶的查詢在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,并實現某種用戶相關性反饋機制。檢索器常用的信息檢索模型有集合理論模型、代數模型、概率模型和混合模型四種。
4.用戶接口。用戶接口的作用是輸入用戶查詢、顯示查詢結果、提供用戶相關性反饋機制。主要的目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效、及時的信息。用戶接口的設計和實現使用人機交互的理論和方法,以充分適應人類的思維習慣。
五、搜索引擎技術指標
可以用查全率(Recall)和查準率(Pricision)衡量一個搜索引擎的性能,定義如下:
查準率(精度)=搜索到的相關文檔數/搜索到的全部文檔數
查全率(召回率)=搜索到的相關文檔數/包含的全部相關文檔數
影響一個搜索引擎系統的性能有很多因素,最主要的是信息檢索模型,包括文檔和查詢的表示方法、評價文檔和用戶查詢相關性的匹配策略、查詢結果的排序方法和用戶進行相關度反饋的機制等。
六、小結
互聯網技術的發展,使得互聯網上的信息量急劇增加,信息越來越豐富,越來越多的網絡用戶依靠搜索引擎技術,從浩瀚的信息海洋中獲取信息,為學習、生活提供越來越多的便利,搜索引擎技術必將會有更大的發展應用。
參考文獻:
[1]李曉明:http://www.se-express.com[EB]
[2]劉峰王秀坤楊南海馬霖:中英文專業搜索引擎中數據采集加工的設計與實現[J].計算機應用研究.2004,21(10):155~157
注:本文中所涉及到的圖表、注解、公式等內容請以PDF格式閱讀原文。