搜索引擎發展的初步探討

2009-04-29 00:00:00周雅翠

現代情報 2009年5期

〔摘要〕隨著科學研究的深入發展，人們對文獻需求越來越廣泛，對搜索引擎理論的研究正在朝著多元化、專業化方向發展。特別是新型文獻載體的出現，開闊了搜索引擎理論研究的新視野。本文從搜索引擎的組成，搜索引擎的分類，如何識別搜索引擎的優劣，搜索引擎的未來發展動向等方面對搜索引擎技術做介紹。

〔關鍵詞〕搜索引擎；發展；分類

〔中圖分類號〕ＴＰ３９３.４〔文獻標識碼〕Ａ〔文章編號〕１００８－０８２１（２００９）０５－００２０－０３

Discussion on the Development of Search EngineZhou Yacui

（School of Computer Science and Engineering，Jilin Agricultural and Civil Engineering Institute，Changchun 130000，China）

〔Ａｂｓｔｒａｃｔ〕With the development of scientific research，people have more requirements for literature，the study on search engine is more diversity and professional.The emergence of new literature carrier explored the new field for search engine study.This paper discussed the combination，classification and the development trend of search engine，expounded on how to recognize the good from the bad.

〔Ｋｅｙｗｏｒｄｓ〕search engine;development;classification

１搜索引擎的組成

一個搜索引擎是由搜索器、索引器、檢索器和用戶接口4個部分組成。

１.１搜索器

搜索器的功能是在互聯網中發現和搜集信息。它常常是一個計算機程序，需要晝夜不停地運行。它的任務就是收集各種信息，同時因為互聯網上的信息更新很快，所以還要定期更新已經搜集過的舊信息。目前有兩種搜集信息的策略：從一個起始URL集合開始，順著這些URL中的超級鏈接（Hyperlink），以寬度優先、深度優先或啟發式方式循環地在互聯網中發現信息。這些起始URL可以是任意的URL，但常常是一些非常流行、包含很多鏈接的站點（如www.sina.com.cn）。將Web空間按照域名、IP地址或國家域名劃分，每個搜索器負責一個子空間的遍歷搜索。搜索器搜集的信息文件類型有許多種，包括HTML、XML、FTP文件、Word文檔以及大量的視頻及音頻信息。搜索器的實現常常采用分布式、并行計算等技術，以提高信息發現和更新的速度。商業搜索引擎的信息發現可以達到每天幾億個網頁。

１.２索引器

索引器的功能是分析搜索器所搜索到的信息，從中抽取出索引項，用于建立表示文檔以及生成文檔庫的索引表。索引項有客觀索引項和內容索引項兩種：客觀項與文檔的語意內容無關，如作者名、URL、更新時間、編碼、長度、鏈接流行度（Link Popularity）等等；內容索引項是用來反映文檔內容的，如關鍵詞及其權重、短語、單字等等。內容索引項可以分為單索引項和多索引項（或稱短語索引項）2種。單索引項對于英文來講是英語單詞，比較容易提取，因為單詞之間有天然的分隔符（空格）；對于中文等連續書寫的語言，必須進行詞語的切分。在搜索引擎中，一般要給單索引項賦與一個權值，以表示該索引項對文檔的區分度，同時用來計算查詢結果的相關度。使用的方法一般有統計法、信息論法和概率法。短語索引項的提取方法有統計法、概率法和語言學法。索引表一般使用某種形式的倒排表（Inversion List），即由索引項查找相應的文檔。索引表也可能要記錄索引項在文檔中出現的位置，以便檢索器計算索引項之間的相鄰或接近關系（Proximity）。索引器可以使用集中式索引算法或分布式索引算法。當數據量很大時，必須實現即時索引（Instant Indexing），否則不能夠跟上信息量急劇增加的速度。索引算法對索引器的性能（如大規模峰值查詢時的響應速度）有很大的影響。一個搜索引擎的時效性在很大程度上取決于索引的質量。

１.３檢索器

檢索器的功能是根據用戶的查詢在索引庫中快速檢索出文檔，進行文檔與查詢的相關度評價，對將要輸出的結果進行排序，并實現某種用戶相關性反饋機制。檢索器常用的信息檢索模型有集合理論模型、代數模型、概率模型和混合模型4種。

１.４用戶接口

用戶接口的作用是輸入用戶查詢內容、顯示查詢結果、提供用戶相關性反饋機制。是為方便用戶使用計算機資源所建立的用戶和計算機之間的聯系。通常指軟件接口，即在人機聯系的硬設備接口基礎上開發的軟件。如建立和清除連接、發送和接收數據、發送中斷信息、控制出錯、生成狀態報告表等。

２搜索引擎的分類

按照信息搜集方法和服務提供方式的不同，搜索引擎系統可以分為三大類：

２.１目錄式搜索引擎

以人工方式或半自動方式搜集信息，由編輯員查看信息之后，人工形成信息摘要，并將信息置于事先確定的分類框架中。信息大多面向網站，提供目錄瀏覽服務和直接檢索服務。該類搜索引擎因為加入了人的智能，所以信息準確、導航質量高，缺點是需要人工介入、維護量大、信息量少、信息更新不及時。這類搜索引擎的代表是：MSN.com、Yahoo.com等，而國內最有名的目錄式搜索引擎是hao123.com。

２.２機器人搜索引擎

由一個稱為蜘蛛（Spider）的機器人程序以某種策略自動地在互聯網中搜集和發現信息，由索引器為搜集到的信息建立索引，由檢索器根據用戶的查詢輸入檢索索引庫，并將查詢結果返回給用戶。服務方式是面向網頁的全文檢索服務。該類搜索引擎的優點是信息量大、更新及時、毋需人工干預，缺點是返回信息過多，有很多無關信息，用戶必須從結果中進行篩選。這類搜索引擎的代表是：Google；國內代表為：百度等。

２.３元搜索引擎

這類搜索引擎沒有自己的數據，而是將用戶的查詢請求同時向多個搜索引擎遞交，將返回的結果進行重復排除、重新排序等處理后，作為自己的結果返回給用戶。服務方式為面向網頁的全文檢索。這類搜索引擎的優點是返回結果的信息量更大、更全，缺點是不能夠充分使用所使用搜索引擎的功能，用戶需要做更多的篩選。

３如何判斷搜索引擎的優劣

判定一個檢索系統的優劣，主要從質量、費用和時間三方面來衡量。因此，對計算機網絡信息檢索的效果評價，也應該從這3個方面進行。質量標準主要通過查全率與查準率進行評價。費用標準即檢索費用是指用戶為檢索課題所投入的運行費用。時間標準是指花費時間，包括檢索準備時間、檢索過程時間、獲取文獻時間等。查全率和查準率是判定檢索效果的主要標準，而后兩者相對來說要次要些。

查全率是指系統在進行某一檢索時，檢出的相關文獻量與系統文獻庫中相關文獻總量的比率，它反映該系統文獻庫中實有的相關文獻量在多大程度上被檢索出來。

查全率＝［檢出相關文獻量／文獻庫內相關文獻總量］100%。

查準率是指系統在進行某一檢索時，檢出的相關文獻量與檢出文獻總量的比率，它反映每次從該系統文獻庫中實際檢出的全部文獻中有多少是相關的。

查準率＝［檢出相關文獻量／檢出文獻總量］100%。

查全率與查準率是評價檢索效果的兩項重要指標，查全率和查準率與文獻的存儲與信息檢索兩個方面是直接相關的，也就是說，與系統的收錄范圍、索引語言、標引工作和檢索工作等有著非常密切的關系。

３.１影響查全率的因素

影響查全率的因素從文獻存儲來看，主要有：文獻庫收錄文獻不全；索引詞匯缺乏控制和專指性；詞表結構不完整；詞間關系模糊或不正確；標引不詳；標引前后不一致；標引人員遺漏了原文的重要概念或用詞不當等。此外，從情報檢索角度來看，主要有：檢索策略過于簡單；選詞和進行邏輯組配不當；檢索途徑和方法太少；檢索人員業務不熟練和缺乏耐心；檢索系統不具備截詞功能和反饋功能，檢索時不能全面地描述檢索要求等。

３.２影響查準率的因素

影響查準率的因素主要有：索引詞不能準確描述文獻主題和檢索要求；組配規則不嚴密；選詞及詞間關系不正確；標引過于詳盡；組配錯誤；檢索時所用檢索詞（或檢索式）專指度不夠，檢索面寬于檢索要求；檢索系統不具備邏輯“非”功能和反饋功能；檢索式中允許容納的詞數量有限；截詞部位不當，檢索式中使用邏輯“或”不當等等。

實際上，影響檢索效果的因素是非常復雜的。根據相關專家所做的檢索統計實驗表明，查全率與查準率是呈互逆關系的。要想做到查全，勢必會要對檢索范圍和限制逐步放寬，則結果是會把很多不相關的文獻也帶進來，影響了查準率。企圖使查全率和查準率都同時提高，不是很容易的。強調一方面，忽視另一方面，也是不妥當的。應當根據具體課題的要求，合理調節查全率和查準率，保證檢索效果。

４搜索引擎的未來發展趨勢

搜索引擎經過幾年的發展和摸索，越來越貼近人們的需求，搜索引擎的技術也得到了很大的發展。搜索引擎的最新技術發展包括以下幾個方面：

４.１提高搜索引擎對用戶檢索提問的理解

為了提高搜索引擎對用戶檢索提問的理解，就必須有一個好的檢索提問語言，為了克服關鍵詞檢索和目錄查詢的缺點，現在已經出現了自然語言智能答詢。用戶可以輸入簡單的疑問句，比如“how can kill virus of computer?”。搜索引擎在對提問進行結構和內容的分析之后，或直接給出提問的答案，或引導用戶從幾個可選擇的問題中進行再選擇。自然語言的優勢在于，一是使網絡交流更加人性化，二是使查詢變得更加方便、直接、有效。就以上面的例子來講，如果用關鍵詞查詢，多半人會用“virus”這個詞來檢索，結果中必然會包括各類病毒的介紹、病毒是怎樣產生的等等許多無效信息，而用“how can kill virus of computer?”，搜索引擎會將怎樣殺病毒的信息提供給用戶，提高了檢索效率。

４.２對檢索結果進行處理

４.２.１基于鏈接評價的搜索引擎

基于鏈接評價的搜索引擎的優秀代表是Goggle，它獨創的“鏈接評價體系”是基于這樣一種認識，一個網頁的重要性取決于它被其它網頁鏈接的數量，特別是一些已經被認定是“重要”的網頁的鏈接數量。這種評價體制與《科技引文索引》的思路非常相似，但是由于互聯網是在一個商業化的環境中發展起來的，一個網站的被鏈接數量還與它的商業推廣有著密切的聯系，因此這種評價體制在某種程度上缺乏客觀性。

４.２.２基于訪問大眾性的搜索引擎

基于訪問大眾性的搜索引擎的代表是direct hit，它的基本理念是多數人選擇訪問的網站就是最重要的網站。根據以前成千上萬的網絡用戶在檢索結果中實際所挑選并訪問的網站和他們在這些網站上花費的時間來統計確定有關網站的重要性排名，并以此來確定哪些網站最符合用戶的檢索要求。因此具有典型的趨眾性特點。這種評價體制與基于鏈接評價的搜索引擎有著同樣的缺點。

４.２.３去掉檢索結果中附加的多余信息

有調查指出，過多的附加信息加重了用戶的信息負擔，為了去掉這些過多的附加信息，可以采用用戶定制、內容過濾等檢索技術。

參考文獻

［１］賈福新，鄭紅軍.現代信息檢索［Ｍ］.北京：機械工業出版社，2005．

［２］徐寶文.搜索引擎與信息獲取技術［Ｍ］.北京：清華大學出版社，2003．

［３］王通.搜索引擎排名秘笈［Ｍ］.北京：企業管理出版社，2004．

現代情報2009年5期

現代情報的其它文章: 網絡環境下的信息檢索與數據挖掘技術; 對非正式出版地方文獻的分析和思考; 知識集合的存貯與檢索功能分析; 面向知識創新的信息服務模式研究; 基于我國互聯網絡發展狀況的網絡信息資源優化配置策略研究; 機構知識庫：再造學術出版消費流程