999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

淺談搜索引擎的分類及特點

2013-12-31 00:00:00張籍文
中外企業文化 2013年12期

【文章摘要】

隨著信息技術的發展,網絡的迅速普及,搜索引擎在網絡用戶的生活中扮演著越來越重要的地位,本文就爬蟲式的搜索引擎、目錄搜索引擎和元搜索引擎做了詳盡的分析比較,并對目前的搜索引擎的特點進行了描述。

【關鍵詞】

搜索引擎;分類;爬蟲;元搜索引擎

目前Internet上的搜索引擎按其工作方式主要可分為三種,分別是爬蟲式的搜索引擎(Spider Based Search Engine),目錄搜索引擎(Search Directory)和元搜索引擎(Meta Search Engine)。

1 爬蟲式的搜索引擎

基于爬蟲(也叫Spider)的搜索引擎利用一個稱為Spider的程序自動訪問Web站點,提取站點上的網頁,并根據網頁中的鏈接進一步提取其它網頁或轉移到其它站點上。Robot搜集的網頁被加入到搜索引擎的數據庫中供用戶查詢使用。基于Spider的搜索引擎山三個主要部分構成Spider,Index和搜索軟件。爬蟲從一個事先制定好的URLs列表出發,這個列表中的URLs通常是從以往訪問記錄中提取出來的,特別是一些熱門站點和“What’s New”網頁,從Usenet等地方檢索得到的URLs也常被用作起始URLs,很多搜索引擎還接受用戶提交的URLs,這些URLs也會被安排在列表中供爬蟲問列表中,如此遞歸地訪問Web。

爬蟲作為一個程序,可以用C,Perl,Java等語言來編寫,可以運行在Unix,Solaris,Windows,NT,OS2和MAC等平臺上。爬蟲設計是否合理將直接影響它訪問Web的效率,影響搜索數據庫的質量,另外在設計爬蟲時還必須考慮它對網絡和被訪問站點的影響,因為爬蟲一般都運行在速度快,帶寬高的主機上,如果它快速訪問一個速度比較慢的目標站點,就有可能會導致該站點出現阻塞甚至當機。Robot還應遵守一些協議,以便被訪問站點的管理員能夠確定哪些內容能被訪問,哪些不能。Index是一個龐大的數據庫,爬蟲提取的網頁將被放入到Index中以便建立索引,不同的搜索引擎會采取不同方式來建立索引,有的對整個HTML文件的所有單詞都建立索引,有的只分析HTML文件的標題或前幾段內容,還有的能處理HTML文件中的META標記或其它小可見的特殊標記。當用戶查詢一個關鍵詞時,搜索軟件將搜索Index,找出所有與關鍵詞相符合的網頁,有時候這些網頁可能有成千上萬,等級值的用途就是作為一種排序的依據,搜索軟件將按照等級值從高到低的順序把搜索結果送回到用戶的瀏覽器中。

這類搜索引擎因為依靠程序搜集數據,所以其數據庫相當龐大,搜索的結果查全率較高,但查準率較低。例如著名的搜索引擎Google,Baidu,A1taVista,InfoSeek等。

2 目錄搜索引擎

目錄搜索引擎的數據庫是依靠專職編輯或志愿人員建立起來的,這些編輯人員在訪問了某個Web站點后撰寫一段對該站點的描述,并根據站點的內容和性質將其歸為一個預先分好的類別,把站點的URL和描述放在這個類別中,當用戶查詢某個關鍵詞時,搜索軟件只在這些描述中進行搜索。很多目錄也接受用戶提交的網站和描述,當目錄的編輯人員認可該網站及描述后,就會將之添加到合適的類別中。目錄的結構為樹形結構,首頁提供了最基本的幾個大類的入口,用戶可以一級一級地向下訪問,直至找到自己感興趣的類別,另外,用戶也可以利用目錄提供的搜索功能直接查找一個關鍵詞。不過,由于目錄式搜索引擎只在保存了對站點的描述中進行搜索,因此站點本身的動態變化不會反映到搜索結果中來,這也是目錄式搜索引擎與基于Robot的搜索引擎之間的一大區別。

3 元搜索引擎

元搜索引擎也叫做Multiple Search Engine,元搜索引擎在接受用戶查詢請求時,同時在其他多個引擎上進行搜索,將結果進行相關處理,以整體統一的格式反饋給用戶。它的特點是本身并沒有存放網頁信息的數據庫。嚴格意義上來講,元搜索引擎只能算是一種用戶代理,而不是真正的搜索引擎。多數元搜索引擎在處理其它的搜索引擎返回結果時,只提取出每個搜索引擎的結果中考前的條目,然后將這些條目合并在一起返回給用戶,因此最后結果的數量可能會遠少于直接在一個搜索引擎上進行查找所得到的數量。

元搜索引擎實現起比較簡單,但是它也有一定的局限性,例如多數元搜索引擎都只能訪問少數幾個搜索引擎,并且通常不支持這些搜索引擎的高級搜索功能,在處理邏輯查詢時也常常會出現錯誤。著名的元搜索引擎有InfoSpace,Dogpile,Vivisimo等(元搜索引擎列表)。在搜索結果排列方面,有的直接按來源引擎排列搜索結果,如Dogpile,有的則按自定的規則將結果重新排列組合,如Vivisimo。

在這幾中檢索工具中,目錄式搜索引擎雖有成本高,信息t少的缺點,但它的信息準確這一優點是另二者所無法比擬的,故在一定的領域,一定的時間,它仍會被使用:機器人搜索引擎是當前各種搜索引擎的主流;但隨著網絡信息量的不斷增加,單一的搜索引擎已經難已滿足其要求,結合目錄式搜索引擎,機器人搜索引擎的優勢,以元搜索引擎核心的多層代理搜索引擎是搜索引擎的發展方向。

搜索引擎技術從出現至今已獲得了飛速的發展,現在的搜索引擎功能越來越強大,提供的服務也越來越全面,它們的目標不僅僅是提供單純的查詢功能,而是把自己發展成為用戶首選的Internet入口站點。目前的搜索引擎主要有以下幾個主要特點:

1.多樣化和個性化的服務。現在絕大多數搜索引擎都提供多樣化的服務,以吸引更多的用戶,商業搜索引擎尤其注重這一點。以Yahoo為例,用戶可以從它的首頁中查看新聞,金融證券,天氣預報等信息,還可以進行網上購物,拍賣或者使用Email等服務。可以說多樣化和個性化的服務既滿足了用戶更多的需求,也為搜索引擎網站帶來了更多的利潤。

2.強大的查詢功能。與最早的搜索引擎相比,現在的搜索引擎在查詢功能方面已有了很大的改進。除了簡單的AND,OR和NOT邏輯外,不少搜索引擎還支持相似查詢,例如AltaVista,Lycos等支持短語查詢,AltaVista的高級搜索功能支持NEAR邏輯等。

3.目錄和基于Robot的搜索引擎相互結合。目錄和基于Robot的搜索引擎都具有自己的特點,在當前的技術條件下,最好的選擇是將兩種技術進行結合,同時為用戶提供這兩種類型的服務。以Yahoo為例,用戶既可以進行分類網站查詢也可以進行全部網頁查詢,這兩種不同的查詢方式很好的滿足了不同用戶的需求。雖然搜索引擎已經為用戶提供了快捷和便利的服務,但是也存在著許多問題和不足。特別是在系統的穩定性,速度,易用性和返回的信息量及相關度方面還與人們的要求存在著一定的差距,搜索引擎技術的發展任重而道遠。

【參考文獻】

李曉明,劉建國.搜索引擎技術及趨勢.大學圖書館學報.2000,(16).

【作者簡介】

張籍文(1980—),女,遼寧省丹東市人,同濟大學軟件學院碩士研究生。

主站蜘蛛池模板: 99视频免费观看| 欧美亚洲一二三区| 1769国产精品免费视频| 麻豆国产精品一二三在线观看| 露脸国产精品自产在线播| 国产91九色在线播放| 99er这里只有精品| 一本大道无码日韩精品影视| 久久9966精品国产免费| 久青草免费在线视频| 在线亚洲小视频| 国产精品成人一区二区| 国产亚洲一区二区三区在线| 亚洲第一成年人网站| 美女无遮挡拍拍拍免费视频| 亚洲一区无码在线| 亚洲一级毛片免费观看| 大陆国产精品视频| 最新国产精品第1页| 内射人妻无套中出无码| 亚洲av无码成人专区| 亚瑟天堂久久一区二区影院| 国产在线无码一区二区三区| 国产精品 欧美激情 在线播放| 日韩一区二区三免费高清| 国产三级精品三级在线观看| 亚欧美国产综合| 亚洲国产成人麻豆精品| 国产乱人免费视频| 国产一区二区精品福利| 毛片网站在线播放| 欧美19综合中文字幕| 热久久综合这里只有精品电影| 国产色图在线观看| 欧美在线伊人| 亚洲一级毛片免费观看| 五月激情婷婷综合| 在线观看无码av五月花| 国产成人精品视频一区二区电影| 国产亚洲欧美日韩在线一区二区三区| A级全黄试看30分钟小视频| 2021亚洲精品不卡a| 国产香蕉在线视频| 国产成人禁片在线观看| 国产综合精品日本亚洲777| 97成人在线视频| 一级黄色网站在线免费看| 国产成人一区免费观看| 亚洲精品国产综合99久久夜夜嗨| 一级在线毛片| 欧洲高清无码在线| aⅴ免费在线观看| 狠狠躁天天躁夜夜躁婷婷| 中文字幕乱码二三区免费| 无码AV日韩一二三区| 熟妇人妻无乱码中文字幕真矢织江 | 91小视频在线| 四虎影视无码永久免费观看| 国产菊爆视频在线观看| 国内精品伊人久久久久7777人| 亚洲欧美另类专区| 亚洲福利片无码最新在线播放| 久久a级片| 亚洲综合色婷婷中文字幕| 91精品在线视频观看| 国产青榴视频| 欧美日韩久久综合| 日韩在线永久免费播放| 国产在线98福利播放视频免费| 亚洲娇小与黑人巨大交| 久久香蕉国产线看观看式| 亚洲欧洲一区二区三区| 国产国产人免费视频成18| 亚洲中文字幕97久久精品少妇| 精品国产欧美精品v| 香蕉网久久| 18禁黄无遮挡免费动漫网站| 国产精品护士| 国产亚洲高清视频| 国产精品播放| 天天激情综合| 91在线播放国产|