999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

獨(dú)立搜索引擎的基本工作原理淺析

2009-12-31 00:00:00鄭洪濤
中國(guó)科技財(cái)富 2009年16期

摘要:獨(dú)立搜索引擎的檢索技術(shù)是在聯(lián)機(jī)數(shù)據(jù)庫(kù)檢索技術(shù)的基礎(chǔ)上發(fā)展起來(lái)的,它們實(shí)質(zhì)上都是對(duì)信息集合與需求集合的匹配。本文著重討論了獨(dú)立搜索引擎的工作原理及其所包含的技術(shù)方法。

關(guān)鍵詞:獨(dú)立搜索引擎;Robot;IndexerSearcher;工作原理分析

WWW網(wǎng)上浩如煙海的信息資源,吸引著大量的用戶。但,網(wǎng)民對(duì)特定信息的需求驅(qū)使人們想方設(shè)法擺脫信息查詢大海撈針般的困境。1994年4月Web craWler搜索引擎在網(wǎng)上正式發(fā)布并開始服務(wù)。1996年后,搜索引擎進(jìn)入了“容量建設(shè)期”。當(dāng)前,搜索引擎正經(jīng)歷著從“數(shù)量累積階段”到“質(zhì)量精煉階段”的變革。就現(xiàn)階段來(lái)說(shuō),WWW網(wǎng)上的信息檢索工具主要以獨(dú)立搜索引擎為主(就是通常意義上我們說(shuō)的搜索引擎),是相對(duì)于集合搜索引擎(或元搜索引擎)而稱。獨(dú)立搜索引擎是元搜索引擎與信息檢索代理(agent)的技術(shù)基礎(chǔ),故對(duì)網(wǎng)絡(luò)信息檢索系統(tǒng)的研究是基于對(duì)獨(dú)立搜索引擎的研究。

獨(dú)立搜索引擎的檢索技術(shù)是在聯(lián)機(jī)數(shù)據(jù)庫(kù)檢索技術(shù)的基礎(chǔ)上發(fā)展起來(lái)的,它們實(shí)質(zhì)上都是對(duì)信息集合與需求集合的匹配,但獨(dú)立搜索引擎面臨著比聯(lián)機(jī)數(shù)據(jù)庫(kù)檢索系統(tǒng)遠(yuǎn)為復(fù)雜的環(huán)境。網(wǎng)絡(luò)信息的數(shù)量之巨、增長(zhǎng)之快,異構(gòu)性、分布性和動(dòng)態(tài)性的趨勢(shì)以及來(lái)源廣泛,又缺乏質(zhì)量控制,甚至有專門針對(duì)獨(dú)立搜索引擎的陷阱行為等特點(diǎn),決定了獨(dú)立搜索引擎除了繼承聯(lián)機(jī)數(shù)據(jù)庫(kù)檢索的技術(shù)方法外,還必須設(shè)法解決這些復(fù)雜環(huán)境帶來(lái)的問(wèn)題。獨(dú)立搜索引擎其工作原理是如何的?它包含有那些技術(shù)方法?(這里討論的是狹義的搜索引擎)

一、獨(dú)立搜索引擎的概念以及其基本結(jié)構(gòu)機(jī)理分析

獨(dú)立搜索引擎是指利用網(wǎng)絡(luò)自動(dòng)搜索技術(shù)軟件(Robot)對(duì)Internet(主要是Web)網(wǎng)絡(luò)資源進(jìn)行搜集,并整理、組織從而形成管理與存儲(chǔ)這些信息的索引數(shù)據(jù)庫(kù)。基于該索引數(shù)據(jù)庫(kù),以超文本形式在Internet上面向網(wǎng)絡(luò)用戶提供網(wǎng)上信息資源檢索和導(dǎo)航服務(wù)的一類信息服務(wù)系統(tǒng)。其目的只有一個(gè):尋找相關(guān)性最高的網(wǎng)頁(yè)。

獨(dú)立搜索引擎作為處于用戶層和WWW網(wǎng)絡(luò)層之間的一個(gè)中間層次,一般地,我們可以把獨(dú)立搜索引擎看成是一個(gè)雙層的客戶機(jī)/服務(wù)器與從客戶機(jī)過(guò)渡到服務(wù)器的數(shù)據(jù)提取和組織模塊的結(jié)構(gòu)體系(Client/Server—Indexer—C/S)。其基本結(jié)構(gòu)一般包括有數(shù)據(jù)采集、數(shù)據(jù)提取與組織、數(shù)據(jù)檢索三個(gè)功能模塊。

(如圖所示)

1.數(shù)據(jù)采集模塊,是指獨(dú)立搜索引擎為客戶機(jī),通過(guò)一類自動(dòng)搜索軟件(Robot)按照一定的方式和要求向WWW站點(diǎn)等實(shí)際資源系統(tǒng)提出頁(yè)面搜索請(qǐng)求。各類WWW站點(diǎn)等實(shí)際資源系統(tǒng)為服務(wù)器,將有關(guān)數(shù)據(jù)(如WWW頁(yè)面或文檔)作為應(yīng)答提交給獨(dú)立搜索引擎,形成一個(gè)臨時(shí)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)。

2.數(shù)據(jù)提取和組織模塊,在這里獨(dú)立搜索引擎通過(guò)一個(gè)數(shù)據(jù)分析與標(biāo)引軟件(Indexer)對(duì)臨時(shí)網(wǎng)頁(yè)數(shù)據(jù)庫(kù)的有關(guān)數(shù)據(jù)進(jìn)行分析,提取有檢索或查詢價(jià)值的內(nèi)容,如網(wǎng)頁(yè)關(guān)鍵詞、網(wǎng)頁(yè)的分類類別等,并對(duì)關(guān)鍵詞進(jìn)行權(quán)值計(jì)算,建成一個(gè)規(guī)范的索引數(shù)據(jù)庫(kù)或便于瀏覽的層次型分類目錄結(jié)構(gòu)。使獨(dú)立搜索引擎從客戶機(jī)過(guò)渡到服務(wù)器。

3.數(shù)據(jù)檢索模塊,是指獨(dú)立搜索引擎為服務(wù)器,根據(jù)網(wǎng)絡(luò)用戶在用戶接口上提出的檢索請(qǐng)求,通過(guò)一個(gè)數(shù)據(jù)庫(kù)檢索軟件(Searcher)根據(jù)用戶接口接受的用戶請(qǐng)求,按照匹配的檢索策略與相應(yīng)的檢索技術(shù),并使用一個(gè)信息挖掘智能軟件(UP Mining)提取用戶相關(guān)信息為參照,反復(fù)檢索自己的索引數(shù)據(jù)庫(kù)獲取符合用戶需要的WWW信息。在用戶接口上將這些WWW信息有序地提供給網(wǎng)絡(luò)用戶。

二、獨(dú)立搜索引擎核心技術(shù)機(jī)理分析

從獨(dú)立搜索引擎的基本結(jié)構(gòu)機(jī)理分析結(jié)果看,其網(wǎng)上信息資源檢索功能的實(shí)現(xiàn)主要涉及三個(gè)核心技術(shù),Robot、Indexer與Searcher。

1.RobotiC/工作原理分析

Robot的主要功能是自動(dòng)從Internet上的各Web站點(diǎn)抓取Web文檔并從中提取一些信息來(lái)描述該文檔。為獨(dú)立搜索引擎站點(diǎn)的數(shù)據(jù)庫(kù)服務(wù)器追加和更新數(shù)據(jù)提供原始數(shù)據(jù)。運(yùn)行Robot時(shí),Robot首先將精選一批高質(zhì)量的URL(這些URL可以從以往訪問(wèn)過(guò)的或一些熱門的Web站點(diǎn)上提取),并遵循HTTP協(xié)議將這些URL所代表的網(wǎng)頁(yè)抓取回來(lái),再?gòu)淖ト〉降倪@些網(wǎng)頁(yè)中抽取出所有新的、示訪問(wèn)過(guò)的超級(jí)鏈接,并按照一定的算法選擇出另一批URL,繼續(xù)進(jìn)行網(wǎng)頁(yè)信息的收集:如此循環(huán)不止,直到滿足需要,就可以實(shí)現(xiàn)海量網(wǎng)頁(yè)的自動(dòng)搜集。Robot的性能很大程度上決定了獨(dú)立搜索引擎的“容量建設(shè)”。

2.Indexer的工作原理分析

Indexer的主要功能是理解Robot搜索的信息,從中抽出索引項(xiàng),用于表示文檔以及生成文檔庫(kù)的索引表。運(yùn)行Indexer時(shí),Indexer在HTML文件抽取索引項(xiàng),使用索引算法賦予其一個(gè)等級(jí)值,并以此為依據(jù)建立索引數(shù)據(jù)庫(kù)。Indexer的質(zhì)量主要影響?yīng)毩⑺阉饕娴挠行耘c查準(zhǔn)率。

3.Searche的工作原理分析

Searcher主要是根據(jù)用戶的檢索請(qǐng)求,啟動(dòng)預(yù)先設(shè)置的各種信息檢索模型在索引數(shù)據(jù)庫(kù)中快速檢出文檔,進(jìn)行文檔與檢索請(qǐng)求的相關(guān)度評(píng)價(jià),將檢索到的文檔排序輸出,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。

三、獨(dú)立搜索引擎的用戶接口

獨(dú)立搜索引擎的用戶接口是指用戶與獨(dú)立搜索引擎的人機(jī)界面,通常是一個(gè)Web應(yīng)用程序。它是接收、解釋用戶的搜索請(qǐng)求,提交給Searcher,檢索出的結(jié)果與相關(guān)評(píng)價(jià)有序列表顯示交互層。用戶接口界面的友好與否是用戶能否最大限度使用獨(dú)立搜索引擎各功能的關(guān)鍵。所以用戶接口的“人性化”是智能搜索引擎的特征表現(xiàn)。

參考文獻(xiàn):

[1]趙丹群.信息存儲(chǔ)與檢索(下).北京大學(xué)出版社,1998:43—47頁(yè)

[2]馬靜.搜索引擎機(jī)理剖析.中國(guó)信息導(dǎo)報(bào)2001,(6)

[3]洪光宗,王皓搜索引擎Robot技術(shù)實(shí)現(xiàn)的原理分析.現(xiàn)代圖書情報(bào)技術(shù)2002,(1)

[4]朱俊卿.搜索引擎Google研究.現(xiàn)代圖書情報(bào)技術(shù),2002(1)

主站蜘蛛池模板: 亚洲国产天堂久久综合| AⅤ色综合久久天堂AV色综合| 国产一级二级三级毛片| 国产在线自揄拍揄视频网站| 国产精品三级av及在线观看| 免费国产一级 片内射老| 国产毛片片精品天天看视频| 成人久久18免费网站| 美女无遮挡拍拍拍免费视频| 成年女人a毛片免费视频| 亚洲不卡av中文在线| a级毛片免费播放| 2021国产精品自拍| 国产尹人香蕉综合在线电影| 91系列在线观看| 久久婷婷六月| 香蕉eeww99国产精选播放| 亚洲日韩久久综合中文字幕| 亚洲天堂视频在线观看免费| 久久不卡国产精品无码| 最新日本中文字幕| 免费观看欧美性一级| 亚洲天堂在线免费| 国产在线观看一区精品| 亚洲天堂视频在线观看| 无码AV高清毛片中国一级毛片| 亚洲伦理一区二区| 国产自无码视频在线观看| 色偷偷男人的天堂亚洲av| 女同国产精品一区二区| lhav亚洲精品| 日韩天堂视频| 亚洲免费福利视频| 亚洲香蕉久久| 国产成人亚洲综合A∨在线播放| 99人体免费视频| 无码日韩精品91超碰| 成人日韩视频| 国产在线八区| 欧美中文字幕一区| 国产情精品嫩草影院88av| 国产精品三级专区| 人妖无码第一页| 国产成人综合在线观看| 97国产一区二区精品久久呦| 永久在线精品免费视频观看| 国产情侣一区二区三区| 黄色网在线免费观看| 国产精品2| 精品剧情v国产在线观看| 亚洲视频在线观看免费视频| 最新亚洲人成网站在线观看| 国产精品lululu在线观看| 欧美精品二区| 国产在线第二页| 伊人查蕉在线观看国产精品| 午夜高清国产拍精品| 久久久噜噜噜久久中文字幕色伊伊| 色偷偷一区二区三区| 日韩无码视频播放| 一级毛片在线免费视频| 国产人在线成免费视频| 久久99热66这里只有精品一| 凹凸国产分类在线观看| 操国产美女| 亚洲精品无码成人片在线观看| 国产精品无码AV中文| 精品人妻无码中字系列| 国产在线观看91精品| 国产精品亚洲五月天高清| 亚洲欧美成人网| 国产亚洲高清在线精品99| 91九色最新地址| 国产成人1024精品下载| 91在线无码精品秘九色APP| 国产精品亚洲一区二区在线观看| 亚洲国产清纯| 婷五月综合| 亚洲区第一页| 97久久超碰极品视觉盛宴| 99尹人香蕉国产免费天天拍| 国产日韩欧美视频|