999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

高精確搜索引擎

2015-05-30 03:14:49李慧趙旭
東方教育 2015年4期
關(guān)鍵詞:搜索引擎程序用戶(hù)

李慧 趙旭

【摘要】隨著互聯(lián)網(wǎng)上的信息每天都以指數(shù)數(shù)量級(jí)的速度爆炸性增長(zhǎng),Internet中的資源令人眼花繚亂,如何能夠迅速準(zhǔn)確地找到所需的信息,已成為眾多信息檢索人員所面臨的一個(gè)問(wèn)題,而搜索引擎在這方面起到了具足輕重的作用。本文主要分析了基于精確搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn),并提出了相應(yīng)的方法和手段。通過(guò)研究精確搜索引擎技術(shù),分析了一般的網(wǎng)絡(luò)爬蟲(chóng)的工作原理,在此基礎(chǔ)上設(shè)計(jì)了一個(gè)更加精確的搜索引擎系統(tǒng),在這個(gè)系統(tǒng)中將內(nèi)容和鏈接運(yùn)用邏輯域的方法相結(jié)合,用戶(hù)可以根據(jù)選擇的關(guān)鍵詞的邏輯關(guān)系來(lái)進(jìn)行搜索。

【關(guān)鍵詞】精確搜索引擎;網(wǎng)絡(luò)爬蟲(chóng);算法;邏輯域

一.引言

隨著科技的進(jìn)步,通用搜索引擎無(wú)論是在技術(shù)上還是在硬件條件上都有了明顯的提高。但是,即使最大通用搜索引擎到現(xiàn)在為止也只能覆蓋不到一半的網(wǎng)絡(luò),并且對(duì)搜索數(shù)據(jù)庫(kù)的更新,一般至少也需要數(shù)十天甚至數(shù)百天。其原因是因?yàn)橄胍ㄟ^(guò)搜索引擎的搜索功能去滿(mǎn)足用戶(hù)想要得到的查詢(xún)結(jié)果,雖然這種通過(guò)“廣泛撒網(wǎng)”的搜索方法有其不可替代的優(yōu)點(diǎn),但卻往往給用戶(hù)帶來(lái)太多不必要的垃圾信息。

二.精確搜索引擎

2.1精確搜索引擎的特點(diǎn)

通用搜索引擎的缺點(diǎn)來(lái)自于它們力圖覆蓋整個(gè)網(wǎng)絡(luò),并且不通過(guò)任何處理過(guò)程便把所有可能的主題作為查詢(xún)服務(wù)的目標(biāo)。精確搜索引擎由于其面向主題就克服了以上缺點(diǎn),具備更高的查準(zhǔn)率和查全率,因?yàn)樗鼈儗⑺阉餍畔⒌膬?nèi)容限定在一定的領(lǐng)域內(nèi)有效鎖定了搜索的范圍。一個(gè)面向主題的搜索引擎用一部分符合邏輯關(guān)系的事先選定好的網(wǎng)頁(yè)作為體現(xiàn)用戶(hù)興趣的樣本。為了獲得更多相關(guān)的網(wǎng)頁(yè),主要精確搜索引擎從一個(gè)給定的集合出發(fā),對(duì)基于內(nèi)容的網(wǎng)頁(yè)相關(guān)度算法進(jìn)行分析。

精確的搜索引擎其功能要求與通用搜索引擎是不相同的,主要體現(xiàn)在以下幾點(diǎn):

(1)通用搜索引擎的目標(biāo)是對(duì)整個(gè)Internet的資源進(jìn)行收集,搜集的網(wǎng)頁(yè)越多,搜索引擎就越全面,而面向主題的搜索引擎只需要針對(duì)既定內(nèi)容的既定主題進(jìn)行搜集,兩者在搜索的網(wǎng)頁(yè)信息量上在不同的數(shù)量級(jí)上。

(2)通用搜索引擎幾乎要對(duì)網(wǎng)頁(yè)內(nèi)所有的信息都進(jìn)行分析、檢索,而精確搜索引擎的網(wǎng)頁(yè)抓取準(zhǔn)確性很高,能夠提取用戶(hù) 關(guān)心的主題邏輯進(jìn)行搜索,搜索的范圍相對(duì)縮小,這樣更有利于快速搜集到用戶(hù)關(guān)心的網(wǎng)頁(yè)。

(3)在通用搜索引擎中搜索的是整個(gè)篇幅的網(wǎng)頁(yè),而精確搜索引擎只索引出網(wǎng)頁(yè)內(nèi)與主題相關(guān)的信息,更有利于用戶(hù)查找信息。

2.2網(wǎng)絡(luò)爬蟲(chóng)的應(yīng)用

網(wǎng)絡(luò)爬蟲(chóng)可以被看作是為Internet開(kāi)發(fā)的最有用的工具之一,它能夠從數(shù)以千計(jì)的各不相同的站點(diǎn)中收集信息。若將真?zhèn)€互聯(lián)網(wǎng)看做是一個(gè)網(wǎng)站,那么網(wǎng)絡(luò)爬蟲(chóng)就可以利用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)都抓取下來(lái)。

相對(duì)于通用網(wǎng)絡(luò)爬蟲(chóng),主題精確搜索引擎的爬蟲(chóng)還需要解決三個(gè)主要問(wèn)題:

(1)對(duì)抓取目標(biāo)的描述或定義的邏輯關(guān)系判定

(2)對(duì)網(wǎng)頁(yè)或數(shù)據(jù)的分析與過(guò)濾

(3)對(duì)URL的搜索策略

網(wǎng)頁(yè)的抓取策略可以分為深度優(yōu)先、廣度優(yōu)先和最佳優(yōu)先三種。深度優(yōu)先在很多情況下會(huì)導(dǎo)致爬蟲(chóng)的陷入問(wèn)題,常見(jiàn)的是廣度優(yōu)先和最佳優(yōu)先方法。

三.高精確搜索引擎的設(shè)計(jì)

本文的設(shè)計(jì)采取了面向主題的精確搜索策略,在針對(duì)搜索內(nèi)容中關(guān)鍵字的查詢(xún)時(shí)確定下一個(gè)主題,應(yīng)用爬蟲(chóng)程序直接從站點(diǎn)數(shù)據(jù)表中抓取網(wǎng)頁(yè)。由于Internet上的各種信息在爬蟲(chóng)爬行過(guò)程中都會(huì)遇到,所以在創(chuàng)爬蟲(chóng)建時(shí)不僅需要確保它能夠檢索數(shù)據(jù),而且還要做到分析數(shù)據(jù)和理解數(shù)據(jù)。由于從Web站點(diǎn)找到的大部分?jǐn)?shù)據(jù)都存儲(chǔ)在HTML文檔之中,因此HTML的數(shù)據(jù)類(lèi)型為本系統(tǒng)中所關(guān)心的數(shù)據(jù),采用這種做法大大縮小了查找的范圍,同時(shí)也為下一步的網(wǎng)頁(yè)解析工作奠定了基礎(chǔ)。本系統(tǒng)的網(wǎng)絡(luò)爬蟲(chóng)分為前臺(tái)和后臺(tái)兩個(gè)部分。前臺(tái)為用戶(hù)提供添加網(wǎng)址,作為種子站點(diǎn),其后再選擇主題進(jìn)行索引。后臺(tái)則是一個(gè)完整的爬蟲(chóng)程序,其構(gòu)造是采用的多線(xiàn)程技術(shù),這種構(gòu)造能夠從種子站點(diǎn)數(shù)據(jù)表中讀取網(wǎng)頁(yè)地址,并且分析網(wǎng)頁(yè)代碼。

本著一切立足于實(shí)際的理念,依據(jù)擬定的系統(tǒng)實(shí)施方案,對(duì)整個(gè)系統(tǒng)各方面的需求進(jìn)行了分析。在本次系統(tǒng)的實(shí)現(xiàn)上,主題精確搜索的數(shù)據(jù)采集是通過(guò)爬蟲(chóng)程序來(lái)完成,與此同時(shí)使用了多種輔助策略。爬蟲(chóng)程序的采集器從萬(wàn)維網(wǎng)中采集回來(lái)數(shù)據(jù)經(jīng)過(guò)既設(shè)的處理(保留主題范圍內(nèi)的網(wǎng)頁(yè),丟棄范圍之外的網(wǎng)頁(yè))。其運(yùn)行的方法是在每爬行完一個(gè)頁(yè)面后,它就會(huì)抽取出相應(yīng)網(wǎng)頁(yè)中的鏈接,再剔除不可能與主題相關(guān)的鏈接和自己爬行的鏈接,然后將余下的鏈接按一定的順序加入到鏈接列表中。排序的規(guī)則就是預(yù)測(cè)被連接的頁(yè)面與主題的相關(guān)程度,相關(guān)性高的鏈接將會(huì)排在列表靠前的位置。最后,取出列表中排列最前的鏈接,那么用戶(hù)就得到了與主題相關(guān)的頁(yè)面。

本系統(tǒng)模型設(shè)計(jì)基本上可以看作為:

(1)從網(wǎng)上抓取網(wǎng)頁(yè)

(2)建立數(shù)據(jù)庫(kù)

(3)主題相關(guān)度分析

(4)按照相關(guān)度排序

通過(guò)對(duì)本系統(tǒng)模擬發(fā)仿真實(shí)驗(yàn),充分說(shuō)明了一個(gè)主題爬蟲(chóng)設(shè)計(jì)方案的可行性,以主題爬蟲(chóng)為基礎(chǔ)可以開(kāi)發(fā)主題精確搜索引擎,結(jié)合到具體應(yīng)用,主題爬蟲(chóng)可以在受限領(lǐng)域內(nèi)進(jìn)行面向主題的信息采集。由此可見(jiàn),主題精確搜索引擎雖然小巧,但是由于它使用了多種精確主題搜索引擎,使得它在一個(gè)特定主題下比通用搜索引擎要準(zhǔn)確貼切,這樣,用戶(hù)就能更快找到需要的信息。

該系統(tǒng)所定義的是面向主題的精確搜索引擎,就總體而言,構(gòu)造了一個(gè)可以從自定義的web站點(diǎn)下載所有HTML文件的多線(xiàn)程網(wǎng)絡(luò)爬蟲(chóng)程序,所謂多線(xiàn)程是指同一個(gè)程序在同一時(shí)刻運(yùn)行超過(guò)一個(gè)任務(wù)的能力,采用多線(xiàn)程技術(shù)可以提高爬蟲(chóng)的運(yùn)行效率。一個(gè)網(wǎng)絡(luò)爬蟲(chóng)需要同時(shí)下載多張網(wǎng)頁(yè),想要完成此任務(wù),爬蟲(chóng)程序必須向服務(wù)器發(fā)出請(qǐng)求然后接受這些網(wǎng)頁(yè)。程序等待響應(yīng)的過(guò)程就是程序執(zhí)行的一個(gè)瓶頸,因?yàn)楸M管程序已經(jīng)請(qǐng)求了網(wǎng)頁(yè),但必須要等待請(qǐng)求經(jīng)過(guò)Internet向web服務(wù)器傳輸。這種情況下,多線(xiàn)程技術(shù)將數(shù)個(gè)網(wǎng)頁(yè)的等待時(shí)間結(jié)合在一起,而不是一個(gè)接一個(gè)的執(zhí)行。當(dāng)爬蟲(chóng)程序使用線(xiàn)程時(shí),可以在計(jì)算遍歷算法和其他輔助運(yùn)算時(shí)同步訪(fǎng)問(wèn)網(wǎng)站,這樣更有利于爬蟲(chóng)的后臺(tái)操作。通過(guò)在多個(gè)作業(yè)之間的切換,可以使程序充分利用CPU的占有率和網(wǎng)卡資源。

四.高精確搜索引擎的優(yōu)點(diǎn)和前景

主題搜索引擎已成為一個(gè)新的研究、開(kāi)發(fā)領(lǐng)域,在此基礎(chǔ)上,也應(yīng)當(dāng)對(duì)網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行適當(dāng)改進(jìn),因?yàn)樵诰钟蚓W(wǎng)的環(huán)境下,CPU的速度、硬盤(pán)速度、局域網(wǎng)速度等都會(huì)影響網(wǎng)絡(luò)爬蟲(chóng)的線(xiàn)程性能,其中某一個(gè)環(huán)節(jié)的遲緩都將會(huì)對(duì)爬蟲(chóng)的抓取和分析性能不利。此外,Internet領(lǐng)域的快速發(fā)展,新的網(wǎng)站、新的工具層出不窮,一個(gè)好的精確的搜索引擎需要不斷地跟新和提高。

本文中設(shè)計(jì)的系統(tǒng)與現(xiàn)有的知名搜索引擎相比,其突出優(yōu)點(diǎn)就是利用邏輯域的判別分析方法把主題關(guān)鍵詞聯(lián)系起來(lái),使得檢索結(jié)果邏輯匹配度提高,能夠達(dá)到精確搜索的目標(biāo)。同時(shí),由于設(shè)計(jì)為“金字塔”型任務(wù)承擔(dān)模式,各個(gè)服務(wù)器能夠分擔(dān)適量的檢索任務(wù),頂級(jí)服務(wù)器由于是站在基礎(chǔ)服務(wù)器的基礎(chǔ)上進(jìn)行工作,所以其承擔(dān)的任務(wù)量并沒(méi)有增加。此外,由于在基層服務(wù)器就主動(dòng)放棄檢索相關(guān)度不高的網(wǎng)頁(yè),所以在總檢索網(wǎng)頁(yè)數(shù)量大幅度下降的情況下,檢索出來(lái)的網(wǎng)頁(yè)質(zhì)量會(huì)大幅增高,能夠在邏輯上更好地匹配關(guān)鍵詞,從而能夠達(dá)到精確搜索的目的。

參考文獻(xiàn):

[1]盧亮,張博文.搜索引擎原理、實(shí)踐與應(yīng)用[M].北京:電子工業(yè)出版社,2007.

[2]謝新洲.網(wǎng)絡(luò)信息檢索技術(shù)與案例[M].北京:北京圖書(shū)館出版社,2005:29-30.

[3]周立柱,林玲.聚焦爬蟲(chóng)技術(shù)研究綜述[J].計(jì)算機(jī)應(yīng)用,2005,25(9):1965-1989.

猜你喜歡
搜索引擎程序用戶(hù)
試論我國(guó)未決羈押程序的立法完善
“程序猿”的生活什么樣
英國(guó)與歐盟正式啟動(dòng)“離婚”程序程序
關(guān)注用戶(hù)
關(guān)注用戶(hù)
關(guān)注用戶(hù)
創(chuàng)衛(wèi)暗訪(fǎng)程序有待改進(jìn)
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
如何獲取一億海外用戶(hù)
基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
主站蜘蛛池模板: 少妇精品久久久一区二区三区| 最新亚洲人成无码网站欣赏网 | AV不卡无码免费一区二区三区| 丁香综合在线| 毛片久久网站小视频| 久久夜色撩人精品国产| 亚洲欧美天堂网| 污污网站在线观看| 日韩麻豆小视频| 国产91熟女高潮一区二区| 91午夜福利在线观看| 国产超碰在线观看| 欧美区日韩区| 91小视频在线播放| 99青青青精品视频在线| 久久精品丝袜| 国产欧美日韩视频一区二区三区| 久久精品人妻中文视频| 国产亚洲欧美日本一二三本道| 免费一级毛片| 女人一级毛片| 人妻少妇乱子伦精品无码专区毛片| 久草网视频在线| 国产成人精品免费av| 久久先锋资源| 男女男免费视频网站国产| 精品午夜国产福利观看| 欧美成在线视频| 亚洲国产精品无码AV| 亚洲中文无码h在线观看| 91精品国产福利| 色婷婷丁香| 国产主播喷水| 欧美笫一页| 国产高清色视频免费看的网址| 久草国产在线观看| 97国产在线播放| 奇米影视狠狠精品7777| 国产成人免费视频精品一区二区| 国产白浆在线观看| 国产精品视频导航| 色综合久久88| 国产精品欧美日本韩免费一区二区三区不卡 | 日韩精品亚洲一区中文字幕| 日韩精品久久久久久久电影蜜臀| 扒开粉嫩的小缝隙喷白浆视频| 国产精品一区不卡| 午夜福利免费视频| 天堂网国产| 极品性荡少妇一区二区色欲| 国产麻豆91网在线看| 欧美视频二区| 美女被操91视频| 中文字幕亚洲精品2页| 亚洲福利视频网址| 五月天在线网站| 另类重口100页在线播放| 亚洲色图欧美激情| 中文字幕在线欧美| 五月激情婷婷综合| 亚洲人成色77777在线观看| 99精品免费在线| 国产SUV精品一区二区6| 日本久久久久久免费网络| 亚洲IV视频免费在线光看| 国产免费网址| 91在线精品麻豆欧美在线| 久久成人18免费| 国产91高跟丝袜| 日本一区中文字幕最新在线| 国产网友愉拍精品视频| 日本亚洲最大的色成网站www| 亚洲一级毛片在线观播放| 无码AV高清毛片中国一级毛片| 亚洲午夜国产精品无卡| 久久77777| 久青草网站| 精品国产成人三级在线观看| 国产精品视频白浆免费视频| 99在线小视频| 成AV人片一区二区三区久久| 国产XXXX做受性欧美88|