999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

論網(wǎng)絡(luò)爬蟲(chóng)搜索策略

2013-04-27 03:32:30李耀華楊海燕
關(guān)鍵詞:搜索引擎頁(yè)面策略

□李耀華,楊海燕

(1.山西大學(xué)繼續(xù)教育學(xué)院,山西 太原 030006;2.山西廣播電視大學(xué),山西 太原 030027)

網(wǎng)絡(luò)爬蟲(chóng)是搜索引擎的重要組成部分。搜索引擎借助于網(wǎng)絡(luò)爬蟲(chóng)才能在互聯(lián)網(wǎng)海量數(shù)據(jù)中有效搜集到相關(guān)的網(wǎng)頁(yè)信息。如何提高網(wǎng)絡(luò)爬蟲(chóng)的搜索效率,是該領(lǐng)域研究的熱點(diǎn)。本文將分別對(duì)目前常用的網(wǎng)絡(luò)爬蟲(chóng)的搜索策略進(jìn)行初步分析研究。

一、網(wǎng)絡(luò)爬蟲(chóng)基本工作原理

網(wǎng)絡(luò)爬蟲(chóng)Web Spider又叫Web Crawler或者Robot,是一個(gè)沿著鏈接漫游web文檔集合的程序。它一般駐留在服務(wù)器上,并且利用標(biāo)準(zhǔn)的http協(xié)議根據(jù)超鏈接和web文檔檢索的方法遍歷整個(gè)Internet網(wǎng)信息進(jìn)行搜索。

(一)網(wǎng)絡(luò)爬蟲(chóng)的基本結(jié)構(gòu)。傳統(tǒng)的網(wǎng)絡(luò)爬蟲(chóng)包括一個(gè)協(xié)議處理模塊。URL(統(tǒng)一資源定位符,Uniform Resource Locator的縮寫,也被稱為網(wǎng)頁(yè)地址,是因特網(wǎng)上標(biāo)準(zhǔn)的資源的地址。它最初是由Tim Berners-Lee發(fā)明用來(lái)作為萬(wàn)維網(wǎng)的地址的)由兩部分構(gòu)成:協(xié)議模塊和檢測(cè)模塊。其中,協(xié)議模塊用來(lái)提供網(wǎng)絡(luò)爬蟲(chóng)所需的網(wǎng)絡(luò)協(xié)議,解決如何獲取網(wǎng)頁(yè);檢測(cè)模塊負(fù)責(zé)對(duì)采集的URL信息進(jìn)行排序,處理網(wǎng)絡(luò)上重復(fù)內(nèi)容,以提高網(wǎng)絡(luò)爬蟲(chóng)的搜索效率。

(二)網(wǎng)絡(luò)爬蟲(chóng)的工作流程。網(wǎng)絡(luò)爬蟲(chóng)也是一個(gè)自動(dòng)提取網(wǎng)頁(yè)的程序,是搜索引擎的重要組成部分,其作用是為搜索引擎從Internet網(wǎng)上下載頁(yè)面。網(wǎng)絡(luò)爬蟲(chóng)在獲取網(wǎng)絡(luò)信息時(shí),通常會(huì)從一個(gè)“種子集”出發(fā),獲得初始網(wǎng)頁(yè)上的URL,下載頁(yè)面并提取已下載頁(yè)面中的連接,抽取新的URL放入隊(duì)列,然后訪問(wèn)提取出的連接所對(duì)應(yīng)的網(wǎng)頁(yè),如此不斷重復(fù)便可遍歷整個(gè)網(wǎng)絡(luò)信息,直到滿足系統(tǒng)的一定停止條件。其中,種子集指種子鏈接集合,通常為幾個(gè)知名網(wǎng)站主頁(yè)連接地址。工作流程如圖1所示。但通用爬蟲(chóng)搜索有以下幾方面不足:

圖1 通用網(wǎng)絡(luò)爬蟲(chóng)工作流程圖

(1)因?yàn)樽ト〉哪繕?biāo)是覆蓋盡可能大的網(wǎng)絡(luò),所以爬行的結(jié)果中必然會(huì)包含大量用戶不需要的網(wǎng)頁(yè);

(2)無(wú)法很好地搜索和獲取信息含量密集而且具有一定結(jié)構(gòu)的數(shù)據(jù);

(3)通用搜索引擎大多是基于關(guān)鍵字的檢索,對(duì)于支持語(yǔ)義信息的查詢和索引擎智能化的要求則難以實(shí)現(xiàn)。

由此,通用爬蟲(chóng)想在爬行網(wǎng)頁(yè)時(shí),既保證網(wǎng)頁(yè)的質(zhì)量和數(shù)量,又要保證網(wǎng)頁(yè)的時(shí)效性是很難實(shí)現(xiàn)的。

(三)網(wǎng)絡(luò)爬蟲(chóng)的搜索策略。為提高網(wǎng)絡(luò)爬蟲(chóng)的搜索效率,網(wǎng)絡(luò)爬蟲(chóng)需要在既定時(shí)間內(nèi)搜索到盡可能多的高質(zhì)量網(wǎng)頁(yè),這是其面臨的主要技術(shù)難題。

一般而言,有五種方式表示頁(yè)面質(zhì)量的高低:Similarity(頁(yè)與爬行主題之間的相似度)、Backlink(面在Web圖中的入度大小)、PageRank(指向它的所有頁(yè)面平均權(quán)值之和)、For-wardlink(頁(yè)面在Web圖中的出度大小)、Location(頁(yè)面的信息位置);Parallel(并行性問(wèn)題)。

搜索策略就是指提取出頁(yè)面鏈接后如何訪問(wèn)。通用的搜索引擎往往希望得到較高的網(wǎng)絡(luò)覆蓋率,所以常采用遍歷的方式進(jìn)行訪問(wèn),見(jiàn)圖2。相反,主題搜索引擎的服務(wù)范圍則是限制在特定的人群和主題范圍內(nèi),通常采用“最好優(yōu)先”的原則,選擇最有價(jià)值的連接進(jìn)行訪問(wèn),見(jiàn)圖3,其關(guān)鍵就在于如何評(píng)價(jià)最有價(jià)值的連接。

圖2

圖3

二、遍歷搜索策略

該搜索策略對(duì)所有提取出的鏈接都一一進(jìn)行爬取,目的在于遍歷網(wǎng)絡(luò)上的所有信息資源。

(一)寬度優(yōu)先策略。寬度優(yōu)先搜索(Breadth-First Search)是一種簡(jiǎn)便常用的搜索算法(又稱廣度優(yōu)先搜索)。這一算法也是其他很多重要算法之原型,其主要用來(lái)解決最優(yōu)解問(wèn)題。其基本思想是:從起始網(wǎng)頁(yè)源頂點(diǎn)p開(kāi)始,沿著樹(shù)的寬度遍歷樹(shù)的每一個(gè)節(jié)點(diǎn),獲取相關(guān)所有鏈接網(wǎng)頁(yè),進(jìn)而再沿這些節(jié)點(diǎn)繼續(xù)抓取該網(wǎng)頁(yè)中的所有鏈接頁(yè)面,最終遍歷所有頂點(diǎn)。即,首先完成一個(gè)層次的搜索,其次再進(jìn)行下一層次的搜索,也稱之為分層處理。該算法的設(shè)計(jì)模式和技術(shù)實(shí)現(xiàn)比較簡(jiǎn)單且能獲得較高的網(wǎng)頁(yè)覆蓋率,但該算法的設(shè)計(jì)和實(shí)現(xiàn)相對(duì)簡(jiǎn)單,屬于盲目搜索,因而效率較低。換句話說(shuō),它并不考慮結(jié)果的可能位置,徹底地搜索整張圖,直到找到結(jié)果為止。為盡可能覆蓋較多網(wǎng)頁(yè),寬度優(yōu)先搜索方法是較好的選擇。

(二)深度優(yōu)先策略。深度優(yōu)先搜索(Depth-First Search),也是一種早期在開(kāi)發(fā)爬蟲(chóng)過(guò)程中使用較多的方法。其設(shè)計(jì)思路是盡量“深”入地搜索信息資源。在深度優(yōu)先搜索中,針對(duì)最新發(fā)現(xiàn)的網(wǎng)頁(yè)源頂點(diǎn)p,如果它還有以此為起點(diǎn)而尚未搜索到的路徑,則沿此路徑繼續(xù)搜索下去。反之,如果當(dāng)頂點(diǎn)p的所有路徑均己被搜索過(guò),則回溯到初始點(diǎn)。這一搜索過(guò)程將一直持續(xù)到已發(fā)現(xiàn)的從源頂點(diǎn)p可達(dá)到的所有頂點(diǎn)為止。但是如果仍然存在未被發(fā)現(xiàn)的頂點(diǎn)p’,則繼續(xù)選擇其中一個(gè)作為源頂點(diǎn)并重復(fù)以上過(guò)程,最終實(shí)現(xiàn)所有頂點(diǎn)都被遍歷。

但是深度優(yōu)先策略不足之處是,深度優(yōu)先策略在很多情況下會(huì)導(dǎo)致網(wǎng)絡(luò)爬蟲(chóng)的陷入問(wèn)題(trapped),導(dǎo)致盲目搜索。

三、最好優(yōu)先策略

“最好優(yōu)先”(Best-First Search)的爬蟲(chóng)也稱聚集爬蟲(chóng),是根據(jù)相關(guān)網(wǎng)頁(yè)分析算法,預(yù)測(cè)候選URL與目標(biāo)網(wǎng)頁(yè)的相似度,根據(jù)“最好優(yōu)先”原則進(jìn)行訪問(wèn),選取評(píng)價(jià)最好的一個(gè)或幾個(gè)URL,以便快速、有效地獲得更多的與目標(biāo)網(wǎng)頁(yè)相似度高的頁(yè)面進(jìn)行抓取。最好優(yōu)先策略只訪問(wèn)經(jīng)過(guò)網(wǎng)頁(yè)分析算法預(yù)測(cè)為“有用”的網(wǎng)頁(yè)。專業(yè)的搜索引擎網(wǎng)絡(luò)爬蟲(chóng)通常會(huì)采用“最好優(yōu)先”原則訪問(wèn)WEB。但由于所有搜索鏈接均包含在相關(guān)網(wǎng)頁(yè)中,因此頁(yè)面價(jià)值往往與頁(yè)面內(nèi)鏈接價(jià)值存在正相關(guān)關(guān)系,于是對(duì)鏈接價(jià)值的評(píng)價(jià)有時(shí)也可轉(zhuǎn)換為對(duì)頁(yè)面價(jià)值的評(píng)價(jià)。

但最好優(yōu)先策略存在一個(gè)問(wèn)題:因最佳優(yōu)先策略只是一種局部最優(yōu)搜索算法,所以網(wǎng)絡(luò)爬蟲(chóng)在抓取有用信息的過(guò)程路徑上會(huì)有很多相關(guān)網(wǎng)頁(yè)被忽略。因此該策略在應(yīng)用時(shí)應(yīng)結(jié)合具體情況進(jìn)行必要改進(jìn),以跳出局部最優(yōu)點(diǎn)。

(一)基于內(nèi)容評(píng)價(jià)的搜索策略。互聯(lián)網(wǎng)上不良信息、不安全信息日益增多已成為危害社會(huì)的嚴(yán)重問(wèn)題,對(duì)互聯(lián)網(wǎng)信息內(nèi)容進(jìn)行必要的監(jiān)控成為一項(xiàng)迫切任務(wù)。而網(wǎng)絡(luò)爬蟲(chóng)在信息搜索中起著明顯的作用。

基于內(nèi)容評(píng)價(jià)的搜索策略是根據(jù)搜索內(nèi)容的主題與被鏈接網(wǎng)頁(yè)文本的相似度來(lái)評(píng)價(jià)鏈接價(jià)值的高與低,進(jìn)而決定搜索策略。其中,相似度評(píng)價(jià)通常一般采用以下公式:

其中,di為新獲取文本的特征向量值,dj為第j類鏈接文本的中心向量值,m為特征向量di的維數(shù),wk為向量w的第k維。

基于內(nèi)容評(píng)價(jià)的搜索策略并不只有這一種計(jì)算方法,除上述公式外,還有 Best-First Search,F(xiàn)ish Search和 Shark Search算法。

(二)基于鏈接結(jié)構(gòu)評(píng)價(jià)的搜索策略。基于鏈接結(jié)構(gòu)評(píng)價(jià)的搜索策略屬于web頁(yè)面的半結(jié)構(gòu)化設(shè)計(jì),通過(guò)對(duì)頁(yè)面間的超鏈接進(jìn)行關(guān)聯(lián)分析其引用關(guān)系來(lái)確定鏈接的重要性,由此確定鏈接訪問(wèn)的次序。因此這種結(jié)構(gòu)化特征使文本鏈接的重要性可通過(guò)鏈接分析來(lái)加以確定,主要根據(jù)文獻(xiàn)計(jì)量學(xué)的引文分析理論來(lái)進(jìn)行。常規(guī)認(rèn)為有較多入鏈或出鏈的頁(yè)面具有較高的價(jià)值。PageRank算法和Hits算法是其中具有代表性的算法。

1.PageRank(網(wǎng)頁(yè)級(jí)別)算法。PageRank算法是Google創(chuàng)始人Larry Page和Sergey Brin于1997年構(gòu)建早期的搜索系統(tǒng)原型時(shí)提出的鏈接分析算法。該算法隨著Google在商業(yè)上獲得巨大成功后成為其它搜索引擎和學(xué)界所關(guān)注的計(jì)算模型。可以說(shuō)PageRank算法是后來(lái)很多鏈接分析算法的基礎(chǔ)。

例如Google搜索引擎信息檢索中對(duì)查詢結(jié)果的排序過(guò)程。其對(duì)web頁(yè)面的排序,在揉合了諸如Title標(biāo)識(shí)和Keywords標(biāo)識(shí)等所有其它因素之后,根據(jù)搜索的信息內(nèi)容在頁(yè)面中的出現(xiàn)次數(shù),并用頁(yè)面長(zhǎng)度和html標(biāo)簽的重要性提示等進(jìn)行權(quán)重修訂。使那些更具等級(jí)的網(wǎng)頁(yè)在搜索結(jié)果中的排名獲得提升,最終提高搜索結(jié)果相關(guān)性和搜索質(zhì)量。近年來(lái)被應(yīng)用于網(wǎng)絡(luò)爬蟲(chóng)對(duì)鏈接重要性的評(píng)價(jià)。Google通過(guò)PageRank來(lái)調(diào)整結(jié)果,其級(jí)別從0到10級(jí),10級(jí)為滿分。鏈接提供的頁(yè)面越重要?jiǎng)t此鏈入值越高。此外,還可通過(guò)其它文檔鏈接到當(dāng)前頁(yè)面的鏈接數(shù)量來(lái)確定當(dāng)前頁(yè)面的重要性,這樣可以有效地抵制那些被人為加工過(guò)的頁(yè)面欺騙搜索引擎的手法。

該算法中,通常用PageRank值表示頁(yè)面的價(jià)值,若設(shè)頁(yè)面p的PageRank值為PR(p),則PR(p)用如下公式表示:

其中:T為所計(jì)算中頁(yè)面總量,γ<1為阻尼系數(shù),in(p)為所有指向頁(yè)面p的集合,out(γ)為頁(yè)面γ出鏈的集合。按照PageRank算法,爬蟲(chóng)在信息搜索過(guò)程中,通過(guò)計(jì)算已訪問(wèn)頁(yè)面的PageRank值來(lái)確定頁(yè)面的重要性,并確定訪問(wèn)次序。

2.Hits算法。1997年康奈爾大學(xué)(Cornell University)的Jon Kleinberg首次提出了Hits算法(Hyperlink-Induced Topic Search)。Hits算法也是Web結(jié)構(gòu)挖掘中最具有權(quán)威性和使用最廣泛的算法之一。該算法中引入了兩個(gè)重要的概念:內(nèi)容權(quán)威度(Authority Scores)和鏈接權(quán)威度(Hub Scores)來(lái)對(duì)網(wǎng)頁(yè)質(zhì)量進(jìn)行評(píng)估。其基本思想是利用頁(yè)面之間的引用鏈來(lái)挖掘隱含在其中的有用信息,具有計(jì)算簡(jiǎn)單且效率高的特點(diǎn)。

Hits算法中網(wǎng)頁(yè)的Authority值表示所有導(dǎo)入鏈接所在的頁(yè)面的Hub值之和,即一個(gè)頁(yè)面被其它頁(yè)面所引用的次數(shù),被其它頁(yè)面引用的次數(shù)越多,則這個(gè)頁(yè)面的Authority值就會(huì)越大;頁(yè)面的Hub值表示指的是頁(yè)面上所有導(dǎo)出鏈接指向頁(yè)面的Authority值之和,一個(gè)頁(yè)面指向其他頁(yè)面的次數(shù),指向其它頁(yè)面的次數(shù)越多,這個(gè)頁(yè)面的Hub值就會(huì)越大。由于在Hub值高的頁(yè)面中通常都包含了指向Authority頁(yè)面的鏈接,因而能夠起到說(shuō)明頁(yè)面權(quán)威性的作用。Hits算法正是利用這種相互關(guān)系來(lái)發(fā)現(xiàn)Authority頁(yè)面的。

(三)基于鞏固學(xué)習(xí)的搜索策略。相關(guān)研究表明,多數(shù)類似網(wǎng)站在設(shè)計(jì)方式上,同類網(wǎng)頁(yè)存在一定相似性,因而有人將鞏固學(xué)習(xí)(Reinforcement Learning)搜索策略引入到網(wǎng)絡(luò)爬蟲(chóng)的研究中以減小搜索空間,提高效率。在該模型中,將網(wǎng)絡(luò)爬蟲(chóng)遍歷無(wú)關(guān)頁(yè)面訪問(wèn)后才能獲得的主題頁(yè)面稱之為未來(lái)回報(bào),即搜索到隱含的結(jié)構(gòu)信息。在綜合考量計(jì)算立即回報(bào)價(jià)值和未來(lái)回報(bào)價(jià)值結(jié)合的前提下確定正確的搜索方向。

隨著互聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用,互聯(lián)網(wǎng)信息量的海量增長(zhǎng)使傳統(tǒng)的通用搜索引擎面臨著巨大的挑戰(zhàn),各類針對(duì)特定人群的“專業(yè)搜索引擎”便應(yīng)運(yùn)而生。網(wǎng)絡(luò)爬蟲(chóng)搜索就是典型代表。網(wǎng)絡(luò)爬蟲(chóng)各類搜索策略各有利弊,尚無(wú)單一標(biāo)準(zhǔn)去評(píng)價(jià)其優(yōu)劣。互聯(lián)網(wǎng)搜索問(wèn)題屬于“多目標(biāo)”規(guī)劃問(wèn)題。降低計(jì)算的復(fù)雜程度,提高搜索鏈接價(jià)值的準(zhǔn)確性,增加網(wǎng)絡(luò)爬蟲(chóng)的自適應(yīng)能力,是提高網(wǎng)絡(luò)爬蟲(chóng)效率的核心問(wèn)題。

[1]歐陽(yáng)柳波等.專業(yè)搜索引擎搜索策略綜述[J].計(jì)算機(jī)工程,2004,(30):32 -33.

[2]李勇,韓亮.主題搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)的搜索策略研究[J].計(jì)算機(jī)工程與科學(xué),2008,(3):4 -6.

[3]歐陽(yáng)柳波等.網(wǎng)絡(luò)蜘蛛搜索策略進(jìn)展研究[J].小型微型計(jì)算機(jī)系統(tǒng),2005,(4):703 -703.

[4]劉世濤.簡(jiǎn)析搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)的搜索策略[J].阜陽(yáng)師范學(xué)院學(xué)報(bào),2006,(3):59 -62.

[5]龔勇.搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)的研究[D].武漢:武漢理工大學(xué),2010.

[6]李學(xué)勇.搜索引擎中網(wǎng)絡(luò)蜘蛛搜索策略比較研究[J].計(jì)算機(jī)技術(shù)與自動(dòng)化,2003,(4):63 -65.

[7]李學(xué)勇等.網(wǎng)絡(luò)蜘蛛搜索策略比較研究[J].計(jì)算機(jī)工程與應(yīng)用,2004,(4):63 -67.

[8]劉漢興,劉財(cái)興.主題爬蟲(chóng)的搜索策略研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,(12):33 -38.

[9]劉偉.搜索引擎中網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[J].科技傳播,2011,(20):178 -181.

猜你喜歡
搜索引擎頁(yè)面策略
大狗熊在睡覺(jué)
刷新生活的頁(yè)面
例談未知角三角函數(shù)值的求解策略
我說(shuō)你做講策略
高中數(shù)學(xué)復(fù)習(xí)的具體策略
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
Passage Four
廣告主與搜索引擎的雙向博弈分析
同一Word文檔 縱橫頁(yè)面并存
主站蜘蛛池模板: 久久国产精品电影| 一级毛片在线播放免费| 天天色天天操综合网| 国产屁屁影院| 欧美中文字幕一区| 91久久夜色精品| 国产精品亚洲精品爽爽| 熟妇人妻无乱码中文字幕真矢织江| 久久熟女AV| 国产精品综合色区在线观看| 国产精品天干天干在线观看| 91丨九色丨首页在线播放| 在线免费观看AV| 亚洲无码在线午夜电影| 日日拍夜夜操| 国产精品久久久免费视频| 亚洲欧美成aⅴ人在线观看| 国产性猛交XXXX免费看| 亚洲精品自产拍在线观看APP| 熟妇丰满人妻| 亚洲中文字幕在线观看| 99国产精品国产高清一区二区| 国产欧美日韩va另类在线播放| 一本一道波多野结衣av黑人在线| 天天摸天天操免费播放小视频| 亚洲国语自产一区第二页| 久久精品波多野结衣| 日本国产精品一区久久久| 免费在线视频a| 亚洲人精品亚洲人成在线| 亚洲精品777| 精品伊人久久久大香线蕉欧美| 亚洲色无码专线精品观看| 国产乱人免费视频| 亚洲黄色成人| 四虎AV麻豆| 日韩中文精品亚洲第三区| 东京热av无码电影一区二区| 狠狠亚洲婷婷综合色香| 免费无遮挡AV| 免费看黄片一区二区三区| 欧洲av毛片| 亚洲国产天堂在线观看| 国产免费自拍视频| 91av国产在线| 自慰高潮喷白浆在线观看| 色播五月婷婷| 欧美成a人片在线观看| 97视频免费在线观看| 亚洲人成电影在线播放| 欧美日韩亚洲综合在线观看| 日韩福利视频导航| 2021无码专区人妻系列日韩| 91久久精品日日躁夜夜躁欧美| 国产综合色在线视频播放线视| 九九九精品成人免费视频7| 国产精品丝袜视频| 91区国产福利在线观看午夜| 欧美亚洲日韩中文| 精品第一国产综合精品Aⅴ| 美女被操黄色视频网站| 天堂成人在线| 再看日本中文字幕在线观看| 久久无码av三级| 国产免费高清无需播放器| 理论片一区| 呦视频在线一区二区三区| 92精品国产自产在线观看| 国产成人久视频免费| 亚洲精品卡2卡3卡4卡5卡区| 1级黄色毛片| 国产精品人莉莉成在线播放| a级毛片免费看| 999国内精品视频免费| 久久久精品国产SM调教网站| 青青操国产| 亚洲欧洲日韩国产综合在线二区| 亚洲黄色视频在线观看一区| 国产无遮挡裸体免费视频| 伊人蕉久影院| 欧美成一级| 国产无遮挡裸体免费视频|