基于關(guān)鍵詞的主題網(wǎng)絡(luò)爬蟲

2016-07-01 01:39:54南京航空航天大學(xué)

電子世界 2016年10期

南京航空航天大學(xué) 周萍

南京航空航天大學(xué) 周萍

【摘要】通常來說，用戶從搜索引擎獲取的網(wǎng)頁中，大部分都是不符合特定需求的，只有一小部分才是想要的結(jié)果。網(wǎng)絡(luò)爬蟲在搜索引擎中扮演著重要的角色，起著關(guān)鍵性的作用。本文主要講述了基于關(guān)鍵詞的網(wǎng)絡(luò)爬蟲，通過使用相關(guān)性決策機(jī)制和本體的知識(shí)來設(shè)計(jì)出最合適的爬蟲抓取路徑。和傳統(tǒng)的網(wǎng)絡(luò)爬蟲相比較，本文設(shè)計(jì)的爬蟲具有最優(yōu)性，并通過高準(zhǔn)確性來提高搜索效率。

【關(guān)鍵詞】網(wǎng)絡(luò)爬蟲；基于特定主題的網(wǎng)絡(luò)爬蟲；本體；關(guān)鍵詞；知識(shí)路徑

0　引言

網(wǎng)絡(luò)爬蟲主要下載主題相關(guān)的網(wǎng)頁或者滿足用戶需求的特定網(wǎng)頁，而不是像傳統(tǒng)的搜索引擎那樣下載整個(gè)Web網(wǎng)頁庫。因此，主題爬蟲的基本要求是選擇那些滿足用戶需求的網(wǎng)頁。鏈接分析算法和網(wǎng)頁排序算法一樣，通常根據(jù)URLs的相關(guān)性和搜索策略對(duì)URLs進(jìn)行排序，然后優(yōu)先下載那些特定網(wǎng)頁。

本文提出了基于關(guān)鍵詞的主題網(wǎng)絡(luò)爬蟲算法，該算法是根據(jù)優(yōu)先級(jí)和領(lǐng)域本體找出網(wǎng)頁的URLs 。此外，知識(shí)路徑在尋找主題相關(guān)網(wǎng)頁中也發(fā)揮著重要的作用。

網(wǎng)絡(luò)爬蟲是搜索引擎的重要模塊。在傳統(tǒng)的網(wǎng)絡(luò)爬蟲中，將種子URL作為爬蟲工作的初始URL。在分析了種子URL的網(wǎng)頁內(nèi)容之后，爬蟲開始下載網(wǎng)頁，然后抽取出所有的超鏈接，并把這些鏈接存儲(chǔ)到URL隊(duì)列中，遞歸執(zhí)行上述過程，直到獲得了相關(guān)結(jié)果。

網(wǎng)絡(luò)爬蟲的關(guān)鍵問題就是從web中只下載重要的網(wǎng)頁，然后分析這些網(wǎng)頁中URL的優(yōu)先級(jí)，并根據(jù)優(yōu)先級(jí)放到URL隊(duì)列中的合適位置。網(wǎng)路爬蟲的兩大問題如下所示：（1）計(jì)算爬蟲抓取的網(wǎng)頁的優(yōu)先級(jí)；（2）設(shè)計(jì)爬蟲抓取網(wǎng)頁的爬行策略。

1　基于關(guān)鍵詞的主題網(wǎng)絡(luò)爬蟲算法

1.1背景

如今網(wǎng)絡(luò)的規(guī)模越來越大，信息的更新率變快。網(wǎng)絡(luò)擁有大量的數(shù)據(jù)信息，所以爬蟲需要根據(jù)URL的優(yōu)先級(jí)來下載滿足需求的網(wǎng)頁。

爬蟲根據(jù)領(lǐng)域知識(shí)下載一小部分網(wǎng)頁，這些網(wǎng)頁的大部分內(nèi)容是主題相關(guān)的，因此沒有必要從網(wǎng)上下載所有的網(wǎng)頁。網(wǎng)頁內(nèi)容的主題重要度主要取決于鏈接和被訪問量。因此，很有必要提出一個(gè)可靠的爬蟲算法。

1.2爬蟲算法的研究設(shè)計(jì)及具體步驟

爬蟲算法的基本步驟是將URLs種子隊(duì)列作為輸入，然后重復(fù)執(zhí)行分布式的步驟。從地址列表中取出某個(gè)地址，確認(rèn)該地址的主機(jī)名，然后將網(wǎng)頁翻譯成對(duì)應(yīng)的文檔信息，接著抽取出其中的超鏈接。對(duì)于每一個(gè)被抽取的鏈接，檢查它們的絕對(duì)地址，并把它們添加到URLs的列表中，前提是它們之前沒有被訪問過。該算法規(guī)則需要一個(gè)組件來存儲(chǔ)下載的URLs隊(duì)列。

此外，還需要將主機(jī)地址解析成以下三部分：（1）一部分用來下載文檔；（2）一部分用來從超文本標(biāo)記語言中抽取超鏈接；（3）一部分用來判斷該地址之前是否被訪問過。

本文設(shè)計(jì)的爬蟲算法主要分六步，具體步驟如下所示：（1）選擇一個(gè)URL種子作為算法的輸入；（2）構(gòu)造本體知識(shí)樹，并找出知識(shí)路徑；（3）下載初始輸入U(xiǎn)RL對(duì)應(yīng)的網(wǎng)頁；（4）從下載的網(wǎng)頁中抽取出超鏈接內(nèi)容，并把它們插入到URL隊(duì)列中；（5）挖掘更多的主題相關(guān)的URL，下載該URL對(duì)應(yīng)的網(wǎng)頁，并從中抽取出超鏈接，最后把這些超鏈接插入到URL隊(duì)列中；（6）重復(fù)上述步驟，獲得更多的主題相關(guān)的結(jié)果。

2　實(shí)驗(yàn)結(jié)果以及討論

2.1實(shí)驗(yàn)結(jié)果

基于關(guān)鍵詞的主題網(wǎng)絡(luò)爬蟲和傳統(tǒng)的網(wǎng)絡(luò)爬蟲分別作了對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)中，軟件系統(tǒng)和硬件環(huán)境是不變的。分別比較網(wǎng)絡(luò)爬蟲的關(guān)鍵詞有本體和沒有本體這兩種情況。

實(shí)驗(yàn)中用到的參數(shù)是：Depth for looking out=2；Number of thread=5；Initial seed=1；Seed universal resource locator is=http：// www.google.com；Concept in ontology=Java。

基于相同的軟件系統(tǒng)和硬件環(huán)境，實(shí)驗(yàn)獲得的結(jié)果如表2.1所示：

表2.1　兩種爬蟲系統(tǒng)的比較

2.2本體和知識(shí)路徑

本體是結(jié)構(gòu)信息的其中一項(xiàng)技術(shù)，它也叫樹或者圖。本體將信息系統(tǒng)進(jìn)行分層設(shè)置，分層的結(jié)構(gòu)是一個(gè)有向無環(huán)圖（directed acyclic graph ，DAG）。參考本體根據(jù)不同的關(guān)聯(lián)關(guān)系設(shè)置了“is a”，“has a”，“part of”。本體被用來構(gòu)造信息和過濾信息。

假設(shè)本體結(jié)構(gòu)如圖2.1所示，其中包括不同的結(jié)點(diǎn)以及相互之間的聯(lián)系，這些聯(lián)系代表了結(jié)點(diǎn)之間的關(guān)系。

本體結(jié)構(gòu)類似于Google網(wǎng)頁目錄的分層目錄結(jié)構(gòu)。假如尋找“java”，知識(shí)路徑是：Branch-＞computer-＞programming-＞ java。爬蟲根據(jù)這條URL開始抓取網(wǎng)頁，初始的URL種子是：http：//www. google.com。在下載網(wǎng)頁之后，從頁面內(nèi)容中尋找可用的鏈接（比如U1，U2……Un），然后把這些鏈接加入到URL隊(duì)列中。這些鏈接U1，U2……Un需要被檢查是否和關(guān)鍵詞相匹配，爬蟲的知識(shí)路徑就是由這些關(guān)鍵詞組成的。第二條URL是：http：//www.google. com/references/computer.html，其中包含關(guān)鍵詞“computer”，和圖的第一層級(jí)的結(jié)點(diǎn)相匹配。第三條URL是：http：//www.google.com/ references/computer/programming.html第四條URL是：http：//www. google.com/references/computer/programming/java.html

上述算法不能通過“art”或者其他分支來找到目標(biāo)節(jié)點(diǎn)“java”，因?yàn)楦改附Y(jié)點(diǎn)“Computer”和“java”相關(guān)。

3　結(jié)論

相較于其他網(wǎng)絡(luò)爬蟲來說，使用基于關(guān)鍵詞的主題網(wǎng)絡(luò)爬蟲的優(yōu)點(diǎn)是智能性、高效性、不需要關(guān)聯(lián)性反饋。本文提出的爬蟲算法減少了爬蟲抓取網(wǎng)頁的數(shù)量，因此爬蟲抓取的時(shí)間變少，這是因?yàn)榕老x只下載主題相關(guān)的網(wǎng)頁。主題網(wǎng)絡(luò)爬蟲的目的就是獲取主題相關(guān)的網(wǎng)頁，舍棄主題無關(guān)的網(wǎng)頁。本文設(shè)計(jì)了基于最佳知識(shí)路徑的爬蟲的本體，本體通過關(guān)聯(lián)決策機(jī)制來獲取網(wǎng)頁。和傳統(tǒng)的爬蟲相比較，本文提出的爬蟲具有如下優(yōu)勢(shì)：（1）從下載的網(wǎng)頁中獲取URLs的數(shù)目變少；（2）爬蟲的抓取時(shí)間變少。

圖2.1　本體的結(jié)構(gòu)

電子世界2016年10期

電子世界的其它文章: 基于MSP430的便攜式瓦斯檢測(cè)儀設(shè)計(jì); 基于Scan Works的含邊界掃描器件電路板的測(cè)試方法研究; 自動(dòng)多路耐壓絕緣測(cè)試系統(tǒng)設(shè)計(jì); 磁盤陣列柜的掛載方法探討; 加固機(jī)絕緣不良問題案例分析與研究; 基于PLC電梯控制系統(tǒng)變頻調(diào)速的研究探索

基于關(guān)鍵詞的主題網(wǎng)絡(luò)爬蟲

0 引言

1 基于關(guān)鍵詞的主題網(wǎng)絡(luò)爬蟲算法

2 實(shí)驗(yàn)結(jié)果以及討論

3 結(jié)論

0　引言

1　基于關(guān)鍵詞的主題網(wǎng)絡(luò)爬蟲算法

2　實(shí)驗(yàn)結(jié)果以及討論

3　結(jié)論