支持DOM模板可視化配置的網(wǎng)頁(yè)抽取方法

2018-05-18 07:58:27李健馬延周

現(xiàn)代計(jì)算機(jī) 2018年10期

李健，馬延周

（解放軍信息工程大學(xué)洛陽(yáng)校區(qū)基礎(chǔ)部，洛陽(yáng) 471003）

0 引言

萬(wàn)維網(wǎng)是Internet信息發(fā)布的主要形式，各類網(wǎng)站多如牛毛，所包含的網(wǎng)頁(yè)更是浩如煙海。這些網(wǎng)頁(yè)中包含海量的數(shù)據(jù)，也蘊(yùn)藏著巨大的價(jià)值。網(wǎng)絡(luò)爬蟲(chóng)是按照某定規(guī)則自動(dòng)地抓取Web信息的應(yīng)用程序[1]。從采集粒度上看，網(wǎng)絡(luò)爬蟲(chóng)可分為“頁(yè)面級(jí)”爬蟲(chóng)和“元素級(jí)”爬蟲(chóng)。“頁(yè)面級(jí)”爬蟲(chóng)追求內(nèi)容的覆蓋率，希望盡量多地爬取到相關(guān)網(wǎng)頁(yè)；“元素級(jí)”爬蟲(chóng)則追求內(nèi)容的精準(zhǔn)性，其目標(biāo)是精確抽取出網(wǎng)頁(yè)中的關(guān)鍵內(nèi)容。現(xiàn)有“元素級(jí)”爬蟲(chóng)多采用模板匹配的方法[2-3]，但往往需要手動(dòng)配置。手動(dòng)配置對(duì)專業(yè)要求較高，需要了解網(wǎng)頁(yè)結(jié)構(gòu)、正則表達(dá)式等知識(shí)；又因其配置過(guò)程復(fù)雜且需手動(dòng)輸入而使效率低下且容易出錯(cuò)。

針對(duì)上述不足，本文提出一種支持可視化模板配置的網(wǎng)頁(yè)抽取方法，用戶可使用鼠標(biāo)直接點(diǎn)選頁(yè)面元素自動(dòng)生成DOM模板，進(jìn)而實(shí)現(xiàn)網(wǎng)頁(yè)抽取。下面將詳情介紹其抽取原理和關(guān)鍵技術(shù)。

1 抽取原理

1.1 元素的DOM路徑

根據(jù)DOM的定義[4]，一個(gè)HTML文檔可以看作一顆樹(shù)，其中每個(gè)元素（結(jié)點(diǎn)）都按照一定的層次結(jié)構(gòu)組織在這顆樹(shù)中。元素是文檔樹(shù)的根，每個(gè)元素都存在一條從根到該元素的層次路徑，我們稱這個(gè)層次路徑為“DOM路徑”。DOM路徑具有元素定位功能，是網(wǎng)頁(yè)抽取的基礎(chǔ)。

例1有網(wǎng)頁(yè)內(nèi)容如下：

例如，本例中“”標(biāo)簽在文檔樹(shù)中的層次路徑為：

又如，本例中“

床前明月光

”標(biāo)簽在文檔樹(shù)中的層次路徑為：

1.2 根據(jù)DOM路徑抽取元素

對(duì)于給定元素，我們可以獲取其DOM路徑；反之，如果給定路徑信息，我們也可以“自頂向下”找出這個(gè)元素（或者同級(jí)別同類型的多個(gè)元素）。

根據(jù)路徑1，可在例1中匹配到1個(gè)

元素。匹配過(guò)程如下：
表1
根據(jù)路徑2，我們則可以匹配到所有4個(gè)
元素。匹配過(guò)程如下：
表2
由此可以歸納出網(wǎng)頁(yè)抽取的基本思路：首先在頁(yè)面中選擇元素生成路徑模板，然后根據(jù)模板抽取更多網(wǎng)頁(yè)元素。注意：這里所說(shuō)的更多元素，可以是一個(gè)網(wǎng)頁(yè)中的同類元素，也可以是其他同構(gòu)網(wǎng)頁(yè)中的同類元素。
例2：有網(wǎng)頁(yè)內(nèi)容如下：
本例與上例為同構(gòu)頁(yè)面，若用上例中的路徑1（html->body->div->h1）對(duì)本例進(jìn)行元素抽取，可得到2個(gè)

元素，匹配過(guò)程如下：
表3
若用路徑2（html->body->div->p）對(duì)本例進(jìn)行元素抽取則可得到8個(gè)
元素，匹配過(guò)程如下：
表4

1.3 為DOM路徑設(shè)置條件

同一個(gè)DOM路徑在網(wǎng)頁(yè)中可能對(duì)應(yīng)多個(gè)元素，而我們或許只需要其中一部分。此時(shí)可對(duì)DOM路徑設(shè)置一些限制條件，以篩選出需要的元素。在元素路徑的基礎(chǔ)上設(shè)置一些匹配條件，就構(gòu)成了一個(gè)內(nèi)容抽取模板。常用限制條件有：ID、CLASS、Text。

例2中共有8個(gè)

元素，它們的DOM路徑均為“html->body->div->p”，我們直接用這個(gè)路徑抽取可以找到全部的

元素。若希望僅抽取第二首詩(shī)的正文內(nèi)容，就可在div層加上“id='sceond'”的限制條件。匹配過(guò)程如下：

表5

這樣就只保留了第二首詩(shī)的正文內(nèi)容。除了id條件，我們還可以設(shè)置class和text條件。

例3:有網(wǎng)頁(yè)內(nèi)容如下：

本例正文部分包含一組產(chǎn)品鏈接，它們的DOM路徑均為“html->body->div->div->a”。經(jīng)分析發(fā)現(xiàn)這些產(chǎn)品有新舊之分，若我們希望只抽取新產(chǎn)品鏈接，則可在層添加“class='new'”的條件限制。此時(shí)抽取模板為：html->body->div->div->a[class='new']，抽取過(guò)程不再列出。

在頁(yè)面下部有一組分頁(yè)鏈接，它們具有相同的DOM路徑，即使設(shè)置id和class條件也不能區(qū)分。如果我們要抽取“下一頁(yè)”鏈接，而不是所有分頁(yè)鏈接，則可通過(guò)元素的內(nèi)置本文加以區(qū)分。此時(shí)抽取模板為：html->body->div->a[text='下一頁(yè)']，抽取過(guò)程不再列出。