基于深度學(xué)習(xí)的網(wǎng)頁(yè)主題爬蟲(chóng)的設(shè)計(jì)

2016-03-15 08:09:14袁優(yōu)

課程教育研究·中 2016年1期

【摘要】網(wǎng)頁(yè)主題爬蟲(chóng)能夠從萬(wàn)維網(wǎng)中尋找從屬于特定主題的網(wǎng)頁(yè)，并對(duì)其中的關(guān)鍵詞、段落和圖像進(jìn)行保存和索引。但在網(wǎng)頁(yè)的表達(dá)形式、數(shù)量和內(nèi)容都呈現(xiàn)爆發(fā)式增長(zhǎng)的情況下，傳統(tǒng)的基于關(guān)鍵字匹配的網(wǎng)頁(yè)主題發(fā)現(xiàn)方法已經(jīng)難以有效的為爬蟲(chóng)程序進(jìn)行準(zhǔn)確的主題識(shí)別，這對(duì)于搜索引擎建立有效的網(wǎng)頁(yè)內(nèi)容數(shù)據(jù)庫(kù)和網(wǎng)頁(yè)內(nèi)容的話題分析等關(guān)鍵應(yīng)用都是具大的挑戰(zhàn)。提出一種基于深度學(xué)習(xí)的網(wǎng)頁(yè)主題爬蟲(chóng)的設(shè)計(jì)，采用深度信念網(wǎng)絡(luò)對(duì)由文字向量表示的網(wǎng)頁(yè)內(nèi)容進(jìn)行概念表達(dá)，以此構(gòu)建多層次的網(wǎng)頁(yè)主題概念特征向量，并使用支持向量機(jī)模型在新的特征表達(dá)下對(duì)網(wǎng)頁(yè)主題進(jìn)行快速識(shí)別，有效提升了爬蟲(chóng)程序?qū)W(wǎng)頁(yè)主題的識(shí)別準(zhǔn)確率。

【關(guān)鍵詞】主題爬蟲(chóng) 深度學(xué)習(xí) 深度信念網(wǎng)絡(luò) 向量空間模型支持向量機(jī)

【Abstract】A foucsed crawler can detect the web pages belonging to certain topics through WWW as well as storing and indexing the key words， paragraphs and images in these web pages. However， currently the rapid growing of the quantities of formats and contents of web pages lead to a great challenge that the traditional topic discovery methods based on key words matching are ineffective for precise topic recognition， which also affect to the construction of web page database and topic detection of web page sessions. In this paper， we propose a design of focused crawler based on deep learning. In this method， a deep belief network is adopted to represent the potential concepts of web pages with different topics which are described as vector space model. The extracted concepts of a topic forms a feature vector which is used by a support vector machine to classify the topics of a new web page. The proposed method improves the recognition accuracy of web page topics.

【Keywords】focused crawler； deep learning； deep belief network； vector space model； support vector machine

【中圖分類(lèi)號(hào)】G64 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】2095-3089（2016）01-0218-02

1.背景

在互聯(lián)網(wǎng)技術(shù)高速發(fā)展的今天，萬(wàn)維網(wǎng)（World Wide Web，WWW）上保存了海量的信息和資源，且大多以多媒體網(wǎng)頁(yè)的形式進(jìn)行保存[1]。為了使人們能夠在海量的網(wǎng)頁(yè)資源中快速查找到感興趣的網(wǎng)頁(yè)資源，搜索引擎通過(guò)網(wǎng)頁(yè)爬蟲(chóng)（Web Crawler）收集各種網(wǎng)頁(yè)，并建立基于關(guān)鍵詞或主題的索引，方便用戶的快速搜索[2]。在這種情況下，網(wǎng)頁(yè)爬蟲(chóng)程序?qū)W(wǎng)頁(yè)主題的識(shí)別能力和效率就顯得十分重要[3]。傳統(tǒng)爬蟲(chóng)程序主要是依據(jù)對(duì)網(wǎng)頁(yè)關(guān)鍵詞的匹配進(jìn)行主題識(shí)別，主要對(duì)HTML頁(yè)面中的meta字段或整個(gè)HTML文本進(jìn)行關(guān)鍵詞匹配[4]。而對(duì)特定主題的定義則為若干個(gè)關(guān)鍵詞的組合。這種基于簡(jiǎn)單文本匹配的方法對(duì)當(dāng)前復(fù)雜且種類(lèi)繁多的網(wǎng)頁(yè)是不適用的，主要原因在于網(wǎng)頁(yè)主題是一個(gè)比較復(fù)雜的概念，僅通過(guò)關(guān)鍵詞或其組合的方式難以準(zhǔn)確表達(dá)某個(gè)網(wǎng)頁(yè)主題[5， 6]。

研究者們采用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的方法對(duì)不同主題的文本特征進(jìn)行學(xué)習(xí)和提取，并以模型參數(shù)的形式預(yù)先設(shè)置在爬蟲(chóng)程序里面，當(dāng)進(jìn)行網(wǎng)頁(yè)獲取時(shí)，爬蟲(chóng)程序通過(guò)模型在線判斷一個(gè)新網(wǎng)頁(yè)所屬的主題，然后確定是否保存到數(shù)據(jù)庫(kù)中[7]。但同時(shí)我們指出，不同的機(jī)器學(xué)習(xí)模型的訓(xùn)練代價(jià)、識(shí)別效率和對(duì)網(wǎng)頁(yè)主題所蘊(yùn)含的抽象概念的表達(dá)能力各不相同。基于統(tǒng)計(jì)學(xué)習(xí)和淺層機(jī)器學(xué)習(xí)的模型由于受限于其對(duì)復(fù)雜函數(shù)的表達(dá)能力，因此在網(wǎng)頁(yè)主題爬蟲(chóng)上使用的效果并不十分理想[8]。針對(duì)目前網(wǎng)頁(yè)主題爬蟲(chóng)對(duì)網(wǎng)頁(yè)主題的識(shí)別問(wèn)題，本文提出采用基于深度學(xué)習(xí)（Deep Learning）的模型對(duì)主題進(jìn)行特征表達(dá)并使用支持向量機(jī)（Support Vector Machine，SVM）模型進(jìn)行識(shí)別。區(qū)別于傳統(tǒng)的淺層模型，深度學(xué)習(xí)模型的輸入層和輸出層之間相隔了若干個(gè)運(yùn)算層，如堆疊自動(dòng)編碼器（Stacked Auto Encoder，SAE）就是若干個(gè)自動(dòng)編碼器的疊加，深度信念網(wǎng)絡(luò)（Deep Belief Network，DBN）實(shí)質(zhì)上是一個(gè)多層的貝葉斯信念網(wǎng)絡(luò)[9]。通過(guò)多層的運(yùn)算單元疊加，可以有效提取和表達(dá)各種復(fù)雜概念，這是構(gòu)建有效主題識(shí)別模型的基礎(chǔ)。

2.主要方法

本文方法首先使用向量空間模型對(duì)網(wǎng)頁(yè)進(jìn)行向量化表達(dá)，即把網(wǎng)頁(yè)轉(zhuǎn)化為詞向量，在本研究中對(duì)中英文網(wǎng)頁(yè)分別使用不同的基礎(chǔ)向量，這是由于中文和英文的詞集是不同的。使用分詞軟件對(duì)網(wǎng)頁(yè)的文本內(nèi)容進(jìn)行過(guò)濾和分詞，并把分詞結(jié)果記錄在一個(gè)m維布爾向量中，若該網(wǎng)頁(yè)含有第i個(gè)基本詞，則該向量的第i位為1，反之為0。在此基礎(chǔ)上構(gòu)建深度信念網(wǎng)絡(luò)，它本質(zhì)上是一個(gè)多層神經(jīng)網(wǎng)絡(luò)，通過(guò)訓(xùn)練它可以以最大的后驗(yàn)概率去生成數(shù)據(jù)。對(duì)于每一層，其輸出均可以看作是對(duì)輸入的重新編碼，但要求得到的新編碼能依概率還原本來(lái)的輸入，深度學(xué)習(xí)模型正是通過(guò)這種不斷的重新編碼發(fā)現(xiàn)隱含概念。圖1給出了一個(gè)深度信念網(wǎng)絡(luò)的基本結(jié)構(gòu)。

圖1. 深度信念網(wǎng)絡(luò)的基本結(jié)構(gòu)

使用已經(jīng)標(biāo)注主題且以向量空間模型表達(dá)的網(wǎng)頁(yè)數(shù)據(jù)對(duì)DBN進(jìn)行訓(xùn)練，其目標(biāo)是通過(guò)正向（輸入層至輸出層）的數(shù)據(jù)通路得出在當(dāng)前權(quán)重下的模型輸出，與有監(jiān)督數(shù)據(jù)中的網(wǎng)頁(yè)真實(shí)主題信息進(jìn)行比較，若發(fā)現(xiàn)模型的輸出有錯(cuò)誤，則通過(guò)反向傳播從輸出層至輸入層逐層調(diào)整權(quán)重，最終使模型的輸出與真實(shí)的主題信息一致。取訓(xùn)練后的模型權(quán)重矩陣作為網(wǎng)頁(yè)爬蟲(chóng)程序在分析網(wǎng)頁(yè)的主題信息時(shí)的模型參數(shù)。需要指出的是，在圖1所示的DBN網(wǎng)絡(luò)中，其輸出層是一個(gè)多路的支持向量機(jī)分類(lèi)器，該SVM的輸入是第t-1層的概念表達(dá)。如前所述，在DBN 中，每一層均是對(duì)前一層輸出特征向量的一種重新表達(dá)，以盡可能還原原來(lái)的輸入信息為約束。因此，SVM分類(lèi)器模型所得到的是一組抽象層次相當(dāng)高的概念。在模型中通過(guò)改變每一層的節(jié)點(diǎn)數(shù)量對(duì)概念的表達(dá)長(zhǎng)度進(jìn)行壓縮，在本研究中SVM的輸入僅為模型輸入長(zhǎng)度的■。

令網(wǎng)頁(yè)的向量空間表達(dá)的特征向量長(zhǎng)度為d，即每個(gè)網(wǎng)頁(yè)pi為一個(gè)d維布爾向量，深度信念網(wǎng)絡(luò)執(zhí)行基于概率的特征表達(dá)轉(zhuǎn)換，如公式（1）所示：

p（x，y，h|？茲）=■（1）

其中？茲={b，c，d，W1，W2}，E（·）是一個(gè)能量函數(shù)，模擬能量從輸入層到輸出層的傳播，E（·）的定義如公式（2）所示：

E（x，y，h|？茲）=-bTx-cTh-dTy-xTW1h-hTW2y（2）

而Z（？茲）是一個(gè)邊緣分布函數(shù)，定義為：

Z（？茲）=■exp（-E（x，y，h|？茲））（3）

在支持向量機(jī)作為輸出層的情況下，一個(gè)網(wǎng)頁(yè)x被分類(lèi)為屬于某個(gè)主題yi的概率為：

p（yi=1|x）=■sig（cj+W■■+（W■■）Tx）（4）

其中sig（·）為sigmoid函數(shù)。結(jié)合公式（1）至（4），可以得到給定網(wǎng)頁(yè)x，它的主題向量的預(yù)測(cè)分布概率表達(dá)式：

p（y|x）=■（5）

本文方法的訓(xùn)練時(shí)間復(fù)雜度較高，但由于訓(xùn)練只需進(jìn)行一次，把得到的權(quán)重矩陣W放在分類(lèi)器中，測(cè)試時(shí)根據(jù)公式（5）可以直接得到主題向量的預(yù)測(cè)分布，需要O（mn）的計(jì)算量。

3.實(shí)驗(yàn)

采用一個(gè)互聯(lián)網(wǎng)上公開(kāi)的網(wǎng)頁(yè)數(shù)據(jù)集“THE 4 UNIVERSITIES DATASET”對(duì)本文方法進(jìn)行測(cè)試，該數(shù)據(jù)集收集了幾所大學(xué)的計(jì)算機(jī)系網(wǎng)站上的網(wǎng)頁(yè)，包含了7個(gè)分類(lèi)，分別是Student、Faculty、Staff、Department、Course、Project和Other。一共包含8282個(gè)網(wǎng)頁(yè)，平均網(wǎng)頁(yè)大小為26k。實(shí)驗(yàn)中僅對(duì)網(wǎng)頁(yè)的文本內(nèi)容進(jìn)行分析，先對(duì)每個(gè)網(wǎng)頁(yè)生成一個(gè)15000維的詞向量，然后使用深度信念網(wǎng)絡(luò)進(jìn)行概念提取，得到一個(gè)102維的特征向量，最后使用多分類(lèi)的支持向量機(jī)進(jìn)行網(wǎng)頁(yè)主題的分類(lèi)。根據(jù)經(jīng)驗(yàn)，深度信念網(wǎng)絡(luò)設(shè)計(jì)為15層，每層的節(jié)點(diǎn)數(shù)量遞減10%。訓(xùn)練集和測(cè)試集按3：7的比例從整個(gè)數(shù)據(jù)集中隨機(jī)抽取進(jìn)行構(gòu)建。為了增加主題識(shí)別結(jié)果的穩(wěn)定性，進(jìn)行了10次隨機(jī)的劃分，并取其識(shí)別正確率的平均值作為最終的結(jié)果。表1列出了本文方法對(duì)每個(gè)類(lèi)別的識(shí)別正確率和CPU運(yùn)行時(shí)間。

表1 算法在評(píng)估數(shù)據(jù)集上的正確率

從表1中可以看出，本文方法對(duì)實(shí)驗(yàn)數(shù)據(jù)集的主題有較高的識(shí)別率，且對(duì)單個(gè)網(wǎng)頁(yè)的運(yùn)行時(shí)間非常短，從而說(shuō)明該方法對(duì)于提高主題爬蟲(chóng)在識(shí)別網(wǎng)頁(yè)主題時(shí)的有效性和效率。

4.結(jié)論

本文提出了使用深度學(xué)習(xí)算法構(gòu)建網(wǎng)頁(yè)主題爬蟲(chóng)的設(shè)計(jì)方案，設(shè)計(jì)了一種多層的深度信念網(wǎng)絡(luò)，對(duì)多個(gè)受限波特曼機(jī)模型進(jìn)行堆疊，有效解決了對(duì)網(wǎng)頁(yè)主題的內(nèi)在概念的特征提取問(wèn)題，使用支持向量機(jī)模型對(duì)經(jīng)過(guò)概念轉(zhuǎn)換表達(dá)的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類(lèi)，在測(cè)試數(shù)據(jù)集上表明本文方法有較高的準(zhǔn)確率且運(yùn)行速度較快，從而說(shuō)明本文方法的有效性。

參考文獻(xiàn)：

[1]L.Deng and D.Yu， “Deep learning： Methods and applications，” Found. Trends Signal Process.， vol.7， no.4， pp. 197–387， Jun. 2014.

[2]M.Spencer， J.Eickholt， and J.Cheng， “A deep learning network approach to ab initio protein secondary structure prediction，” IEEE/ACM Trans. Comput. Biol. Bioinformatics， vol.？12， no.1， pp. 103–112， Jan. 2015.

[3]J.Fu， T.Mei， K.Yang， H.Lu， and Y.Rui， “Tagging personal photos with transfer deep learning，” in Proceedings of the 24th International Conference on World Wide Web， ser. WWW 15. Republic and Canton of Geneva， Switzerland： International World Wide Web Conferences Steering Committee， 2015， pp. 344–354.

[4]Z.Zuo， G.Wang， B.Shuai， L.Zhao， and Q.Yang， “Exemplar based deep discriminative and shareable feature learning for scene image classification，” Pattern Recogn.， vol.48， no.10， pp. 3004–3015， Oct. 2015.

[5]N.Srivastava and R.Salakhutdinov， “Multimodal learning with deep boltzmann machines，” J. Mach. Learn. Res.， vol.15， no.1， pp. 2949–2980， Jan. 2014.

[6]A.M. Elkahky， Y.Song， and X.He， “A multi-view deep learning approach for cross domain user modeling in recommendation systems，” in Proceedings of the 24th International Conference on World Wide Web， ser. WWW 15. Republic and Canton of Geneva， Switzerland： International World Wide Web Conferences Steering Committee， 2015， pp. 278–288.

[7]W.Zhang， R.Li， T.Zeng， Q.Sun， S.Kumar， J.Ye， and S.Ji， “Deep model based transfer and multi-task learning for biological image analysis，” in Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining， ser. KDD 15. New York， NY， USA： ACM， 2015， pp. 1475–1484.

[8]H.Wang， N.Wang， and D.-Y. Yeung， “Collaborative deep learning for recommender systems，” in Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining， ser. KDD 15. New York， NY， USA： ACM， 2015， pp. 1235–1244.

[9]K.Jung， B.-T. Zhang， and P.Mitra， “Deep learning for the web，” in Proceedings of the 24th International Conference on World Wide Web， ser. WWW 15 Companion. Republic and Canton of Geneva， Switzerland： International World Wide Web Conferences Steering Committee， 2015， pp. 1525–1526.

作者簡(jiǎn)介：

袁優(yōu)（1981-），女，湖北人，大學(xué)本科，講師。研究方向：智能信息系統(tǒng)，統(tǒng)計(jì)學(xué)習(xí)。