999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于深度學(xué)習(xí)的網(wǎng)頁(yè)主題爬蟲(chóng)的設(shè)計(jì)

2016-03-15 08:09:14袁優(yōu)
課程教育研究·中 2016年1期
關(guān)鍵詞:深度學(xué)習(xí)

【摘要】網(wǎng)頁(yè)主題爬蟲(chóng)能夠從萬(wàn)維網(wǎng)中尋找從屬于特定主題的網(wǎng)頁(yè),并對(duì)其中的關(guān)鍵詞、段落和圖像進(jìn)行保存和索引。但在網(wǎng)頁(yè)的表達(dá)形式、數(shù)量和內(nèi)容都呈現(xiàn)爆發(fā)式增長(zhǎng)的情況下,傳統(tǒng)的基于關(guān)鍵字匹配的網(wǎng)頁(yè)主題發(fā)現(xiàn)方法已經(jīng)難以有效的為爬蟲(chóng)程序進(jìn)行準(zhǔn)確的主題識(shí)別,這對(duì)于搜索引擎建立有效的網(wǎng)頁(yè)內(nèi)容數(shù)據(jù)庫(kù)和網(wǎng)頁(yè)內(nèi)容的話題分析等關(guān)鍵應(yīng)用都是具大的挑戰(zhàn)。提出一種基于深度學(xué)習(xí)的網(wǎng)頁(yè)主題爬蟲(chóng)的設(shè)計(jì),采用深度信念網(wǎng)絡(luò)對(duì)由文字向量表示的網(wǎng)頁(yè)內(nèi)容進(jìn)行概念表達(dá),以此構(gòu)建多層次的網(wǎng)頁(yè)主題概念特征向量,并使用支持向量機(jī)模型在新的特征表達(dá)下對(duì)網(wǎng)頁(yè)主題進(jìn)行快速識(shí)別,有效提升了爬蟲(chóng)程序?qū)W(wǎng)頁(yè)主題的識(shí)別準(zhǔn)確率。

【關(guān)鍵詞】主題爬蟲(chóng) 深度學(xué)習(xí) 深度信念網(wǎng)絡(luò) 向量空間模型 支持向量機(jī)

【Abstract】A foucsed crawler can detect the web pages belonging to certain topics through WWW as well as storing and indexing the key words, paragraphs and images in these web pages. However, currently the rapid growing of the quantities of formats and contents of web pages lead to a great challenge that the traditional topic discovery methods based on key words matching are ineffective for precise topic recognition, which also affect to the construction of web page database and topic detection of web page sessions. In this paper, we propose a design of focused crawler based on deep learning. In this method, a deep belief network is adopted to represent the potential concepts of web pages with different topics which are described as vector space model. The extracted concepts of a topic forms a feature vector which is used by a support vector machine to classify the topics of a new web page. The proposed method improves the recognition accuracy of web page topics.

【Keywords】focused crawler; deep learning; deep belief network; vector space model; support vector machine

【中圖分類(lèi)號(hào)】G64 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】2095-3089(2016)01-0218-02

1.背景

在互聯(lián)網(wǎng)技術(shù)高速發(fā)展的今天,萬(wàn)維網(wǎng)(World Wide Web,WWW)上保存了海量的信息和資源,且大多以多媒體網(wǎng)頁(yè)的形式進(jìn)行保存[1]。為了使人們能夠在海量的網(wǎng)頁(yè)資源中快速查找到感興趣的網(wǎng)頁(yè)資源,搜索引擎通過(guò)網(wǎng)頁(yè)爬蟲(chóng)(Web Crawler)收集各種網(wǎng)頁(yè),并建立基于關(guān)鍵詞或主題的索引,方便用戶的快速搜索[2]。在這種情況下,網(wǎng)頁(yè)爬蟲(chóng)程序?qū)W(wǎng)頁(yè)主題的識(shí)別能力和效率就顯得十分重要[3]。傳統(tǒng)爬蟲(chóng)程序主要是依據(jù)對(duì)網(wǎng)頁(yè)關(guān)鍵詞的匹配進(jìn)行主題識(shí)別,主要對(duì)HTML頁(yè)面中的meta字段或整個(gè)HTML文本進(jìn)行關(guān)鍵詞匹配[4]。而對(duì)特定主題的定義則為若干個(gè)關(guān)鍵詞的組合。這種基于簡(jiǎn)單文本匹配的方法對(duì)當(dāng)前復(fù)雜且種類(lèi)繁多的網(wǎng)頁(yè)是不適用的,主要原因在于網(wǎng)頁(yè)主題是一個(gè)比較復(fù)雜的概念,僅通過(guò)關(guān)鍵詞或其組合的方式難以準(zhǔn)確表達(dá)某個(gè)網(wǎng)頁(yè)主題[5, 6]。

研究者們采用機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘的方法對(duì)不同主題的文本特征進(jìn)行學(xué)習(xí)和提取,并以模型參數(shù)的形式預(yù)先設(shè)置在爬蟲(chóng)程序里面,當(dāng)進(jìn)行網(wǎng)頁(yè)獲取時(shí),爬蟲(chóng)程序通過(guò)模型在線判斷一個(gè)新網(wǎng)頁(yè)所屬的主題,然后確定是否保存到數(shù)據(jù)庫(kù)中[7]。但同時(shí)我們指出,不同的機(jī)器學(xué)習(xí)模型的訓(xùn)練代價(jià)、識(shí)別效率和對(duì)網(wǎng)頁(yè)主題所蘊(yùn)含的抽象概念的表達(dá)能力各不相同。基于統(tǒng)計(jì)學(xué)習(xí)和淺層機(jī)器學(xué)習(xí)的模型由于受限于其對(duì)復(fù)雜函數(shù)的表達(dá)能力,因此在網(wǎng)頁(yè)主題爬蟲(chóng)上使用的效果并不十分理想[8]。針對(duì)目前網(wǎng)頁(yè)主題爬蟲(chóng)對(duì)網(wǎng)頁(yè)主題的識(shí)別問(wèn)題,本文提出采用基于深度學(xué)習(xí)(Deep Learning)的模型對(duì)主題進(jìn)行特征表達(dá)并使用支持向量機(jī)(Support Vector Machine,SVM)模型進(jìn)行識(shí)別。區(qū)別于傳統(tǒng)的淺層模型,深度學(xué)習(xí)模型的輸入層和輸出層之間相隔了若干個(gè)運(yùn)算層,如堆疊自動(dòng)編碼器(Stacked Auto Encoder,SAE)就是若干個(gè)自動(dòng)編碼器的疊加,深度信念網(wǎng)絡(luò)(Deep Belief Network,DBN)實(shí)質(zhì)上是一個(gè)多層的貝葉斯信念網(wǎng)絡(luò)[9]。通過(guò)多層的運(yùn)算單元疊加,可以有效提取和表達(dá)各種復(fù)雜概念,這是構(gòu)建有效主題識(shí)別模型的基礎(chǔ)。

2.主要方法

本文方法首先使用向量空間模型對(duì)網(wǎng)頁(yè)進(jìn)行向量化表達(dá),即把網(wǎng)頁(yè)轉(zhuǎn)化為詞向量,在本研究中對(duì)中英文網(wǎng)頁(yè)分別使用不同的基礎(chǔ)向量,這是由于中文和英文的詞集是不同的。使用分詞軟件對(duì)網(wǎng)頁(yè)的文本內(nèi)容進(jìn)行過(guò)濾和分詞,并把分詞結(jié)果記錄在一個(gè)m維布爾向量中,若該網(wǎng)頁(yè)含有第i個(gè)基本詞,則該向量的第i位為1,反之為0。在此基礎(chǔ)上構(gòu)建深度信念網(wǎng)絡(luò),它本質(zhì)上是一個(gè)多層神經(jīng)網(wǎng)絡(luò),通過(guò)訓(xùn)練它可以以最大的后驗(yàn)概率去生成數(shù)據(jù)。對(duì)于每一層,其輸出均可以看作是對(duì)輸入的重新編碼,但要求得到的新編碼能依概率還原本來(lái)的輸入,深度學(xué)習(xí)模型正是通過(guò)這種不斷的重新編碼發(fā)現(xiàn)隱含概念。圖1給出了一個(gè)深度信念網(wǎng)絡(luò)的基本結(jié)構(gòu)。

圖1. 深度信念網(wǎng)絡(luò)的基本結(jié)構(gòu)

使用已經(jīng)標(biāo)注主題且以向量空間模型表達(dá)的網(wǎng)頁(yè)數(shù)據(jù)對(duì)DBN進(jìn)行訓(xùn)練,其目標(biāo)是通過(guò)正向(輸入層至輸出層)的數(shù)據(jù)通路得出在當(dāng)前權(quán)重下的模型輸出,與有監(jiān)督數(shù)據(jù)中的網(wǎng)頁(yè)真實(shí)主題信息進(jìn)行比較,若發(fā)現(xiàn)模型的輸出有錯(cuò)誤,則通過(guò)反向傳播從輸出層至輸入層逐層調(diào)整權(quán)重,最終使模型的輸出與真實(shí)的主題信息一致。取訓(xùn)練后的模型權(quán)重矩陣作為網(wǎng)頁(yè)爬蟲(chóng)程序在分析網(wǎng)頁(yè)的主題信息時(shí)的模型參數(shù)。需要指出的是,在圖1所示的DBN網(wǎng)絡(luò)中,其輸出層是一個(gè)多路的支持向量機(jī)分類(lèi)器,該SVM的輸入是第t-1層的概念表達(dá)。如前所述,在DBN 中,每一層均是對(duì)前一層輸出特征向量的一種重新表達(dá),以盡可能還原原來(lái)的輸入信息為約束。因此,SVM分類(lèi)器模型所得到的是一組抽象層次相當(dāng)高的概念。在模型中通過(guò)改變每一層的節(jié)點(diǎn)數(shù)量對(duì)概念的表達(dá)長(zhǎng)度進(jìn)行壓縮,在本研究中SVM的輸入僅為模型輸入長(zhǎng)度的■。

令網(wǎng)頁(yè)的向量空間表達(dá)的特征向量長(zhǎng)度為d,即每個(gè)網(wǎng)頁(yè)pi為一個(gè)d維布爾向量,深度信念網(wǎng)絡(luò)執(zhí)行基于概率的特征表達(dá)轉(zhuǎn)換,如公式(1)所示:

p(x,y,h|?茲)=■(1)

其中?茲={b,c,d,W1,W2},E(·)是一個(gè)能量函數(shù),模擬能量從輸入層到輸出層的傳播,E(·)的定義如公式(2)所示:

E(x,y,h|?茲)=-bTx-cTh-dTy-xTW1h-hTW2y(2)

而Z(?茲)是一個(gè)邊緣分布函數(shù),定義為:

Z(?茲)=■exp(-E(x,y,h|?茲))(3)

在支持向量機(jī)作為輸出層的情況下,一個(gè)網(wǎng)頁(yè)x被分類(lèi)為屬于某個(gè)主題yi的概率為:

p(yi=1|x)=■sig(cj+W■■+(W■■)Tx)(4)

其中sig(·)為sigmoid函數(shù)。結(jié)合公式(1)至(4),可以得到給定網(wǎng)頁(yè)x,它的主題向量的預(yù)測(cè)分布概率表達(dá)式:

p(y|x)=■(5)

本文方法的訓(xùn)練時(shí)間復(fù)雜度較高,但由于訓(xùn)練只需進(jìn)行一次,把得到的權(quán)重矩陣W放在分類(lèi)器中,測(cè)試時(shí)根據(jù)公式(5)可以直接得到主題向量的預(yù)測(cè)分布,需要O(mn)的計(jì)算量。

3.實(shí)驗(yàn)

采用一個(gè)互聯(lián)網(wǎng)上公開(kāi)的網(wǎng)頁(yè)數(shù)據(jù)集“THE 4 UNIVERSITIES DATASET”對(duì)本文方法進(jìn)行測(cè)試,該數(shù)據(jù)集收集了幾所大學(xué)的計(jì)算機(jī)系網(wǎng)站上的網(wǎng)頁(yè),包含了7個(gè)分類(lèi),分別是Student、Faculty、Staff、Department、Course、Project和Other。一共包含8282個(gè)網(wǎng)頁(yè),平均網(wǎng)頁(yè)大小為26k。實(shí)驗(yàn)中僅對(duì)網(wǎng)頁(yè)的文本內(nèi)容進(jìn)行分析,先對(duì)每個(gè)網(wǎng)頁(yè)生成一個(gè)15000維的詞向量,然后使用深度信念網(wǎng)絡(luò)進(jìn)行概念提取,得到一個(gè)102維的特征向量,最后使用多分類(lèi)的支持向量機(jī)進(jìn)行網(wǎng)頁(yè)主題的分類(lèi)。根據(jù)經(jīng)驗(yàn),深度信念網(wǎng)絡(luò)設(shè)計(jì)為15層,每層的節(jié)點(diǎn)數(shù)量遞減10%。訓(xùn)練集和測(cè)試集按3:7的比例從整個(gè)數(shù)據(jù)集中隨機(jī)抽取進(jìn)行構(gòu)建。為了增加主題識(shí)別結(jié)果的穩(wěn)定性,進(jìn)行了10次隨機(jī)的劃分,并取其識(shí)別正確率的平均值作為最終的結(jié)果。表1列出了本文方法對(duì)每個(gè)類(lèi)別的識(shí)別正確率和CPU運(yùn)行時(shí)間。

表1 算法在評(píng)估數(shù)據(jù)集上的正確率

從表1中可以看出,本文方法對(duì)實(shí)驗(yàn)數(shù)據(jù)集的主題有較高的識(shí)別率,且對(duì)單個(gè)網(wǎng)頁(yè)的運(yùn)行時(shí)間非常短,從而說(shuō)明該方法對(duì)于提高主題爬蟲(chóng)在識(shí)別網(wǎng)頁(yè)主題時(shí)的有效性和效率。

4.結(jié)論

本文提出了使用深度學(xué)習(xí)算法構(gòu)建網(wǎng)頁(yè)主題爬蟲(chóng)的設(shè)計(jì)方案,設(shè)計(jì)了一種多層的深度信念網(wǎng)絡(luò),對(duì)多個(gè)受限波特曼機(jī)模型進(jìn)行堆疊,有效解決了對(duì)網(wǎng)頁(yè)主題的內(nèi)在概念的特征提取問(wèn)題,使用支持向量機(jī)模型對(duì)經(jīng)過(guò)概念轉(zhuǎn)換表達(dá)的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行分類(lèi),在測(cè)試數(shù)據(jù)集上表明本文方法有較高的準(zhǔn)確率且運(yùn)行速度較快,從而說(shuō)明本文方法的有效性。

參考文獻(xiàn):

[1]L.Deng and D.Yu, “Deep learning: Methods and applications,” Found. Trends Signal Process., vol.7, no.4, pp. 197–387, Jun. 2014.

[2]M.Spencer, J.Eickholt, and J.Cheng, “A deep learning network approach to ab initio protein secondary structure prediction,” IEEE/ACM Trans. Comput. Biol. Bioinformatics, vol.?12, no.1, pp. 103–112, Jan. 2015.

[3]J.Fu, T.Mei, K.Yang, H.Lu, and Y.Rui, “Tagging personal photos with transfer deep learning,” in Proceedings of the 24th International Conference on World Wide Web, ser. WWW 15. Republic and Canton of Geneva, Switzerland: International World Wide Web Conferences Steering Committee, 2015, pp. 344–354.

[4]Z.Zuo, G.Wang, B.Shuai, L.Zhao, and Q.Yang, “Exemplar based deep discriminative and shareable feature learning for scene image classification,” Pattern Recogn., vol.48, no.10, pp. 3004–3015, Oct. 2015.

[5]N.Srivastava and R.Salakhutdinov, “Multimodal learning with deep boltzmann machines,” J. Mach. Learn. Res., vol.15, no.1, pp. 2949–2980, Jan. 2014.

[6]A.M. Elkahky, Y.Song, and X.He, “A multi-view deep learning approach for cross domain user modeling in recommendation systems,” in Proceedings of the 24th International Conference on World Wide Web, ser. WWW 15. Republic and Canton of Geneva, Switzerland: International World Wide Web Conferences Steering Committee, 2015, pp. 278–288.

[7]W.Zhang, R.Li, T.Zeng, Q.Sun, S.Kumar, J.Ye, and S.Ji, “Deep model based transfer and multi-task learning for biological image analysis,” in Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ser. KDD 15. New York, NY, USA: ACM, 2015, pp. 1475–1484.

[8]H.Wang, N.Wang, and D.-Y. Yeung, “Collaborative deep learning for recommender systems,” in Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ser. KDD 15. New York, NY, USA: ACM, 2015, pp. 1235–1244.

[9]K.Jung, B.-T. Zhang, and P.Mitra, “Deep learning for the web,” in Proceedings of the 24th International Conference on World Wide Web, ser. WWW 15 Companion. Republic and Canton of Geneva, Switzerland: International World Wide Web Conferences Steering Committee, 2015, pp. 1525–1526.

作者簡(jiǎn)介:

袁優(yōu)(1981-),女,湖北人,大學(xué)本科,講師。研究方向:智能信息系統(tǒng),統(tǒng)計(jì)學(xué)習(xí)。

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
基于自動(dòng)智能分類(lèi)器的圖書(shū)館亂架圖書(shū)檢測(cè)
搭建深度學(xué)習(xí)的三級(jí)階梯
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
主站蜘蛛池模板: 日韩欧美国产成人| 综合色区亚洲熟妇在线| 精品99在线观看| 午夜视频在线观看免费网站 | 第一页亚洲| 亚洲色成人www在线观看| 欧美午夜在线观看| 亚洲国产av无码综合原创国产| 999精品在线视频| 亚国产欧美在线人成| 97国产在线视频| 亚洲区一区| 精品国产美女福到在线直播| 婷婷色中文| www成人国产在线观看网站| 欧美色图久久| 国产精品网曝门免费视频| 精品人妻AV区| 99国产精品免费观看视频| 日本手机在线视频| 亚洲黄色高清| 亚洲高清无码久久久| 天天综合网在线| 在线日本国产成人免费的| 色综合a怡红院怡红院首页| 国产在线精品人成导航| 欧美精品亚洲二区| 日韩美女福利视频| 综合久久久久久久综合网| 国产精品视屏| 免费人成网站在线观看欧美| 国产精品久久久久久影院| 日韩在线欧美在线| 免费人欧美成又黄又爽的视频| 亚洲无码37.| 玖玖免费视频在线观看| 久久视精品| 亚洲黄色成人| 亚洲国产综合第一精品小说| 91福利在线观看视频| 最新国产午夜精品视频成人| 青青草原国产免费av观看| 国产第八页| 尤物国产在线| 亚洲一区二区三区国产精品| 国产亚洲精品va在线| 99热这里只有精品在线播放| 国产精品lululu在线观看| 免费不卡视频| 91精品伊人久久大香线蕉| 国产手机在线ΑⅤ片无码观看| 在线免费亚洲无码视频| 日韩色图在线观看| 国产区成人精品视频| 国产在线98福利播放视频免费| 亚洲黄网视频| 亚洲久悠悠色悠在线播放| 污网站免费在线观看| 又粗又大又爽又紧免费视频| 中文字幕不卡免费高清视频| 99热线精品大全在线观看| 丝袜无码一区二区三区| A级毛片高清免费视频就| 亚欧成人无码AV在线播放| 91精品最新国内在线播放| 亚洲精品福利网站| 国产人成网线在线播放va| www.99精品视频在线播放| 亚洲毛片网站| 亚洲日韩第九十九页| 久久婷婷六月| 亚洲国产中文在线二区三区免| 久久青青草原亚洲av无码| 免费黄色国产视频| 婷婷开心中文字幕| 亚洲区一区| 免费人成在线观看成人片| 亚洲人成影院在线观看| 无码中文字幕加勒比高清| 国产午夜精品一区二区三区软件| 国产色偷丝袜婷婷无码麻豆制服| 亚洲欧美在线精品一区二区|