999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于BP神經網絡的主題爬蟲研究

2019-05-24 14:11:40黃利斌陳慧
電腦知識與技術 2019年4期

黃利斌 陳慧

摘要:主題爬蟲已經成為當下信息采集的重要方式。傳統的主題爬蟲技術,主題詞與其相關性權重是固定不變的,因此,存在隨著爬取頁面的增加而爬準率下降,錯誤率上升的問題。本文采用的主題爬蟲技術,運用BP神經網絡,根據下載網頁的特征,動態更新主題詞與其相關性權重,從而實現隨著爬取頁面的增加而爬準率上升,錯誤率下降。基于BP神經網絡的主題爬蟲技術,能提高信息采集的效率,降低因采集錯誤而產生的損失。

關鍵詞:主題爬蟲;BP神經網絡;信息采集;主題詞表

中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2019)04-0160-03

Abstract:Theme crawler has been an important way of obtaining modern information. For traditional theme crawler technology, the theme words and its relevance weights are fixed, which is a problem that the crawl rate decreases and the error rate increases as the number of crawling pages increases. Therefore, we propose a theme crawler technology based on BP neural network, which can dynamically update keywords and their relevance weights according to the characteristics of the downloaded webpage.Intelligent thematic crawler technology based on BP neural network can improve the efficiency of information collection and reduce the loss caused by the acquisition error.

Key words:Theme crawler; BP neural network; Information Collection; Thesaurus

1 引言

互聯網具有豐富龐大的數據,為了充分有效地利用互聯網的信息資源,并快速構建專業知識庫和數據庫,應用爬蟲技術來采集信息是一種方便、快捷和有效的方式[1]。主題爬蟲是一種能在一定時間內運用較少的計算資源、網絡資源和存儲資源來盡可能采集更多與主題相關的網頁文檔的特殊爬蟲技術[2],它能更好地滿足特地用戶的特地目的。主題爬蟲在抓取頁面之后進行解析,判斷這些頁面是否與主題相關,從而決定是否采集,并且根據相關性制定采集的優先順序,可以減少采集的數量,增加網頁文檔與主題的相關性,提高信息采集的效率,降低信息采集的錯誤率[3]。傳統的主題爬蟲技術主要基于鏈接地址和主題詞來解析、爬取,其關鍵詞的權重是固定不變的,因此,會隨著爬取頁面的增加,爬準率下降和錯誤率上升[4]。

BP(back propagation)神經網絡是目前研究最為成熟、應用最為廣泛的人工神經網絡模型之一[5]。由于具有較強的非線性模擬能力、強大的自學習和自適應能力,且結構簡單、可操作性強、具有較好的自學習能力、能夠有效地解決非線性目標函數的逼近問題等優點,因此被廣泛應用于自動控制、模式識別、圖像識別、信號處理、預測、函數擬合、系統仿真等學科和領域中[6]。

本文基于BP神經網絡的主題爬蟲,主要通過計算網頁中的關鍵字與主題的相關性,來判斷此網頁是否符合這個主題。如果符合,下載并放入數據庫中,作為BP神經網絡計算主題詞權重的資源。傳統的主題爬蟲技術運用關鍵詞來判斷網頁權重,其關鍵詞的權重是固定不變的。而本文采用BP神經網絡算法,動態更新關鍵詞的權重,因此,他不僅不會隨著爬取頁面數量的增加而降低查準率,反而會隨著網頁數據庫中頁面的增加而增加查準率,降低錯誤率,實現信息采集效率的提高,降低因采集錯誤而產生的損失。

2 系統設計

本文采用的系統設計,在傳統的爬蟲技術上增加了詞匯權重處理模塊,動態更新主題詞與其相關性權重。詞匯權重處理模塊運用優化后的BP神經網絡算法和改進后的TF-IDF算法,判斷網頁中的關鍵詞與主題的相關度[7],篩選出一部分與主題密切相關的關鍵詞,作為主題詞,從而建立主題詞表。再判斷網頁中的詞匯與詞表中的詞匯是否相同,如果相同,給予它相應的權重,所有主題詞權重之和就是網頁與主題相關性的權重。網頁權重如果大于設置的閾值,下載并保存到數據庫中,否則,拋棄網頁。

如圖1所示,具體流程如下:

1)通過關鍵詞爬取部分網頁,放入網頁數據庫中;

2)運用BP神經網絡算法,計算出與主題相關詞匯的權值;

3)選取權值大于閾值的關鍵詞,作為主題詞,構建主題詞表;

4)運用主題爬蟲,爬取下一個頁面,找到網頁中與主題詞表相同的關鍵詞,如果大于閾值,則下載到網頁數據庫中,否則丟棄;

5)重復上述步驟,達到需要爬取的數量。

3 詞匯處理模塊

3.1 爬取數據的來源

網頁是由HTML(Hypertext Markup Language)的標記語言,用于組織和標準化其在瀏覽器上的顯示效果[8]。HTML主要運用一些預定義的文檔、標簽來標記文檔的標題、頁面結構和頁面關系等元素,這些元素共同修飾了網頁內容的顯示效果。

在數據爬取過程中,爬蟲程序無法直接判斷網頁與主題的相關性。因此,采取與瀏覽器處理網頁文檔類似的方式,來了解文檔的價值。瀏覽器系統直接處理的是以HTML標簽為主的網頁源碼,通過這些源碼,來處理網頁中的內容。這些半結構化的網頁標簽為本文獲得網頁相關信息提供了良好的定位,通過了解標簽以及其屬性的含義,可以從中了解到這網頁內容所涉及的主題[9]。網頁,通常可以分為三部分,第一部分是標簽所影響的頭部區域,它一般是對這個頁面的概述,以及說明編碼等狀態信息;第二部分是標簽所影響的主體部分,它主要顯示網頁的正文;第三部分是標簽所影響的腳注部分,它主要顯示該頁面的所有權以及建立時間等關聯信息。本文選擇擁有網頁主要信息的頭部區域作為主題相關性判斷的依據。

頭部區域具有三個描述網頁文檔信息的重要元素、<meta name="Keywords"/>和<meta name="description"/>,第一個是網頁的標題,第二個是網頁文檔的關鍵字,第三個是網頁的概述,分析上述三個標簽內的相關信息,可以大致判斷出網頁文檔所描述的信息。</p><p>3.2 詞匯權重處理</p><p>在爬取網頁頭部信息后,運用分詞技術對信息進行分詞。本文運用TF-IDF這一傳統的詞匯權重計算方法為關鍵詞[i]計算本身的權值[10]。TF-IDF作為詞匯價值的統計方法被廣泛運用在多個領域。考慮到不同的文檔位置代表不同的價值,因此,為不同標簽的關鍵字建立特別的權值,使其對其他關鍵詞更具代表性,增加算法的可操作性和準確度。</p><p>4 實驗設計與數據分析</p><p>本系統采用Python語言實現,Python擁有豐富的框架和庫,能快速實現基于BP神經網絡算法的智能主題爬蟲,操作系統為Windows7,數據庫為Mysql,內存為4G,硬盤500G。主要爬取的網站為百度百科,百度百科中擁有各個領域和行業的相關信息且區分度高,本文爬取的主題為農業,程序運行界面如圖3所示。</p><p>為驗證基于BP神經網絡的主題爬蟲的優勢,本文比較了基于主題詞表和基于PageRank鏈接的主題爬蟲。如圖4所示,通過對比三種算法的爬準率,爬準率為下載總數除以爬取總數,可以明顯看到隨著爬取總數的增加,基于BP神經網絡算法的爬準率隨著爬取總數的增加而增加。如圖5所示,通過對比三種算法的錯誤率,錯誤率為與主題無關的下載數除以下載總數。可以明顯看到隨著爬取總數的增加,基于BP神經網絡算法的錯誤率隨著爬取總數的增加而降低。</p><p>5 結束語</p><p>本論文設計了一種基于BP神經網絡算法的主題爬蟲,實驗結果表明,基于BP神經網絡算法的主題爬蟲能動態更新主題詞表,具有隨著爬取數量的增加,爬準率提升的優勢,因此適合需要大量爬取網絡信息資源的相關業務,實現提升信息采集的效率,降低信息采集的錯誤率。</p><p>參考文獻:</p><p>[1]于娟,劉強.主題網絡爬蟲研究綜述[J].計算機工程與科學,2015,37(2):231-237.</p><p>[2]朱幸輝.論農村信息綜合服務平臺設計[J].農村經濟與科技,2014,25(6):131-132+134.</p><p>[3]方逵,羅武,朱幸輝.農業知識庫系統設計與實現[J].農機化研究,2013,35(5):8-11.</p><p>[4]邢敏玲. 基于網頁分塊的主題爬蟲方法研究[D].重慶大學,2011.</p><p>[5]鄒永斌,陳興蜀,王文賢.基于貝葉斯分類器的主題爬蟲研究[J].計算機應用研究,2009,26(9):3418-3420+3439.</p><p>[6]孫玲芳,周加波,林偉健,等.基于BP神經網絡和遺傳算法的網絡輿情危機預警研究[J].情報雜志,2014,33(11):18-24.</p><p>[7]潘芳,張霞,仲偉俊.基于BP神經網絡的微博網絡社群突發輿情的預警監控[J].情報雜志,2014,33(05):125-128.</p><p>[8]許興軍,顏鋼鋒.基于BP神經網絡的股價趨勢分析[J].浙江金融,2011(11):57-59+64.</p><p>[9]Wang Ying, Lu Cuijie, Zuo Cuiping.Coal mine safety production forewarning based on improved BP neural network[J].International Journal of Mining Science and Technology,2015,25(02):319-324.</p><p>[10]Zhao Qiu, Ceng Jun Dai, Tao Liu. Design of Theme Crawler for Web Forum[J]. Applied Mechanics and Materials,2014,3147(548).</p><p>[11]H. Hu, Y. J. Ge. Using Web Crawler Technology for Text Analysis of Geo-Events: A Case Study of the Huangyan Island Incident[J]. ISPRS - International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences,2013,XL-4/W3(1).</p><p>[12]Gaiyun He, Can Huang, Longzhen Guo, et al. Identification and Adjustment of Guide Rail Geometric Errors Based on BP Neural Network[J]. Measurement Science Review,2017,17(3).</p><p>【通聯編輯:唐一東】

主站蜘蛛池模板: 久久久久中文字幕精品视频| 国产免费a级片| 成人午夜网址| 青青国产视频| 国产欧美精品一区二区| 亚洲 欧美 偷自乱 图片| 国产在线精品人成导航| 欧美精品啪啪一区二区三区| 欧美日韩在线成人| 亚洲欧美极品| 午夜激情福利视频| 日韩国产综合精选| 91视频青青草| 99久久无色码中文字幕| 免费三A级毛片视频| 亚洲αv毛片| 人妖无码第一页| 日韩国产无码一区| AV天堂资源福利在线观看| 午夜福利网址| 亚洲二三区| 亚洲免费毛片| 免费无码一区二区| 欧美h在线观看| 久久久久88色偷偷| 精品国产自| 成年人午夜免费视频| www.91在线播放| 伊人丁香五月天久久综合| 久久精品国产一区二区小说| 国产精品成人不卡在线观看| 欧美午夜视频在线| 亚洲AⅤ无码国产精品| 中文字幕久久波多野结衣| 99久久国产精品无码| 国产亚洲成AⅤ人片在线观看| 亚洲成年人片| 日韩无码黄色网站| 日韩国产另类| 久久久久青草大香线综合精品 | 看看一级毛片| 国产色婷婷视频在线观看| 91精品专区国产盗摄| 成年人免费国产视频| 国产美女精品一区二区| 久久久久久久久18禁秘| 99re视频在线| 久996视频精品免费观看| 久久精品视频亚洲| 国产精品黄色片| 国产96在线 | 色九九视频| 九九线精品视频在线观看| 片在线无码观看| 91精品久久久久久无码人妻| 精品欧美日韩国产日漫一区不卡| 欧美精品1区2区| 国产精品主播| 91美女视频在线观看| 99视频国产精品| 亚洲天堂网在线视频| 亚洲无码不卡网| 欧美在线观看不卡| 亚洲免费毛片| 国产精欧美一区二区三区| 99视频国产精品| 欧美97色| 中文纯内无码H| 色综合色国产热无码一| 为你提供最新久久精品久久综合| 国内精品久久九九国产精品| 小蝌蚪亚洲精品国产| 波多野结衣亚洲一区| 91成人免费观看| 伊人久久婷婷五月综合97色| 日韩天堂视频| 欧美精品影院| 亚洲人成电影在线播放| 久久精品国产国语对白| 亚洲国产精品不卡在线| 欧洲熟妇精品视频| 国产精品成人久久|