999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

主題網絡爬蟲研究綜述

2024-05-18 06:48:48劉曉旭
電腦知識與技術 2024年8期

劉曉旭

摘要:近年來,隨著互聯網技術的迅猛發展,互聯網數據規模呈現出指數級增長的趨勢。這些龐大的互聯網數據在給人們生活帶來便利的同時,也給信息的查找帶來了巨大的挑戰。傳統的通用網絡爬蟲在面對越來越大規模的數據抓取工作時,逐漸顯得力不從心。隨著用戶對網絡信息個性化需求的不斷增加,主題網絡爬蟲作為一種創新的解決方案應運而生。文章詳細闡述了主題網絡爬蟲的定義及其工作原理,并系統梳理了近幾年來主題網絡爬蟲在國內外的研究狀況。同時,我們也指出了當前存在的問題,并提出了進一步研究的方向,以期為主題網絡爬蟲的發展和完善提供有益的參考。

關鍵詞:網絡爬蟲;主題爬蟲;搜索策略;鏈接分析;相關度計算

中圖分類號:TP393? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2024)08-0097-03

開放科學(資源服務)標識碼(OSID)

0 引言

21世紀以來,互聯網科技進入高速發展時代,網絡全面普及,人們開始廣泛應用計算機、互聯網及其他智能電子設備。在這樣的背景下,互聯網上的信息在數量和復雜性上都呈現指數級增長。為了從海量的信息中快速獲取所需內容,信息檢索工具應運而生,傳統的搜索引擎如谷歌、雅虎等,成為用戶獲取網絡信息的有效工具。然而,面對日益增長的非結構化數據以及越來越精確、定制化的用戶需求,以通用爬蟲為本質的傳統搜索引擎已經無法滿足用戶的差異化需求。因此,以主題網絡爬蟲為核心的垂直搜索引擎應運而生。如何實現更精準、快速的信息抓取已成為爬蟲領域的重要研究方向之一[1]。最近幾年,大量關于網絡主題爬蟲的研究涌現,因此,這一領域近些年來的研究成果亟待進行總結。

本文旨在對主題網絡爬蟲進行綜合論述,主要包括主題網絡爬蟲的定義及其工作原理、近年來國內外有關聚焦爬蟲的研究狀況、所面臨的挑戰與問題以及未來研究方向的展望。通過對這些方面的闡述,本文旨在為未來主題網絡爬蟲的研究提供有價值的參考依據。

1 主題網絡爬蟲的定義及工作原理

1.1 主題網絡爬蟲定義

網絡爬蟲是一種能夠按照設計者要求,對目標網站進行自動化瀏覽并抓取目標信息的程序。通常在給定一個或多個初始URL的情況下,爬蟲會從初始頁面開始采集數據。在采集過程中,爬蟲會自動識別網頁中所有的URL,并將新的URL不斷放入待爬隊列,重復這一采集過程,直到達到系統設置的停止條件為止。

主題網絡爬蟲,又稱為聚焦型網絡爬蟲,是一種能夠按照預先定義好的爬行策略,對頁面內容及爬行方向進行分析與篩選的爬蟲。在給定初始URL種子集后,主題網絡爬蟲會根據一定的分析算法,對頁面的主題相關程度以及每個URL與主題的潛在相似度程度進行相關分析,從而過濾掉與主題無關的頁面,將與主題相關的URL放入待爬隊列。當滿足一定條件時,爬蟲會停止工作。

1.2 主題網絡爬蟲工作原理

主題網絡爬蟲相較于通用爬蟲,更專注于特定主題,因此能夠更有效地針對特定主題進行信息抓取。它與通用網絡爬蟲的差異主要體現在以下幾個方面:

1) 初始種子URL和抓取范圍。主題網絡爬蟲需要明確定義初始種子URL,同時還需要設定明確的抓取范圍,然后通過解析頁面中的鏈接來遞歸地爬取更多頁面以限制爬取的主題相關性。

2) 鏈接過濾和評估。主題網絡爬蟲在鏈接過濾方面相較于通用爬蟲更為嚴格。它會自動分析頁面相關度,僅保留與主題相關的鏈接,并根據主題相關度對鏈接進行優先級評估和排序。

3) 深度控制策略。主題網絡爬蟲需要實施爬取深度控制,通過限制爬取深度或設定停止條件,避免過度爬取與主題無關的頁面[2]。主題網絡爬蟲工作流程如圖1所示。

2 主題網絡爬蟲研究現狀

2.1 國外研究現狀

國外學者對于主題爬蟲的研究開始于90年代,1994年,DeBra等人[3]首次提出Fish-Search算法。該算法采取二元分類來判斷遇到的內容是否與主題相關,但在判斷相關性時只有0和1兩個離散值,導致結果過于離散化。Hersovici M等人[4]針對這一不足對算法進行修改然后提出Shark-Search算法。通過超鏈接中顯示的可點擊的文本內容價值以及父級節點與子級節點之間建立的超鏈接關系來評判主題相似度,將主題相似度計算結果擴大到[0,1]整個實數范圍。1999年, Chakrabarti S等人[5]提出了主題網絡爬蟲的概念,其主要方向就是主題相似度計算和文本鏈接分析評價。

1996年Page L和Brin S[6]提出了PageRank算法。該算法通過分析網頁之間的鏈接數量和質量來確定頁面的重要性。網頁的重要度由鏈接向這個網頁的遞歸總和確定。但該算法不考慮頁面的內容和主題相關性,容易出現“主題漂移”[7]。Kleinber J M[8]提出HITS算法,在頁面連接關系的基礎上,對連接結構改進的算法。通過Authority Scores和Hub Scores兩個維度衡量頁面的價值并分開考慮,然后得出綜合評價。

2005 年,Shokouhi M等人[9]將遺傳算法結合到主題爬蟲程序中,利用遺傳算法加強主題爬蟲,使爬蟲程序能夠在眾多爬行路線中找到最優解的同時,通過遺傳操作對候選解優化,尋找到最優解從而豐富關鍵詞集合來增加爬準率。2010 年,Hati D等人[10]提出改進的專注爬取方法,將網頁劃分為塊處理,并通過一些策略來確定哪些塊可能包含主題相關信息,使爬蟲程序更有針對性地獲取所需頁面內容,限制或減少搜索范圍來提高網頁相關度的判斷準確度。2014 年,Goyal D等人[11]將一種基于樹形結構的機器學習算法與神經網絡相結合,得到一種新型主題相關信息網頁相關性預測模型,從Web地址、超鏈接中可點擊文本、當前網頁的上一級網頁的角度分析,判斷特定主題下的頁面與給定查詢內容的相關度。2015 年,AGRE G H等人[12]提出一種針對特定關鍵詞或領域信息進行主動獲取的主題網絡爬蟲算法,該算法分別從網頁web地址和關鍵詞兩個角度來判斷主題相關度,按照相關度進行高低排列,使爬蟲程序優先爬取相關度較高的URL。Diligenti M等人[13]利用Contex Graphs構造分類器來指導爬蟲爬行方向。用網頁在語境圖的層次來表示網頁與主題網頁的距離,距離越近的網頁主題相關度越高,將優先被訪問。Seyfi A等人[14]提出一種基于T-Graph原則的組合連接和內容模型的專注爬蟲專用于采集特定主題相關頁面,并通過T-Graph原則對爬取的網頁web地址進行評分,以提升爬取性能。

2.2 國內研究現狀

相比國外,國內研究開始得相對較晚,但發展速度很快,國內有諸多學者在傳統算法的基礎上進行優化,來提高主題網絡爬蟲的性能。

王錦陽[15]根據網頁中的不同內容反映了不同信息這一特點,利用標題構建改標題節點的子樹來判斷網頁主題相關度,由語義相似程度更改VSM對主題相關度進行判定,提高了網頁主題相關度判別率和爬取信息的準確率。張麗[16]受機器人象棋啟發完善了傳統PageRank算法,得到N-step PageRank 算法,在計算Web相關度排名時也考慮了網頁接下來更深度的鏈接內容,因此就會獲得更多的相關信息來做出判斷,在網頁搜索準確度的有效性方面優于傳統的PageRank算法。Yuan F等人[17]根據“主題隨機瀏覽”的特點,在傳遞網頁排名值的同時將主題之間的相關度一起送達,用以克服算法容易主題漂移的問題。張翔等人[18]在算法中加入時效權重并采用Bagging方法來解決主題漂移問題,準確率明顯提高。

羅林波等人[19]將利用相似性引擎對主題相似度進行評分的Shark-Search算法和HITS算法相結合并應用于主題爬蟲,彌補兩個算法各自的不足,相比其中任意一種算法查找準確率都有提高。Peng Tao等人[20]認為網頁中超鏈接包含的可點擊的文本內容無法完全反映出網頁主題內容,從而造成爬蟲程序網頁價值判斷失誤,降低爬取內容準確度。提出一種新的網頁劃分方法,將網頁劃分成若干塊不會被遮擋的小區域,繼而依據前后網頁信息判斷劃分區域的相關度。熊忠陽等人[21]通過衡量在特征選擇過程中一個特征對于分類任務的貢獻程度的指標,提出一種基于信息論熵增的專注爬蟲算法,采取一種能夠信息分類的樹狀結構與主題關鍵詞建立所有單詞的TF-IDF權重所組成的向量,使得爬蟲程序運行時除了抓取信息還可以學習已完成爬取的網頁信息,持續更新特征項在向量中的權值,不斷完善主題關鍵詞信息庫。

孫紅光等人[22]針對主題詞匯細化不足等問題,采用LDA基于語義相似度計算模型,設計了語義聚焦爬蟲。該算法爬取的網頁數量和主題相關度都高于其它算法。劉景發等人[23]結合潛狄利克雷分布和 Apriori 算法的領域本體半自動構建方法。基于鏈接評估的多目標優化模型和改進的多目標蟻群優化算法來指導爬取方向,結合歷史爬行路線進行修正,分別使用SVM與PageRank算法對鏈接相關性評價,提出基于Wang-Landau抽樣的主題爬行方法,爬準率與主題頁面相關度的標準差具有明顯優勢。

3 研究中存在的問題及發展趨勢

3.1 面臨的挑戰與問題

近年來,隨著主題網絡爬蟲研究的日益深入,人們不斷對主題網絡爬蟲的算法和爬行策略進行改良和完善,以適應日益復雜的網絡環境和用戶需求。然而,在某些方面仍存在一定問題,具體分以下幾點:

主題網絡爬蟲在運行時需要計算網頁的主題相關度,通常會使用文字識別來識別文字鏈接和網站的關鍵性內容。但其中包含了大量的重復無效內容,目前仍缺少準確高效的中文去重技術。

主題網絡爬蟲的搜索策略主要是對網頁文本內容、鏈接結構進行價值評價。然而,爬蟲程序對鏈接結構的價值評斷方法存在主觀性判斷和認知不完善等問題,這影響了數據分析和挖掘的準確性。

網絡爬蟲主要通過網絡鏈接來選擇爬行路徑,其中基于鏈接結構分析是主題網絡爬蟲應用中廣泛使用的方法之一。但由于網站是動態變化的,且缺乏對已爬取網頁的統計,這些與主題無關的網頁信息以及鏈接往往會干擾爬蟲程序的正常工作。

3.2 未來發展趨勢

主題網絡爬蟲采用的是相對固定的搜索策略。然而,在面對互聯網中不同網站之間網頁組織形式差異較大的情況時,這樣的策略無法準確判斷網頁結構對主題相關性的影響,導致準確率降低。因此,可以將數據挖掘與機器學習相結合,自動更新評價策略,以提高爬取速度和準確性。

隨著網站質量的不斷提升和Web地址規范化程度的提高,基于鏈接的主題網絡爬蟲需要更精確地判斷鏈接與網頁內容間的主題相關性。因此,在對爬取URL進行主題相關度預測時,可以采用主動學習的方法,利用人工智能通過用戶的交互和反饋來主動選擇要爬取的網頁,并動態更新爬取策略。

4 結束語

主題網絡爬蟲已成為搜索引擎領域的重點研究方向之一。本文首先給出了主題網絡爬蟲的定義和基本工作原理,分析和梳理了國內外主題網絡爬蟲研究的發展現狀,同時指出了目前存在的研究問題,并提出了未來進一步研究的方向。希望這些研究能夠共同推動主題網絡爬蟲研究的健康發展。

參考文獻:

[1] 鄭文平.網絡爬蟲與爬蟲對抗技術研究[J].電腦編程技巧與維護,2022(12):173-176.

[2] 單文遠.分布式主題網絡爬蟲研究與設計[D].成都:電子科技大學,2020.

[3] DE BRA P M E,POST R D J.Information retrieval in the World-Wide Web:making client-based searching feasible[C]//Selected papers of the first conference on World-Wide Web.ACM,1994:183–192.

[4] HERSOVICI M,JACOVI M,MAAREK Y S,et al.The shark-search algorithm.An application:tailored Web site mapping[J].Computer Networks and ISDN Systems,1998,30(1/2/3/4/5/6/7):317-326.

[5] CHAKRABARTI S,VAN DEN BERG M,DOM B.Focused crawling:a new approach to topic-specific Web resource discovery[J].Computer Networks:the International Journal of Computer and Telecommunications Networking,1999,31(11/12/13/14/15/16):1623-1640.

[6] PAGE L, BRIN S, MOTWANI R. The pagerank citation ranking: Bring order to the web[R].Technical report,stanford University,1998.

[7] BRIN S. The PageRank citation ranking: bringing order to the web[J].Proceedings of ASIS,1998,98:161-172.

[8] KLEINBERG J M.Authoritative sources in a hyperlinked environment[J].Journal of the ACM,1999,46(5):604-632.

[9] SHOKOUHI M,CHUBAK P,RAEESY Z.Enhancing focused crawling with genetic algorithms[C]//International Conference on Information Technology:Coding and Computing (ITCC'05) - Volume II.Las Vegas,NV.IEEE,2005:503-508.

[10] HATI D,KUMAR A.Improved focused crawling approach for retrieving relevant pages based on block partitioning[C]//2010 2nd International Conference on Education Technology and Computer.Shanghai,China.IEEE,2010:V3-269-V3-273.

[11] GOYAL D,KALRA M.A novel prediction method of relevancy for focused crawling in topic specific search[C]//2014 International Conference on Signal Propagation and Computer Technology (ICSPCT 2014).Ajmer,India.IEEE,2014:257-262.

[12] AGRE G H,MAHAJAN N V.Keyword focused web crawler[C]//2015 2nd International Conference on Electronics and Communication Systems (ICECS).Coimbatore,India.IEEE,2015:1089-1092.

[13] DILIGENTI M, COETZEE F, LAWRENCE S, ET AL. Focused Crawling Using Context Graphs[C]//VLDB,2000:527-534.

[14] SEYFI A,PATEL A.A focused crawler combinatory link and content model based on T-Graph principles[J].Computer Standards & Interfaces,2016,43:1-11.

[15] 王錦陽.主題網絡爬蟲的并行化研究與設計[D].成都:西南石油大學,2017.

[16] 張麗.PageRank算法的改進[J].科學技術與工程,2007,7(5):673-677.

[17] YUAN F Y,YIN C X,LIU J.Improvement of PageRank for focused crawler[C]//Eighth ACIS International Conference on Software Engineering,Artificial Intelligence,Networking,and Parallel/Distributed Computing (SNPD 2007).Qingdao,China.IEEE,2007:797-802.

[18] 張翔,周明全,李智杰,等.基于PageRank與Bagging的主題爬蟲研究[J].計算機工程與設計,2010,31(14):3309-3312.

[19] 羅林波,陳綺,吳清秀.基于Shark-Search和Hits算法的主題爬蟲研究[J].計算機技術與發展,2010,20(11):76-79.

[20] PENG T,LIU L.Focused crawling enhanced by CBP–SLC[J].Knowledge-Based Systems,2013,51(1):15-26.

[21] 熊忠陽,史艷,張玉芳.基于信息增益的自適應主題爬行策略[J].計算機應用研究,2012,29(2):501-503.

[22] 孫紅光,藏潤強,姬傳德,等.基于語義的聚焦爬蟲算法研究[J].東北師大學報(自然科學版),2018,50(2):51-57.

[23] 劉景發,陳靖嵐,趙鵬.基于Wang-Landau抽樣的主題爬蟲方法[J].電子科技大學學報,2023,52(4):578-587.

【通聯編輯:代影】

主站蜘蛛池模板: 亚洲不卡影院| 免费看a级毛片| 国产午夜无码专区喷水| 免费中文字幕一级毛片| 精品国产污污免费网站| 朝桐光一区二区| 操美女免费网站| 91精品专区国产盗摄| 欧美日本在线| 成人韩免费网站| 波多野结衣AV无码久久一区| 成年看免费观看视频拍拍| 国产永久免费视频m3u8| 自偷自拍三级全三级视频| 日韩欧美中文亚洲高清在线| 国产乱人免费视频| 国产高清不卡| 日韩免费视频播播| 青青久视频| 伊人久久大香线蕉综合影视| av一区二区无码在线| 91小视频在线观看免费版高清| 69av免费视频| 久草国产在线观看| 嫩草影院在线观看精品视频| 久久久久国色AV免费观看性色| 19国产精品麻豆免费观看| 欧美色综合网站| 日韩a级片视频| 色哟哟国产成人精品| 日韩最新中文字幕| 99九九成人免费视频精品| 九九视频在线免费观看| 国产手机在线观看| 波多野结衣一区二区三区四区视频| 日韩A∨精品日韩精品无码| 国产精选自拍| 99视频精品全国免费品| 毛片免费高清免费| 最新精品久久精品| 五月激情婷婷综合| 国产乱人视频免费观看| 人妻无码AⅤ中文字| 在线观看无码av五月花| 色135综合网| 91无码视频在线观看| 欧洲日本亚洲中文字幕| 无码福利日韩神码福利片| 欧美性猛交xxxx乱大交极品| 婷婷色一二三区波多野衣| 国产在线视频福利资源站| 欧美一区二区福利视频| a级毛片毛片免费观看久潮| 99视频免费观看| 精品国产Av电影无码久久久| 国产综合网站| 亚洲国产天堂久久综合| 制服丝袜一区二区三区在线| 伊人色在线视频| 国产黑丝视频在线观看| 永久天堂网Av| 中文成人在线视频| 中国黄色一级视频| 国产一区二区人大臿蕉香蕉| 麻豆精选在线| 夜色爽爽影院18禁妓女影院| 精品亚洲麻豆1区2区3区| 99这里只有精品免费视频| 色有码无码视频| 亚洲性影院| 久久精品视频一| 无码aaa视频| 激情综合激情| 伊人久久福利中文字幕| 99久久精品无码专区免费| 亚欧美国产综合| 91av成人日本不卡三区| 日韩精品一区二区三区大桥未久 | 天天综合网色中文字幕| 网友自拍视频精品区| 国产亚洲高清视频| 欧亚日韩Av|