999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于T-Graph算法的鏈接和內容相結合的聚焦爬蟲模型

2016-04-20 02:50:58南京航空航天大學
電子世界 2016年6期
關鍵詞:信息檢索搜索引擎

南京航空航天大學 周 萍

?

基于T-Graph算法的鏈接和內容相結合的聚焦爬蟲模型

南京航空航天大學 周 萍

【摘要】聚焦網絡爬蟲的兩大重要目標就是尋找主題相關的網頁,并優先下載主題相關度高的網頁。首先,讀取并分析網頁的有效HTML元素,并根據高準確率來預測和抽取每個未被訪問的網頁的主題內容。然后,根據T-Graph來計算URLs的主題相關度,并按照相關度大小進行排序。本文提出的基于T-Graph的算法綜合了多方面的元素,通過實驗得到了較高的查準率和查全率,因此,該算法具有重要的意義。

【關鍵詞】聚焦網絡爬蟲;T-Graph;HTML元素;信息檢索;搜索引擎

0 引言

網絡爬蟲的主要任務是從Web上獲取網頁文檔,并為這些數據創建索引,索引的更新是通過分布式爬行實現的。傳統的網絡爬蟲并不能輕松地擴展爬行,因為Web是不受人為控制的。而且,傳統的爬蟲也不能根據特定的主題目標建立正確的索引,索引庫因此也得不到及時的更新。為了解決這些弊端,具有重要意義的聚焦爬蟲應運而生[1]。

1 基于T-Graph算法的聚焦爬蟲模型的設計

聚焦爬蟲模型的設計主要涉及兩個問題,第一個問題就是在下載網頁內容之前預估未被爬行的網頁的主題目標。本文通過把父網頁的HTML標簽元素和錨文本想結合,來預測未被訪問的鏈接的主題相關性。第二個問題就是將鏈接庫的URLs按照主題相關度進行排序。本文通過T-Graph(Treasure Graph)來評估URLs的主題優先級,并假定T-Graph的結構是自頂向下的。

1.1 主題相關度的計算

通過數據挖掘來獲取主題關鍵詞的方法很多,本文采用了一種既簡單又有效的方法,該方法需要綜合考慮三個因素。第一,單詞的數量決定了主題的重要程度。第二,D-number (Dewey system,杜威十進分類法)的長度決定了主題的精確性。第三,錨文本中的關鍵詞有更高的主題相關性。以上三種因素的影響力比普通文本高40%[2]。

分塊計算主題權重的方法相對于同時計算結點的個數、D-number的長度以及錨文本的主題關鍵詞的方法來說,具有重要的意義。而且,相對于異常值檢測法來說,該方法能夠降低整個系統的計算負擔,因為計算過程只是通過簡單的字符串過濾來實現的[3]。

如果未被訪問的鏈接具有主題相關性,那么該鏈接可以利用T-Graph來計算主題相關性。否則,該鏈接就被賦予較低的優先級。只有這樣,主題爬蟲才能盡可能多地訪問主題相關的網頁。

1.2 基于T-Graph算法的聚焦爬蟲的框架結構

如圖1.1所示,本文提出的Treasure-Crawler系統中,T-Graph的每個節點分別對應著五大模塊。其中,Web網頁的HTML屬性所包含的五大模塊如下所示:

(1)簡短小節標題(immediate sub-section heading,ISH)。

(2)包含ISH的小節標題(section heading,SH)。

(3)主標題(main heading,MH)。

(4)鏈接附近的文本數據模塊(data component,DC)。

(5)主題信息模塊(destination information component,DIC)。

圖1.1 T-Graph的分層結構

1.3 鏈接URLs優先級的計算

爬蟲抓取到網頁之后,需要對網頁的優先級進行計算。評估網頁優先級的方法是,根據相似性算法把網頁的HTML元素和所有的T-Graph結點作比較。其中,通過使用HTML語法解析器來準確地獲取網頁的HTML元素。

如果節點的OSM值在臨界值(設為0.05)之上,那么URL的優先級如下所示:

如果節點的OSM值在臨界值(設為0.05)之下,那么URL的優先級如下所示:

2 系統測試和驗證

為了驗證系統結構的實用性,根據初始網頁建立了T-Graph,并向數據庫中輸入了相關數據。經過測試和驗證,本文提出的Treasure-Crawler系統滿足了基本需求,并且具有功能性和實用性。圖2.1展示了T-Graph和Context-Graph在召回率方面的對比結果。其中T-Graph(T)表示主題T-Graph,T-Graph(G)表示通用T-Graph。觀察曲線圖可發現,T-Graph(T)具有較高的召回率。

圖2.1 網頁的召回率(0.5)的增長趨勢

3 結論

本文提出的Treasure-Crawler系統架構滿足了聚焦網絡爬蟲的需求,并能夠保持系統結構和模型的穩定性。其中,未被訪問的URLs的優先級是通過T-Graph的分層結構計算出來的,然后爬蟲根據URLs的優先級來確定下一個待訪問的URL。

參考文獻

[1]季春,姜琴,吳錚悅.垂直搜索引擎關鍵技術研究綜述[J].情報探索,2013(10):91-93.

[2]Jamali M,Sayyadi H,Hariri B B,et al.A Method for Focused Crawling Using Combination of Link Structure and Content Similarity[C]//2006 IEEE/WIC/ACM International Conference on Web Intelligence(WI 2006),18-22 December 2006,Hong Kong, China.2006:753-756.

[3]Wang W,Chen X,Zou Y,et al.A Focused Crawler Based on Naive Bayes Classifier[C]//Proceedings of the 2010 Third International Symposium on Intelligent Information Technology and Security Informatics.IEEE Computer Society,2010:517-521.

[4]Patel A.An Adaptive Updating Topic Specific Web Search System Using T-Graph[J].Journal of Computer Science,2010,79(4):1-4.

[5]Diligenti M,Coetzee F,Lawrence S,et al.Focused Crawling Using Context Graphs[C]//Proceedings of the 26th International Conference on Very Large Data Bases. Morgan Kaufmann Publishers Inc.,2000:527-534.

[6]Passerini A,Frasconi P,Soda G Evaluation Methods for Focused Crawling[C]//Proceedings of the 7th Congress of the Italian Association for Artificial Intelligence on Advances in Artificial Intelligence. Springer-Verlag,2001:33-39.

猜你喜歡
信息檢索搜索引擎
基于同態加密支持模糊查詢的高效隱私信息檢索協議
醫學期刊編輯中文獻信息檢索的應用
新聞傳播(2016年18期)2016-07-19 10:12:06
在網絡環境下高職院校開設信息檢索課的必要性研究
新聞傳播(2016年11期)2016-07-10 12:04:01
基于神經網絡的個性化信息檢索模型研究
網絡搜索引擎亟待規范
中國衛生(2015年12期)2015-11-10 05:13:38
Nutch搜索引擎在網絡輿情管控中的應用
警察技術(2015年3期)2015-02-27 15:37:09
基于Nutch的醫療搜索引擎的研究與開發
廣告主與搜索引擎的雙向博弈分析
教學型大學《信息檢索》公選課的設計與實施
河南科技(2014年11期)2014-02-27 14:10:19
公共圖書館信息檢索服務的實踐探索——以上海浦東圖書館為例
圖書館界(2013年5期)2013-03-11 18:50:29
主站蜘蛛池模板: 夜夜操国产| 亚洲欧美精品一中文字幕| www.亚洲国产| 99色亚洲国产精品11p| 国产在线视频导航| 97se亚洲| 国产又粗又猛又爽视频| 欧美国产在线看| 国产精品所毛片视频| 成人在线天堂| 国产免费久久精品44| 国产乱人激情H在线观看| 国产成人AV男人的天堂| 久久久精品国产亚洲AV日韩| 91美女视频在线| 亚洲国产成熟视频在线多多| 性视频一区| 久久国产V一级毛多内射| 在线中文字幕网| 国产欧美专区在线观看| 亚洲综合18p| 亚洲精品自拍区在线观看| 伊大人香蕉久久网欧美| 日韩毛片在线播放| 波多野结衣无码中文字幕在线观看一区二区| 亚洲黄色高清| 伊人久久精品无码麻豆精品| 精品无码人妻一区二区| 国内精品视频区在线2021| 成人夜夜嗨| 国产精品偷伦视频免费观看国产| 成人av专区精品无码国产| 国产成人精品视频一区二区电影| 亚洲国产黄色| 久久精品嫩草研究院| 91久久国产综合精品女同我| 1024你懂的国产精品| 黄色片中文字幕| 亚洲成肉网| 香蕉国产精品视频| 亚洲欧美成人综合| 国产精品天干天干在线观看| 亚洲欧美人成人让影院| 国产网站免费观看| www.91在线播放| 欧洲高清无码在线| 日韩欧美高清视频| 国产日韩久久久久无码精品| 欧美啪啪一区| 一区二区偷拍美女撒尿视频| 国产精品自在自线免费观看| 亚洲欧洲日本在线| 色综合热无码热国产| 操操操综合网| 国产手机在线观看| 91久久国产综合精品| 亚洲成人精品久久| 国产精品久久久久久影院| 一本大道无码高清| 成人伊人色一区二区三区| 国内精品一区二区在线观看| 91久久国产热精品免费| 9丨情侣偷在线精品国产| 77777亚洲午夜久久多人| 波多野结衣AV无码久久一区| 欧美a在线看| 午夜毛片福利| 国产成人乱无码视频| 黄色网址免费在线| 国产91精选在线观看| 亚洲无码高清免费视频亚洲| 久久99热这里只有精品免费看| 97在线视频免费观看| 国产精品无码制服丝袜| 欧美三级视频在线播放| 亚洲男女在线| 人妻免费无码不卡视频| 精品视频一区在线观看| 国产一区亚洲一区| 色综合色国产热无码一| 亚洲成在人线av品善网好看| 视频一区视频二区中文精品|