湖北工業大學 陳育兵
基于Heritrix主題爬蟲的定制與實現
湖北工業大學 陳育兵
本文在開源爬蟲框架Heritrix基礎上,進行多線程優化,定制面向搜狐新聞網頁爬取的主題爬蟲。試驗表明,在改進擴展后的Heritrix基礎上,能高效快速爬取搜狐站點下的新聞網頁。
主題爬蟲;定制與實現
隨著網絡信息的爆炸式增長,如何在網絡中獲得有用的信息已變得很困難。搜索引擎在信息檢索中發揮的重要作用,是人們的日常生活不可缺少的工具。雅虎、谷歌、MSN、百度和其他的商業搜索引擎是許多通用的搜索引擎,最成功的典范,但隨著網絡變得越來越復雜,有時這些通用搜索引擎在信息檢索中迷失方向。然而,在近年來方興未艾的各種搜索技術,在禁區許可證技術為基礎的流媒體搜索,元搜索,垂直搜索技術,并因此成為搜索領域的研究重點。
隨著網絡信息的迅速膨脹,搜索引擎的主要關注的是如何被發現許多準確和有效的信息,精確度成為搜索引擎的主要目標。這也是大多數人型搜索引擎的挑戰。他們通常是非常低的精度,返回到搜索結果的用戶成千上萬,有效的結果可能只有很少甚至沒有。由于各種制約因素的客觀存在,門戶網站的搜索引擎是難以解決的,因為他們是在幾秒鐘內數以萬計的用戶,在數億的記錄中,找出信息,以滿足客戶的需求,同時給信息量大,時間短,語言歧義的門戶網站的搜索引擎帶來了巨大的挑戰。如何解決這個問題?從專題型項目出現、發展和成熟,我們相信,主題搜索引擎的方向發展,應該是一個解決問題的想法。
網絡爬蟲其實是一個基于網絡的程序。從初始網頁集出發,遍歷互聯網自動收集網絡信息。爬行動物當打開一個HTML頁面,它會分析結構的HTML標簽來獲取信息,并獲得超鏈接,然后點擊要通過既定的搜索戰略選擇下一個站點訪問其他頁面。從理論上講,如果分配給蜘蛛適當的初始文件集和相應的網絡搜索戰略,它可以遍歷整個網絡。其性能在很大程度上影響了搜索引擎網站的大小。
本文研究和分析了通用搜索引擎,個性化搜索引擎的概念;通用網絡爬蟲和主題網絡爬蟲的概念;分析了國內外各大爬蟲框架及其發展狀況;重點研究和分析了無比強大的Java開源網絡爬蟲框架Heritrix的基本概念及其架構;在Heritrix基礎上擴展和定制了面向搜狐的新聞搜索,添加了自己的Extractor,實現了多線程優化,并且擴展FrontierSchedule來爬取特定網頁內容,取消Robot限制,最后試驗證明,通過優化和擴展定制,實現了高效快速爬取特定主題下的網頁內容。
[1]劉世濤.簡析搜索引擎中網絡爬蟲的搜索策略[J].阜陽師范學院學報(自然科學版),2006(03).
[2]王巖.搜索引擎中網絡爬蟲技術的發展[J].電信快報,2008(10).
[3]龔勇.搜索引擎中網絡爬蟲的研究[D].武漢理工大學,2010.
2017-09-10)