基于Heritrix主題爬蟲的定制與實現

2017-02-25 02:52:30湖北工業大學陳育兵

湖北農機化 2017年5期

關鍵詞：信息檢索搜索引擎信息

湖北工業大學陳育兵

湖北工業大學陳育兵

本文在開源爬蟲框架Heritrix基礎上，進行多線程優化，定制面向搜狐新聞網頁爬取的主題爬蟲。試驗表明，在改進擴展后的Heritrix基礎上，能高效快速爬取搜狐站點下的新聞網頁。

主題爬蟲；定制與實現

隨著網絡信息的爆炸式增長，如何在網絡中獲得有用的信息已變得很困難。搜索引擎在信息檢索中發揮的重要作用，是人們的日常生活不可缺少的工具。雅虎、谷歌、MSN、百度和其他的商業搜索引擎是許多通用的搜索引擎，最成功的典范，但隨著網絡變得越來越復雜，有時這些通用搜索引擎在信息檢索中迷失方向。然而，在近年來方興未艾的各種搜索技術，在禁區許可證技術為基礎的流媒體搜索，元搜索，垂直搜索技術，并因此成為搜索領域的研究重點。

隨著網絡信息的迅速膨脹，搜索引擎的主要關注的是如何被發現許多準確和有效的信息，精確度成為搜索引擎的主要目標。這也是大多數人型搜索引擎的挑戰。他們通常是非常低的精度，返回到搜索結果的用戶成千上萬，有效的結果可能只有很少甚至沒有。由于各種制約因素的客觀存在，門戶網站的搜索引擎是難以解決的，因為他們是在幾秒鐘內數以萬計的用戶，在數億的記錄中，找出信息，以滿足客戶的需求，同時給信息量大，時間短，語言歧義的門戶網站的搜索引擎帶來了巨大的挑戰。如何解決這個問題？從專題型項目出現、發展和成熟，我們相信，主題搜索引擎的方向發展，應該是一個解決問題的想法。

網絡爬蟲其實是一個基于網絡的程序。從初始網頁集出發，遍歷互聯網自動收集網絡信息。爬行動物當打開一個HTML頁面，它會分析結構的HTML標簽來獲取信息，并獲得超鏈接，然后點擊要通過既定的搜索戰略選擇下一個站點訪問其他頁面。從理論上講，如果分配給蜘蛛適當的初始文件集和相應的網絡搜索戰略，它可以遍歷整個網絡。其性能在很大程度上影響了搜索引擎網站的大小。

本文研究和分析了通用搜索引擎，個性化搜索引擎的概念；通用網絡爬蟲和主題網絡爬蟲的概念；分析了國內外各大爬蟲框架及其發展狀況；重點研究和分析了無比強大的Java開源網絡爬蟲框架Heritrix的基本概念及其架構；在Heritrix基礎上擴展和定制了面向搜狐的新聞搜索，添加了自己的Extractor，實現了多線程優化，并且擴展FrontierSchedule來爬取特定網頁內容，取消Robot限制，最后試驗證明，通過優化和擴展定制，實現了高效快速爬取特定主題下的網頁內容。

[1]劉世濤.簡析搜索引擎中網絡爬蟲的搜索策略[J].阜陽師范學院學報(自然科學版)，2006(03).

[2]王巖.搜索引擎中網絡爬蟲技術的發展[J].電信快報，2008(10).

[3]龔勇.搜索引擎中網絡爬蟲的研究[D].武漢理工大學，2010.

2017-09-10）