牛率仁

摘要:爬蟲策略是主題爬蟲的核心模塊,其策略的目的在于高效的抓取到更多與主題相關的頁面,同時又過濾與主題無關的頁面。該文主要對面向主題的爬蟲項目需求進行研究,提出了分層的系統框架,并詳細介紹了框架架構以及各個模塊的設計,最后給出系統的運行結果截圖,初步達到了預期的效果。
關鍵詞:網絡爬蟲;功能模塊;設計
主題的相關性是非常核心的模塊,它決定了抓取到網頁是否與主題相關,抓取到網頁質量好壞等,可以說主題的相關性算法決定了面向主題網絡爬蟲的好壞,下面簡單介紹一下各個模塊的設計。
1頁面爬取模塊設計
當前的主題網絡爬蟲主要有基于內容的Fish-Search,Shark-Search策略,以及基于鏈接分析的PageRank方法,HITS算法等。
在這些算法的核心思想中,它們總是傾向于抓取有較高相關度頁面下的鏈接頁面,然后直接丟掉相關度較低的頁面,這樣導致的一個問題就是爬蟲會在一個局部的范圍內跳轉,無法覆蓋多的頁面。抓取的深度的不夠,無法覆蓋更多的信息,而且其沒有考慮鏈接的權重的不同,導致爬蟲的效率比較低下。
1.1隧道問題
通過我們對以上的爬蟲搜索策略算法的分析指出,對于與主題相關的網頁主要的爬取頁面的來源,而對于與主題無關的網頁,一般會選擇丟棄。從總體來說,這種策略能夠迅速的抓取到與主題相關的頁面,但是其存在的一個風險就是,可能會間接丟棄大量與主題相關的頁面。……