999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Scrapy的論文引用爬蟲的設計與實現

2017-05-12 09:22:54魯繼文
現代計算機 2017年9期
關鍵詞:設計

魯繼文

(四川大學計算機學院,成都 610065)

基于Scrapy的論文引用爬蟲的設計與實現

魯繼文

(四川大學計算機學院,成都 610065)

互聯網的迅速發展對于信息的發現和搜集帶來巨大的挑戰,至今爬蟲技術已經成為互聯網研究熱點之一。基于Scrapy設計一個采集網頁上面引用的作者和引用信息的爬蟲,系統運行結果顯示所設計的爬蟲對于爬取引用信息,并將其整理成便于存儲和理解的結果有較好的效果。

Scrapy;爬蟲;引用爬取

0 引言

網絡爬蟲,有時稱為蜘蛛,是一種系統地瀏覽萬維網的因特網機器人,通常用于網絡索引(Web Spidering)的目的[1]。Web搜索引擎和其他一些站點使用Web爬行或Spidering軟件來更新他們的Web內容或其他網站的Web內容的索引。 Web搜尋器可以復制他們訪問的所有頁面,以便以后由處理下載的搜索引擎,以便用戶可以更高效地搜索。抓取工具會消耗他們訪問的系統上的資源,并且經常在沒有默認批準的情況下訪問網站。當訪問大量頁面集合時,計劃,加載和“禮貌”的問題就會發生。存在不希望被爬行的公共站點的機制,以使爬行代理程序知道它。例如,包括robots.txt文件可以請求漫游器僅對網站的部分進行索引,或者根本不進行索引。

1 系統設計

Scrapy是一個可以用來爬取Web站點,提取需要的數據結構應用程序開發框架,在眾多應用程序中得到廣泛運用,例如:數據挖掘、信息處理或者歷史數據處理等。盡管Scrapy的最初設計是用來Web抓取,但現在它也可以用使用API來提取數據 (如Amazon Associates Web Servicesi)或通用網絡爬蟲[2]。

圖1

首先生成用于抓取第一個URL的初始請求,然后指定要使用從這些請求下載的響應調用的回調函數。

(1)通過調用start_requests()方法(默認情況下)為start_urls中指定的URL生成請求以及將parse方法作為請求的回調函數來調用start執行的第一個請求。

(2)在回調函數中,將解析響應(網頁),并返回帶有提取的數據的對象,項對象,請求對象或這些對象的可迭代對象。這些請求還將包含回調 (可能是相同的),然后由Scrapy下載,然后由指定的回調處理它們的響應。

(3)在回調函數中,通常使用選擇器來解析頁面內容 (但也可以使用BeautifulSoup,lxml或其他任何機制),并使用解析的數據生成項目。

(4)最后,從蜘蛛返回的項目通常將持久存儲到數據庫(在某些項目管道中)或使用Feed導出寫入文件。即使這個循環(或多或少)適用于任何種類的蜘蛛,有不同種類的默認蜘蛛捆綁到Scrapy中用于不同的目的。例如:Scrapy.Spider,Generic Spiders。我們將在這里談論這些類型:Scrapy.Spider這是最簡單的蜘蛛,每個其他蜘蛛必須繼承的蜘蛛(包括與Scrapy捆綁在一起的蜘蛛,以及你自己寫的蜘蛛)。 它不提供任何特殊功能。 它只是提供了一個默認的start_requests()實現,它從start_urls spider屬性發送請求,并為每個結果響應調用spider的方法解析。蜘蛛可以接收修改其行為的參數。 蜘蛛參數的一些常見用法是定義起始URL或將爬網限制到網站的某些部分,但它們可用于配置蜘蛛的任何功能。Scrapy附帶一些有用的通用蜘蛛,你可以使用它來子類化你的Spider。他們的目的是為一些常見的抓取案例提供方便的功能,例如根據某些規則查看網站上的所有鏈接,從站點地圖抓取或解析XML/CSV Feed:CrawlSpider,XMLFeedSpider,CSV FeedSpider,SitemapSpider。

Requests和Responses是Scrapy用來抓去網頁內容的最主要的兩個對象。通常,請求對象Requests在爬蟲中生成并在其生命周期中傳到整個系統和,直到他們傳到下載器Downloader,將執行結果返回給請求的爬蟲,并將這個Requests對象釋放。

請求類Requests和響應類Responses都有子類,它們是子類中不是必需添加功能的基類。下面將描述這些請求Requests和響應Responses的子類:

請求對象Requests代表了一個HTTP請求,通常由Spider產生和由Downloader執行,從而得到一個響應Responses。回調函數(調用)callback,將調用的響應這個請求(一旦下載)作為它的第一個參數。如果一個請求不指定一個回調,Spider的parse()方法將被使用。注意,如果異常處理過程中,errback將被調用。Cookies指的是這個請求的cookies,其他使用可以有兩種形式,第一種使用dict:

第二種是使用dict列表:

一些網站返回cookies(響應),存儲下來供這個域使用,并且將在未來再次發送請求時會被發送給服務器端。這是典型的常規的Web瀏覽器的行為。但是,如果由于某種原因,你想避免與現有cookies合并,可以指示Scrapy通過 Request.meta將 dont_merge_cookies鍵設置為True。

請求的回調是當下載該請求的響應時將被調用的函數。將使用下載的Response對象作為其第一個參數來調用回調函數。例如:

2 系統實現

此項目提取http://quotes.toscrape.com/這個網頁引用當中的信息,結合相應的作者姓名和標簽。

本文實現了兩種蜘蛛,兩個蜘蛛從同一網站提取相同的數據,但toscrape-css使用CSS選擇器,而toscrapexpath使用XPath表達式,通過list命令進行查看:

3 運行結果演示

如圖,我們抓取部分作者和他們的引用信息,放在{}當中。

圖2

4 結語

本文基于Scrapy設計了一個采集網頁上面引用的作者和引用信息的爬蟲,系統運行結果顯示本文所設計的爬蟲對于爬取引用信息,并將其整理成便于存儲和理解的結果有較好的效果。

[1]Web crawler.https://en.wikipedia.org/wiki/Web_crawler

[2]Twisted Introduction.http://krondo.com/an-introduction-to-asynchronous-programming-and-twisted/.

[3]Product Advertising API.https://affiliate-program.amazon.com/gp/advertising/api/detail/main.html.

Design and Implementation Crawler of Paper Reference Based on Scrapy

LU Ji-wen
(College of Computer Science,Sichuan University,Chengdu 610065)

The rapid development of the Internet for information discovery and collection has brought great challenges,so far reptile technology has become one of the Internet research hotspot.Based on Scrapy,designs a crawler that references the author and references the information. The results of the system show that the designed crawler has a good effect on crawling the reference information and organizing it into a convenient storage and understanding.

Scrapy;Web Crawler;Reference Crawling

1007-1423(2017)09-0131-04

10.3969/j.issn.1007-1423.2017.09.030

魯繼文(1991-),男,陜西漢中人,碩士,研究方向數據挖掘

2017-02-28

2017-03-15

猜你喜歡
設計
二十四節氣在平面廣告設計中的應用
河北畫報(2020年8期)2020-10-27 02:54:06
何為設計的守護之道?
現代裝飾(2020年7期)2020-07-27 01:27:42
《豐收的喜悅展示設計》
流行色(2020年1期)2020-04-28 11:16:38
基于PWM的伺服控制系統設計
電子制作(2019年19期)2019-11-23 08:41:36
基于89C52的32只三色LED搖搖棒設計
電子制作(2019年15期)2019-08-27 01:11:50
基于ICL8038的波形發生器仿真設計
電子制作(2019年7期)2019-04-25 13:18:16
瞞天過海——仿生設計萌到家
藝術啟蒙(2018年7期)2018-08-23 09:14:18
設計秀
海峽姐妹(2017年7期)2017-07-31 19:08:17
有種設計叫而專
Coco薇(2017年5期)2017-06-05 08:53:16
從平面設計到“設計健康”
商周刊(2017年26期)2017-04-25 08:13:04
主站蜘蛛池模板: 五月婷婷丁香色| 777国产精品永久免费观看| 热伊人99re久久精品最新地| 亚洲av无码专区久久蜜芽| 日韩一区二区三免费高清| 福利一区在线| 午夜无码一区二区三区在线app| 国产主播喷水| 午夜免费小视频| 免费无码AV片在线观看国产| 亚洲国产成熟视频在线多多 | 欧美黄色网站在线看| 99re热精品视频中文字幕不卡| 亚洲天堂网在线观看视频| 99久久精品免费观看国产| 国产亚洲视频免费播放| 澳门av无码| 成人一级黄色毛片| 青草免费在线观看| 日本午夜三级| av免费在线观看美女叉开腿| 久久6免费视频| 亚洲无码熟妇人妻AV在线| 岛国精品一区免费视频在线观看| 免费一级大毛片a一观看不卡| 婷婷五月在线视频| 国产h视频免费观看| 伊人婷婷色香五月综合缴缴情 | 国产不卡一级毛片视频| 五月激情婷婷综合| AV熟女乱| 凹凸精品免费精品视频| 日韩欧美国产三级| 2020最新国产精品视频| 日韩高清在线观看不卡一区二区 | 98精品全国免费观看视频| 成人在线观看不卡| 亚洲无码在线午夜电影| 中文成人在线视频| 亚洲性日韩精品一区二区| 亚洲天堂2014| 亚洲人网站| 好吊日免费视频| 好久久免费视频高清| 日本爱爱精品一区二区| 国产av无码日韩av无码网站| 久久久亚洲色| 色综合狠狠操| 看看一级毛片| 99精品在线看| 日韩在线永久免费播放| 极品尤物av美乳在线观看| 欧美成人免费午夜全| 国产三级国产精品国产普男人 | a毛片在线免费观看| 国产欧美成人不卡视频| 午夜福利在线观看入口| 国产成人亚洲无吗淙合青草| 色九九视频| 二级特黄绝大片免费视频大片| 国产精品欧美在线观看| 国产免费福利网站| 欧美色综合网站| 91九色视频网| 天堂在线视频精品| 91成人在线观看| 伊人久久青草青青综合| 露脸国产精品自产在线播| 99热这里只有精品国产99| 在线99视频| 亚洲天堂成人在线观看| 一级毛片视频免费| AV在线天堂进入| 九九久久精品免费观看| 国产欧美在线视频免费| 亚洲欧美另类视频| 天堂网国产| 精品国产成人a在线观看| a毛片在线| 国产成人成人一区二区| 538国产视频| 99青青青精品视频在线|