999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于scrapy框架下網(wǎng)絡(luò)爬蟲的開發(fā)與實現(xiàn)

2021-09-24 04:15:30魯鑫肖小玲
電腦知識與技術(shù) 2021年23期

魯鑫 肖小玲

摘要:本文先簡述scrapy框架的平臺架構(gòu),然后介紹了網(wǎng)絡(luò)爬蟲的流程,并說明了爬蟲程序的設(shè)計與實現(xiàn)的基本流程。基于這些技術(shù),本文設(shè)計實現(xiàn)了基于Scrapy框架下的網(wǎng)絡(luò)爬蟲。本文給出了網(wǎng)絡(luò)爬蟲的主要流程,以及主要的模塊,包括item模塊、spider模塊以及scheduler模塊。并且,本文對網(wǎng)絡(luò)爬蟲的具體實現(xiàn)進(jìn)行了介紹,包括UA的實現(xiàn)、頁面抓取的實現(xiàn)、數(shù)據(jù)提取的實現(xiàn)等。最后,本設(shè)計在Linux操作系統(tǒng)下進(jìn)行了相關(guān)測試。對網(wǎng)絡(luò)爬蟲的功能和性能進(jìn)行了測試,爬蟲的運行總體來說較為順利,且對電腦性能的要求不高。該爬蟲基本完成了本文的研究目的。通過本次的研究,對網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)有了更深的理解。也對scrapy框架有了更加深刻的認(rèn)識。

關(guān)鍵詞:網(wǎng)絡(luò)爬蟲;Scrapy框架;數(shù)據(jù)提取;頁面抓取

中圖分類號:TP311? ? ? 文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2021)23-0134-03

1 前言

在如今信息高速發(fā)展的萬維網(wǎng)上,像百度、谷歌這些傳統(tǒng)引擎對信息的搜索全都是在對關(guān)鍵字處理的方式的基礎(chǔ)上進(jìn)行的,并不能精確的定位用戶的需求,這種對信息的搜索處理方式有著天然的劣勢和局限。首先,它不能很好地定位用戶所需的精確數(shù)據(jù),其次,它所返回的數(shù)據(jù)是非常繁多冗雜的,其中包含大量用戶所不關(guān)心的數(shù)據(jù),這對用戶在進(jìn)行數(shù)據(jù)查看是非常沉重的。

為了對萬維網(wǎng)上的數(shù)據(jù)進(jìn)行特定的搜索,各種搜索引擎也是層出不窮,搜索引擎在數(shù)據(jù)搜集中站著越來越重要的地位,但正是因為信息的高速發(fā)展,用戶對信息的搜索也是越來越嚴(yán)苛,如今的搜索引擎也越來越難以滿足用戶的需求[1]。

萬維網(wǎng)其實就是一個巨大信息和數(shù)據(jù)的集合,只是這種集合并沒有規(guī)律可言。但如果我們將這種集合通過特定的技術(shù)和手段進(jìn)行有效的檢索,在擁有巨大用戶的情況下,這種檢索將會具有不可衡量的價值和作用。而傳統(tǒng)搜索引擎對數(shù)據(jù)的處理并不能完全滿足用戶的需求。用戶在不同的地點和不同的時間,往往有著不一樣的數(shù)據(jù)需求。傳統(tǒng)引擎所返回的數(shù)據(jù)包含大量用戶完全不關(guān)心的內(nèi)容,也并不能對用戶的需求進(jìn)行精確的定位。一個靈活高效又能完全符合用戶需求的爬蟲設(shè)計就越來越具有現(xiàn)實意義。

2 發(fā)展現(xiàn)狀及存在問題

此課題主要的目的是利用scrapy_redis 框架類建立分布式的斷點續(xù)爬的網(wǎng)絡(luò)爬蟲程序,同時要保證爬取數(shù)據(jù)時代碼的穩(wěn)定性和高效性,又能完全滿足用戶對數(shù)據(jù)精確抓取的需求[2]。

爬蟲的基本原理是運用xpath 進(jìn)行對url 進(jìn)行定位,并用文本定位工具對用戶所需求的數(shù)據(jù)進(jìn)行精確抓取。為了使網(wǎng)絡(luò)爬蟲的效率更高,在設(shè)計爬蟲程序時就必須利用redis 數(shù)據(jù)庫進(jìn)行服務(wù)器之間的連接,實現(xiàn)多臺服務(wù)器共同爬取數(shù)據(jù)的功能。通過對IP池和UA的設(shè)置,避免了我們爬蟲被對方服務(wù)器識別為惡意程序的情況。在以上技術(shù)理論的支持下,我們所設(shè)計的爬蟲程序要既能實現(xiàn)高效抓取數(shù)據(jù)、又能根據(jù)用戶的需求對數(shù)據(jù)進(jìn)行精確定位的功能[3]。

其實,傳統(tǒng)搜索引擎的缺點早就20世紀(jì)已經(jīng)被發(fā)現(xiàn)了,對于爬蟲的研究也早已開始了。隨著年代的發(fā)展,爬蟲的技術(shù)也越來越多,越來越完善穩(wěn)定。萬維網(wǎng)上的數(shù)據(jù)是以完全虛擬的方式存在于我們的認(rèn)知中,由于傳統(tǒng)搜索引擎的存在,我們才能將萬維網(wǎng)上的數(shù)據(jù)以實體的形式呈現(xiàn)在我們的眼前,變成一個我們可知、可感的真實存在體。但是,不能對數(shù)據(jù)進(jìn)行特定搜索和特定抓取的傳統(tǒng)搜索引擎,只能以web1.0的形式存在。

未來的發(fā)展中,萬維網(wǎng)中的數(shù)據(jù)抓取、精確定位和特定篩選,是會占據(jù)主流地位的。這種對數(shù)據(jù)的篩選會越來越滿足用戶的需求。利用scrapy_redis 框架所設(shè)計的爬蟲程序正好定位了用戶的精確需求,日后,也會越來越盛行。如今網(wǎng)絡(luò)上的各種數(shù)據(jù)篩選和文本定位及分析工具會為未來的爬蟲奠定基調(diào)。這種基調(diào)的奠定,可能會促使傳統(tǒng)搜索引擎的改革,而這種改革,將會成為一次重大意義的蛻變,對用戶來說,也是具有促進(jìn)意義的。本課題主要研究scrapy分布式爬蟲框架的搭建和 在scrapy框架下設(shè)計與實現(xiàn)網(wǎng)絡(luò)爬蟲,實現(xiàn)在終端控制、后臺自動運行的爬蟲程序[4]。3 爬蟲發(fā)展需求分析

網(wǎng)絡(luò)爬蟲其實就是一個專門從互聯(lián)網(wǎng)上下載網(wǎng)頁并分析網(wǎng)頁的自動化程序。它將下載的網(wǎng)頁內(nèi)容和采集到的數(shù)據(jù)儲存在數(shù)據(jù)庫中。伴隨著起始url的抓取又不斷從抓取到的網(wǎng)頁中抽取新的url 放入到待抓取url 隊列中,直到爬蟲程序所抓取的數(shù)去能夠滿足用戶的精確需求,這是搜索程序的重要組成部分[6]。

(1)網(wǎng)頁下載功能

1)下載任何能滿足http協(xié)議和https協(xié)議的網(wǎng)頁。

2)HTTP響應(yīng)中構(gòu)造GET請求。

3)HTTP響應(yīng)請求分析。

(2)網(wǎng)頁分析功能

1)網(wǎng)頁標(biāo)題提取。

2)網(wǎng)頁關(guān)鍵字提取。

3)網(wǎng)頁摘要提取。

4)網(wǎng)頁鏈接并統(tǒng)計數(shù)量提取。

5)將新url 加入待爬取URL隊列。

(3)內(nèi)存池功能

1)固定大小內(nèi)存分配。

2)內(nèi)存對象回收。

3)內(nèi)存對象釋放。

4)內(nèi)存池銷毀。

(4)保存功能

1)能夠正確將網(wǎng)頁內(nèi)容以及數(shù)據(jù)保存到數(shù)據(jù)庫中。

2)將程序運行時的異常寫入日志文件。

4 通用爬蟲和聚焦爬蟲

結(jié)合使用場景的不同,網(wǎng)絡(luò)爬蟲有通用爬蟲與聚焦爬蟲兩種。

百度、谷歌、雅虎等傳統(tǒng)的大型搜索引擎的基本原理就是通用網(wǎng)絡(luò)爬蟲的基本原理,將萬維網(wǎng)上的網(wǎng)頁采集到本地時它的主要目的,這樣可以創(chuàng)造一個互聯(lián)網(wǎng)網(wǎng)頁內(nèi)容的鏡像備份。

通用網(wǎng)絡(luò)爬蟲從互聯(lián)網(wǎng)中搜集網(wǎng)頁,采集信息,這些網(wǎng)頁信息用于為搜索引擎建立索引從而提供支持,它決定著整個引擎系統(tǒng)的內(nèi)容是否豐富,信息是否即時。

主站蜘蛛池模板: 日韩大片免费观看视频播放| 狠狠色噜噜狠狠狠狠色综合久 | 国产高清无码麻豆精品| 毛片最新网址| 99ri精品视频在线观看播放| 久草视频中文| 国产剧情国内精品原创| 亚洲视频二| 日韩欧美网址| 色综合天天视频在线观看| 国内精品久久九九国产精品| 亚洲第一区欧美国产综合| 呦女精品网站| 国产无码制服丝袜| 美臀人妻中出中文字幕在线| 啪啪永久免费av| 精品无码人妻一区二区| 日本午夜影院| 中文字幕久久精品波多野结| 老司国产精品视频91| 久久久久亚洲精品无码网站| 亚洲AV无码乱码在线观看代蜜桃 | 国产精品亚洲综合久久小说| 22sihu国产精品视频影视资讯| 国产精品亚洲va在线观看| 国产无码精品在线播放| 激情视频综合网| 久久久久88色偷偷| 乱人伦视频中文字幕在线| 狠狠v日韩v欧美v| 国产日韩欧美精品区性色| 国产在线一区视频| 久青草网站| 亚洲成在人线av品善网好看| 国产女人18水真多毛片18精品| 国产激情无码一区二区免费| 亚洲成人精品在线| 国产精品永久免费嫩草研究院 | 91综合色区亚洲熟妇p| 国产伦精品一区二区三区视频优播| 国产精品无码AⅤ在线观看播放| 国产精品香蕉| 五月天天天色| 91精品国产一区自在线拍| 国产精品七七在线播放| 亚洲国产欧美国产综合久久 | 成人在线天堂| 国产97视频在线| 亚洲人成成无码网WWW| 精品人妻系列无码专区久久| 亚洲制服丝袜第一页| 免费看一级毛片波多结衣| 97se亚洲综合在线天天| 色九九视频| 草草影院国产第一页| 2022精品国偷自产免费观看| 91精品专区| 国产欧美中文字幕| 亚洲av无码牛牛影视在线二区| 五月综合色婷婷| 亚洲成人77777| 久久国产精品麻豆系列| 国产国拍精品视频免费看| 一级高清毛片免费a级高清毛片| 亚洲黄网在线| 亚洲成在人线av品善网好看| 三区在线视频| 亚洲乱强伦| 国产清纯在线一区二区WWW| 天天综合网在线| 97人人做人人爽香蕉精品| 亚洲区第一页| 久久久久久尹人网香蕉 | 免费中文字幕一级毛片| 国产精品冒白浆免费视频| 日韩欧美国产综合| 国产精品一区不卡| 在线国产综合一区二区三区| 午夜毛片免费观看视频 | 激情亚洲天堂| av无码一区二区三区在线| 无码aaa视频|