999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python對豆瓣電影數據爬蟲的設計與實現

2019-08-23 03:07:14裴麗麗
電子技術與軟件工程 2019年13期
關鍵詞:信息

文/裴麗麗

1 概述

根據《中國互聯網絡發展狀況統計報告》,到2018年12月為止,全年新增網民5653萬,網民規模達8.29億,普及率為59.6%,與2017年底相比提升3.8%?;ヂ摼W的普及使得網上的信息資源呈現爆炸式增長,大數據時代的到來,對如何在短時間內從網頁中找到用戶需要的信息提出了挑戰,無論是搜索引擎還是個人或者組織,要獲取目標數據,都要從公開網站爬取數據,在這樣的需求之下,網絡爬蟲技術應運而生。

網絡爬蟲,又被稱為網頁蜘蛛或者網絡機器人,是指按照某種規則從網絡上自動爬取用戶所需內容的腳本程序。通常情況下,每個網頁包含其他網頁的入口,網絡爬蟲可以通過一個網址,鏈接進入其他網址獲取內容,最后返還給廣大用戶所需要的信息數據。目前最適合用來網絡爬蟲的編程語言是Python,Python語言整合了針對網絡爬蟲所需要的一系列庫,能夠高效率得完成爬取目標數據。

2 網絡爬蟲的實現

本文以豆瓣網電影模塊為例,實現了Python網絡爬蟲的全過程,并將爬蟲結果保存在本地。主要分四個步驟實現,尋找爬蟲入口,使用re和requests庫獲得所有電影信息的

url鏈接、使用BeautifulSoup庫解析電影數據、將爬取到的信息保存到本地。

2.1 編程環境

Window10操作系統、python3.7、Pycharm集成開發環境、谷歌瀏覽器

2.2 尋找爬蟲入口

豆瓣電影網站與有些網站不同,無法直接在當前頁面的網頁源碼中找到我們所需要抓取電影的具體信息,因此需要尋找爬蟲入口。通過谷歌瀏覽器:更多工具->開發者工具->Network->XHR發現可抓取鏈接到每部電影的網頁https://movie.douban.com/j/search_subjects?type=movie&tag=最新& sort = rec ommend & page _limit=20&page_start=0,其中,tag為查詢電影的類型,共有17種類型,本文以熱門電影為例進行爬蟲的設計與實現;sort為排序方式;page_limit為每頁顯示的電影個數,page_start為查詢電影起始位置。抓取信息時,只需改變tag及page_start(20的倍數),就可以獲取更多的url鏈接。具體如圖1所示。

2.3 使用re和requests庫獲取所有電影信息的url鏈接

通過import requests測試程序是否報錯,確定安裝好requests庫后,通過requests 庫提取網頁源碼,requests 庫比urllib庫提取網頁源碼更簡潔,方便開發者使用,只需要幾步就可以實現。獲得網頁源碼后,繼續通過re庫提取url鏈接,圖2中,url鏈接是"url":"https://movie.douban.com/subject/27060077/"這樣的形式,該形式不是一個標準的url鏈接,需要進行相應的處理,假設當前需要提取100部電影的信息,具體代碼和注釋如下:

#導入所需庫

import requests

import re

#page控制抓取電影的數量

page=0

while page<=80:

url="https://movie.douban.com/j/search_subjects?type=movie&tag=熱 門&sort=recommend&""page_limit=20&page_start="+str(page)

#通過requests庫的get()方法獲取源碼

r = requests.get(url)

html = r.text

#通過re庫提取當前頁面的url鏈接

ree = re.compile('"url":"(.*?)"',re.S)

items = re.findall(ree,html)

for item in items:

#對url形式進行處理

url = item.replace("\","")

print(url)

圖1:url鏈接入口

圖2:獲取url鏈接

圖3:部分網頁源碼

圖4:提取電影信息

圖5:存儲的csv文件

page+=20

2.4 使用BeautifulSoup庫解析電影數據

通過from bs4 import BeautifulSoup測試程序是否報錯,確定安裝好BeautifulSoup庫后,通過該庫解析電影數據,提取電影的具體信息,進入一部電影,部分網頁源代碼如圖3所示。

如圖4,提取該電影的名稱,上映年份,導演,主演,豆瓣評分,短評等信息,部分提取代碼如下:

2.5 保存到本地

如圖5,從網頁中爬取到數據后,需要保存到本地,既可以保存在文件中,也可以保存在數據庫中,本文將結果保存為csv文件。部分代碼如下:

with open("E:\a.csv","a")as f:

#中間代碼為2.4中解析出的電影信息

f.write(movie)

f.close()

3 結語

本文基于Python提供豐富的庫,實現了豆瓣電影種熱門類型電影的爬取,可以根據提出的爬蟲方法對豆瓣官網的圖書和音樂等其他模塊進行爬取,以此來研究用戶的喜好。當今處于大數據時代,用戶對各類數據的需求越來越大,爬蟲作為數據收集的一種手段,具有廣闊的應用前景。

猜你喜歡
信息
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
信息超市
大眾創業(2009年10期)2009-10-08 04:52:00
展會信息
展會信息
展會信息
展會信息
展會信息
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 亚洲一区无码在线| 亚洲第一视频网| 欧美.成人.综合在线| 亚洲制服丝袜第一页| av在线手机播放| 97精品国产高清久久久久蜜芽 | 亚洲福利视频一区二区| 露脸一二三区国语对白| 色天天综合| 欧美一区中文字幕| 久久久久免费看成人影片| 亚洲国产精品人久久电影| 亚洲三级色| 大陆精大陆国产国语精品1024 | 国产成人精品第一区二区| 国产精品久久久精品三级| 激情综合图区| а∨天堂一区中文字幕| 任我操在线视频| 日本亚洲成高清一区二区三区| 欧美国产日韩另类| 狼友视频国产精品首页| 一级毛片在线免费视频| 三级国产在线观看| 欧美成人第一页| 国产在线观看99| 538国产在线| 亚洲欧洲日产国产无码AV| 99久久国产自偷自偷免费一区| 国产又大又粗又猛又爽的视频| 久无码久无码av无码| 免费jjzz在在线播放国产| 欧美第一页在线| av午夜福利一片免费看| 亚洲无码91视频| a级毛片免费播放| 久久久精品无码一二三区| 国产综合欧美| 精品久久777| 国产电话自拍伊人| 国产无码精品在线播放| 无码区日韩专区免费系列| 国产乱人免费视频| 亚洲中文在线看视频一区| 超清无码一区二区三区| 国产成a人片在线播放| 免费观看国产小粉嫩喷水| 又爽又大又光又色的午夜视频| 91娇喘视频| 日本五区在线不卡精品| 精品久久久无码专区中文字幕| 麻豆AV网站免费进入| 五月丁香在线视频| 欧美日韩在线亚洲国产人| 色欲不卡无码一区二区| 亚洲中字无码AV电影在线观看| 任我操在线视频| 国产97色在线| 日韩成人在线网站| 91热爆在线| 在线无码私拍| h视频在线播放| 亚洲最大福利网站| 成人免费午间影院在线观看| 小13箩利洗澡无码视频免费网站| 欧美日韩成人在线观看| 久久9966精品国产免费| 国产va在线| 国产青榴视频| www.亚洲国产| 欧美日韩精品综合在线一区| 国产在线观看精品| av无码一区二区三区在线| 日本精品中文字幕在线不卡 | 欧美成人精品在线| jizz国产视频| 色呦呦手机在线精品| 亚洲日本一本dvd高清| 91久久国产综合精品女同我| 在线播放国产一区| 亚洲A∨无码精品午夜在线观看| 亚洲三级视频在线观看|