999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python爬蟲技術的研究

2022-12-13 06:25:02洪麗華HONGLihua黃瓊慧HUANGQionghui
價值工程 2022年34期
關鍵詞:用戶

洪麗華 HONG Li-hua;黃瓊慧 HUANG Qiong-hui

(廈門軟件職業技術學院軟件工程學院,廈門 361000)

0 引言

爬蟲技術是一把雙刃劍。隨著科學的發展,網絡的應用也隨之快速地發展。網絡的最大作用是隨時隨地給不同的用戶提供資源。網絡提供了大量的資源,特別是隨著大數據技術的發展,用戶如何在這些資源中盡快找到自己所需要的呢?運用爬蟲技術,能夠以最快地速度獲取到用戶所需要的相關資源。爬蟲,像機器人一樣,按照制定的規則、編寫的程序,在網絡中能夠自動地搜索、整理相關的資源。爬蟲技術,也稱為網絡爬蟲[1]。運用爬蟲技術,既能獲取到網站上合法的、公開的的信息,也能獲取到不合法的、私人的信息。本人提倡在法律法規的范圍內、在道德約束的條件下,運用爬蟲技術。

爬蟲技術的應用非常廣泛,比如:爬取網頁、爬取熱點新聞、爬取金融信息、爬取用戶的聯系方式等等[2]。其中,最廣泛、最流行的應用是爬取網頁,即網頁爬蟲。實現爬蟲技術,可以運用編程語言來編寫程序代碼,比如:C語言、C++、Java、Python等程序設計的語言。其中,Python語言具有簡潔的代碼、開發的效率高等優勢,頗受開發者的熱愛。

本文從Python、爬蟲技術和網頁爬蟲等三大方面進行闡述。

1 Python

Python提供的安裝程序、源代碼,都是免費的。它分別提供了與操作系統Windows、Linux和Mac等其它操作系統相匹配的所有免費的安裝版本,又分別提供了在線的、離線的和壓縮包的等安裝程序。比如,Python 3.11.Orc-Sept 12,2022版 本 提 供 了Windows installer(32-bit)、Windows installer(64-bit)、Windows installer(ARM64)和Windows embeddable package(32-bit)、Windows embeddable package(64-bit)、Windows embeddable package(ARM64)等安裝程序[3]。本文的程序代碼是在Windows操作系統下運行的。Python的官方下載網址為:https://www.python.org/downloads。

Python不僅僅自帶強大、豐富的標準庫,還擁有大量的第三方庫[4]。Python的所有第三方庫的官方下載網址為:https://www.pypi.org。假設要下載第三方庫Scrapy,登錄第三方庫的官方網站,在搜索框中輸入Scrapy,就能搜索到它的所有版本,用戶再根據電腦的配置選擇相應的版本下載、安裝。

在安裝第三方庫時,可以選擇在線安裝,也可以選擇離線安裝。如果是在線安裝,比如安裝Scrapy,在命令符窗口輸入:pip install scrapy,系統會自動選擇與電腦相匹配的scrapy版本進行安裝;如果是離線安裝,用戶得先查看、判斷電腦里面的相關軟件的版本,再下載相應的scrapy版本進行安裝。

2 爬蟲技術

Python提供了許多庫來實現爬蟲技術[5],比如,BeautifulSoup庫、rurlib庫、requests庫和pycurl庫等等。其中,用得比較多的是requests庫,包含以下常用的函數:request()、get()、head、post、put、patch、delete()等等。

爬蟲技術的一般流程是[5]:①明確需要爬取的目標、內容;爬取哪個網站的哪些內容,每個網站的URL是不一樣的,需要正確地輸入,比如,百度的URL是:http://www.baidu.com;京東的URL是:http://www.jd.com;需要爬取哪些內容,得正確地書寫;②用戶向服務器發送請求;一般需要加請求的報頭,比如加:“User-Agent”,以免被誤認為是非法客戶的訪問;③服務器返回給用戶的數據;服務器會給用戶發回許許多多的數據,包含有價值的數據和無價值的數據等等;④解析、提取需要的數據;從服務器返回的數據中,解析和提取有價值的數據,過濾無價值的數據;⑤用文件、數據庫或其它方式存儲相應的數據;把解析和提取的有價值數據用不同的形式保存以備用。

Python也提供了許多框架來實現爬蟲技術[6],比如,Portia、Crawley、Scrapy等等。其中Scrapy框架,包含下載器(Downloader)、Spider中間件(Spider Middlewares)、下載器中間件(Downloader Middlewares)等多個組件,同時,Scrapy框架也包含了許多作用不同的相對應的命令,比如,使用Scrapy下載器下載的URL并且將內容輸出的fetch()命令。

但是,由于爬蟲的過程中,許多服務器資源會被消耗掉,服務器的穩定性也會受到很大影響,基于種種原因,爬蟲是不受網站所有者的歡迎。為了能夠順利地實現爬蟲技術,需要先了解網站所有者所制定的限制措施——反爬蟲,然后,再制定相應的措施來規避反爬蟲。比如,可以通過訪問頻度的調整來規避反爬蟲[7],這種方法主要是針對有些網站設置的訪問頻度閾值,爬蟲時設置的閾值應該恰當,可以比網站設置的訪問頻度閾值要略低,這樣爬取的穩定性會比較好、爬取的效率也會比較高。還有其它規避反爬蟲的方法:代理IP、應對網站結構變化等等。

3 網頁爬蟲

3.1 爬取網站上的相關信息:爬取網站“京東”的首頁,并且輸出到文件中[8]

運用爬蟲技術的一般流程,按照要求,運用Python提供的相關庫的函數,按照步驟完成。

相關的步驟及代碼如下。

3.2 爬取網站上的圖片:爬取網站“豆瓣”首頁的電影圖片,并且輸出到文件中

編寫的代碼及步驟如下。

#運行結果,所爬取的圖片(部分)如圖1。

圖1 爬取的圖片

3.3 爬取相關的網頁:爬取網站“百度”上帶有關鍵詞”學習強國”的相關網頁,并且輸出到文件中

編寫的代碼及步驟如下。

圖2 運行過程

4 結語

基于Python的爬蟲技術,是目前許多用戶所采用和所追求的一項技術,也是大部分學者比較喜歡的一種方法[9]。Python為用戶提供了許多爬蟲技術的庫,也提供了許多爬蟲技術的框架,既能夠規避反爬蟲技術,又能夠自動地、高效率地為用戶爬取需要的數據。基于Python的爬蟲技術,是一項可以繼續擴展和延伸的技術。

猜你喜歡
用戶
雅閣國內用戶交付突破300萬輛
車主之友(2022年4期)2022-08-27 00:58:26
您撥打的用戶已戀愛,請稍后再哭
關注用戶
商用汽車(2016年11期)2016-12-19 01:20:16
關注用戶
商用汽車(2016年5期)2016-11-28 09:55:15
兩新黨建新媒體用戶與全網新媒體用戶之間有何差別
關注用戶
商用汽車(2016年6期)2016-06-29 09:18:54
關注用戶
商用汽車(2016年4期)2016-05-09 01:23:12
挖掘用戶需求尖端科技應用
Camera360:拍出5億用戶
創業家(2015年10期)2015-02-27 07:55:08
100萬用戶
創業家(2015年10期)2015-02-27 07:54:39
主站蜘蛛池模板: 成年人久久黄色网站| 91精品久久久久久无码人妻| 91精品情国产情侣高潮对白蜜| 国产美女精品在线| 国产在线精品美女观看| 在线国产毛片手机小视频| 精品国产中文一级毛片在线看| 97久久免费视频| 性视频久久| 不卡午夜视频| 亚洲精品午夜天堂网页| 亚洲精品成人7777在线观看| 麻豆国产精品视频| 国产在线一区视频| 青草视频久久| 香蕉久久永久视频| 国产成人亚洲无码淙合青草| 亚洲一级毛片免费看| 2021无码专区人妻系列日韩| 992tv国产人成在线观看| 青青操视频在线| 日本人又色又爽的视频| 99热精品久久| 国产在线八区| 第一页亚洲| 特级欧美视频aaaaaa| 成人综合久久综合| 亚洲第一天堂无码专区| 色婷婷在线影院| 99热这里只有精品在线播放| 亚洲成人动漫在线观看| 青青操国产视频| 午夜国产精品视频| 九九免费观看全部免费视频| 午夜精品久久久久久久无码软件| 国内毛片视频| 国产欧美日韩精品综合在线| 久久精品人人做人人综合试看| 欧美激情网址| 亚洲午夜国产精品无卡| 欧美在线综合视频| 亚洲精品无码AV电影在线播放| 综合久久久久久久综合网| 久久午夜夜伦鲁鲁片无码免费| 国产精品视频观看裸模| 国产欧美日韩视频怡春院| 国产欧美日韩另类精彩视频| 日韩欧美中文| 欧美日本在线播放| A级全黄试看30分钟小视频| 精品一区二区久久久久网站| 青青草a国产免费观看| 少妇精品在线| 国产高清在线观看| 国产黄在线免费观看| 欧美精品黑人粗大| 亚洲欧美自拍一区| 最新国语自产精品视频在| 国产精品一区在线麻豆| 日韩欧美国产另类| 亚洲精品自拍区在线观看| 青青草原国产av福利网站| 99在线视频免费| 亚洲AV无码乱码在线观看裸奔| 亚洲人成影院午夜网站| 亚洲AV无码乱码在线观看裸奔 | 全部免费特黄特色大片视频| 日韩在线永久免费播放| 黄色网页在线观看| 亚洲人成电影在线播放| 亚洲精品视频免费看| 伊人久久大香线蕉成人综合网| 国产精品无码一区二区桃花视频| 中文字幕永久在线观看| 色精品视频| 國產尤物AV尤物在線觀看| 永久毛片在线播| 91丝袜在线观看| 91九色最新地址| 国产欧美日韩综合在线第一| 日本精品αv中文字幕| 日韩毛片在线视频|