999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于python的網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)

2019-11-03 14:07:16蔡振海張靜
電腦知識(shí)與技術(shù) 2019年23期
關(guān)鍵詞:頁(yè)面人工智能

蔡振海 張靜

摘要:隨著大數(shù)據(jù)和人工智能的火熱,編程語(yǔ)言Python的熱度也迅速攀升,在各大編程語(yǔ)言排行榜中位居榜首。越來(lái)越多的人想了解和學(xué)習(xí)Python語(yǔ)言。該文從Python的安裝,常用庫(kù)(Requests)的安裝、使用,網(wǎng)頁(yè)爬蟲通用代碼框架的構(gòu)造來(lái)介紹Python的特點(diǎn)。使感興趣者更加容易了解和使用Python。

關(guān)鍵詞:Python;網(wǎng)頁(yè)爬蟲

中圖分類號(hào):TP393? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2019)23-0036-02

開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):

Design and Implementation of a Web Crawler System Based on Python

CAI Zhen-hai1, ZHANG Jing2

(1.Jiangsu Vocational Institute of Commerce, Nanjing 211100,China; 2. Nanjing Technical Vocational College, Nanjing 211100, China)

Abstract:With the popularity of big data and artificial intelligence, the programming language Python is also rapidly rising, ranking first in the list of major programming languages. More and more people want to know and learn Python. This paper introduces the characteristics of Python from the installation of Python, the installation and use of common libraries (Requests), and the construction of common code framework for web crawlers.Making it easier for interested people to understand and use Python.

Key words: Python; Web crawler

近年來(lái),Python語(yǔ)言迅速崛起,其簡(jiǎn)潔、免費(fèi)、易學(xué)習(xí)、兼容性好等特點(diǎn)以及其面向?qū)ο蟆⒑瘮?shù)式編程、過(guò)程編程、面向方面編程,受到眾人的喜愛(ài)【1】。Python是一種廣泛使用的腳本語(yǔ)言,它自身帶有requests等爬蟲的基礎(chǔ)庫(kù),尤其是Python在人工智能領(lǐng)域的優(yōu)勢(shì),使得其戰(zhàn)略地位迅速提升【2】。教育部公布的《2019年教育信息化和網(wǎng)絡(luò)安全工作要點(diǎn)》透露:今年將啟動(dòng)中小學(xué)生信息素養(yǎng)測(cè)評(píng),并推動(dòng)在中小學(xué)階段設(shè)置人工智能相關(guān)課程,逐步推廣編程教育,也將編制《中國(guó)智能教育發(fā)展方案》。了解、學(xué)習(xí)、使用Python語(yǔ)言是成為相關(guān)領(lǐng)域人才的必經(jīng)之路。

1 網(wǎng)頁(yè)爬蟲的設(shè)計(jì)

網(wǎng)頁(yè)爬蟲通過(guò)一定的規(guī)則自動(dòng)從眾多的網(wǎng)絡(luò)資源中爬取所需信息,它通過(guò)模仿瀏覽器對(duì)網(wǎng)頁(yè)的URL地址訪問(wèn)的方式,不需要人工操作即可獲得所需數(shù)據(jù)【3】。通過(guò)安裝相關(guān)軟裝和庫(kù),即可實(shí)現(xiàn)簡(jiǎn)單的網(wǎng)頁(yè)爬蟲功能。

1.1 Python的安裝

目前Python的版本已經(jīng)更新到3.X,登錄Python官網(wǎng),根據(jù)操作系統(tǒng)選擇相應(yīng)的版本下載。本文以3.7.2版本為例在Windows操作系統(tǒng)上進(jìn)行介紹。下載后執(zhí)行Python安裝可執(zhí)行文件,選擇安裝目錄,同時(shí)一定要記住在安裝界面勾選Add Python 3.7.2 to PATH選項(xiàng),否則在使用時(shí)會(huì)報(bào)錯(cuò)。

安裝成功后,打開(kāi)命令提示符窗口,輸入Python后回車,當(dāng)界面顯示Python版本號(hào),則表明Python安裝成功。

1.2 requests的安裝

為了爬取網(wǎng)頁(yè)內(nèi)容,需要安裝requests庫(kù)。以管理員身份運(yùn)行命令提示符窗口,輸入PiP install requests后回車,系統(tǒng)會(huì)執(zhí)行安裝requests庫(kù)操作,當(dāng)出現(xiàn)Successfully installed requests-2.21.0時(shí),表示requests庫(kù)安裝成功。在使用時(shí),需要輸入import requests引入該庫(kù)。

1.3 網(wǎng)頁(yè)的爬取

安裝好Python和requests庫(kù)后,就可以實(shí)現(xiàn)簡(jiǎn)單的網(wǎng)頁(yè)爬取功能。本文主要使用requests庫(kù)中的一個(gè)非常重要的get()方法。該方法能構(gòu)造一個(gè)向服務(wù)器請(qǐng)求資源的Request對(duì)象,并將響應(yīng)對(duì)象返回,該對(duì)象是ResPonse類型。我們可以通過(guò)響應(yīng)的對(duì)象所攜帶的數(shù)值來(lái)判斷請(qǐng)求是否成功,若值為200,則表明請(qǐng)求成功,否則表示失敗,當(dāng)然也能通過(guò)返回的具體的數(shù)值來(lái)判斷失敗的原因。在使用get()方法時(shí),需要向其傳遞參數(shù),最重要的就是URL參數(shù),即:所要爬取的網(wǎng)頁(yè)的鏈接。該方法還有其他可選參數(shù),可根據(jù)實(shí)際情況進(jìn)行選擇。

若要顯示所爬取網(wǎng)頁(yè)的信息,需要用到ResPonse的text屬性,該屬性是HTTP響應(yīng)內(nèi)容的字符串形式,即:get()方法中傳入的參數(shù)URL所對(duì)應(yīng)的頁(yè)面。在進(jìn)行網(wǎng)絡(luò)連接時(shí),通常會(huì)出現(xiàn)異常,通過(guò)raise_for_status()進(jìn)行異常處理。同時(shí)為了正確顯示網(wǎng)頁(yè)內(nèi)容,還需對(duì)網(wǎng)頁(yè)編碼進(jìn)行修改,以免發(fā)生亂碼情況。網(wǎng)頁(yè)爬取的偽代碼如下:

1 導(dǎo)庫(kù),將需要使用的requests庫(kù)引入

2 確定需要爬取的網(wǎng)頁(yè)URL

3 requests.get(URL)——>Result? ?//將爬取的對(duì)象返回

4 異常處理

5 utf-8——Result.encoding? ? ?//采用utf-8編碼,避免出現(xiàn)亂碼

6 打印網(wǎng)頁(yè)內(nèi)容

1.4 網(wǎng)頁(yè)爬蟲的具體實(shí)現(xiàn)

首先定義帶參的頁(yè)面爬取函數(shù),該函數(shù)通過(guò)requests庫(kù)的get()函數(shù)爬取所需頁(yè)面內(nèi)容,同時(shí)在該函數(shù)中做了異常處理,防止程序出現(xiàn)意外情況。并將編碼方式設(shè)為可輸出中午形式的utf-8形式。其次主函數(shù)中將結(jié)果進(jìn)行打印輸出。具體代碼和如結(jié)果如下圖所示:

2 結(jié)束語(yǔ)

本文通過(guò)對(duì)Python及requests庫(kù)的安裝和使用完成了簡(jiǎn)單網(wǎng)頁(yè)的爬取功能的實(shí)現(xiàn),通過(guò)對(duì)實(shí)際頁(yè)面爬取的操作,加深了對(duì)Python的理解,提升了學(xué)習(xí)Python的興趣。本文只是簡(jiǎn)單的實(shí)現(xiàn)了頁(yè)面的爬取,對(duì)于Python強(qiáng)大的數(shù)據(jù)爬取功能將會(huì)在后期的文章中進(jìn)行詳細(xì)介紹。

參考文獻(xiàn):

[1] 仇明. 基于Python的圖片爬蟲的程序設(shè)計(jì)[J]. 工業(yè)技術(shù)與職業(yè)教育, 2019(3).

[2] 賈棋然. 基于Python專用型網(wǎng)絡(luò)爬蟲的設(shè)計(jì)及實(shí)現(xiàn)[J]. 電腦知識(shí)與技術(shù), 2017(12).

[3] 李琳. 基于Python的網(wǎng)絡(luò)爬蟲系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J]. 信息通信, 2017(9).

【通聯(lián)編輯:唐一東】

猜你喜歡
頁(yè)面人工智能
微信群聊總是找不到,打開(kāi)這個(gè)開(kāi)關(guān)就好了
大狗熊在睡覺(jué)
刷新生活的頁(yè)面
我校新增“人工智能”本科專業(yè)
2019:人工智能
商界(2019年12期)2019-01-03 06:59:05
人工智能與就業(yè)
數(shù)讀人工智能
小康(2017年16期)2017-06-07 09:00:59
下一幕,人工智能!
下一幕,人工智能!
同一Word文檔 縱橫頁(yè)面并存
主站蜘蛛池模板: 欧美黑人欧美精品刺激| 亚洲高清无码精品| 99精品国产高清一区二区| 欧美在线一二区| 欧美视频在线播放观看免费福利资源| 亚洲无线一二三四区男男| 无码高潮喷水在线观看| 国产成人乱无码视频| 91在线播放免费不卡无毒| 在线免费观看a视频| 午夜限制老子影院888| 久久精品aⅴ无码中文字幕| 四虎免费视频网站| 国产午夜精品一区二区三| 91色在线观看| 黄色三级毛片网站| 婷五月综合| 国产精品lululu在线观看| 亚洲啪啪网| 福利国产微拍广场一区视频在线| 永久免费无码成人网站| 国产欧美日韩va另类在线播放| 97在线公开视频| 亚洲视频影院| 日韩一区二区在线电影| 天天色综合4| 少妇露出福利视频| 国产精品毛片一区| 26uuu国产精品视频| 免费中文字幕在在线不卡| 亚洲无限乱码一二三四区| 亚洲色图狠狠干| 91在线无码精品秘九色APP| 92精品国产自产在线观看| 亚洲精品大秀视频| 1级黄色毛片| 亚洲综合国产一区二区三区| 99久久精品视香蕉蕉| 色综合久久88| 人妻丰满熟妇啪啪| 亚洲乱码精品久久久久..| 热思思久久免费视频| 国产www网站| 欧美在线导航| 婷婷六月综合网| 高清无码一本到东京热| 国产视频自拍一区| 精品国产网站| 午夜啪啪网| 午夜高清国产拍精品| 91视频99| 四虎亚洲精品| av午夜福利一片免费看| 国产噜噜噜视频在线观看| 国产精品高清国产三级囯产AV| 亚洲国产成人自拍| 亚洲精品色AV无码看| 毛片三级在线观看| 日韩高清一区 | 国产在线无码一区二区三区| 四虎影视8848永久精品| 国产在线观看91精品| 日韩在线观看网站| 国产精品密蕾丝视频| 日韩无码视频专区| 欧美a在线视频| 中文字幕一区二区视频| 91在线播放国产| 呦女亚洲一区精品| 欧美成人亚洲综合精品欧美激情| 巨熟乳波霸若妻中文观看免费| 91精品综合| 99精品国产自在现线观看| 亚洲欧美色中文字幕| 亚洲视频免费播放| 亚洲欧美成aⅴ人在线观看| 精品国产自| 免费一看一级毛片| 亚洲成在人线av品善网好看| 青青操国产| h视频在线观看网站| 亚洲成在人线av品善网好看|