999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python的網絡爬蟲技術研究

2020-07-04 12:56:58商紅宇葛蘇建
文存閱刊 2020年4期
關鍵詞:大數據

商紅宇 葛蘇建

摘要:在大數據時代,越來越多的公司企業開始注意到數據的價值,開始從自有數據或者網絡數據種提取數據,并進行數據變現,發掘數據的價值。網絡爬蟲技術在此時代得到了長足發展,但是也有大量惡意爬蟲充斥網路,導致網絡癱瘓、公司利益受損。為了了解確保高性能的同時又不給被爬取網站服務器帶來巨大壓力的網絡爬蟲的設計規范,本文研究了網絡爬蟲的工作流程,設計了一個基于Python的爬取豆瓣電影數據的網絡爬蟲。提出了現階段網絡爬蟲面臨的挑戰和惡意爬蟲的危害,同時網絡爬蟲應遵守我國相關的法律規范。

關鍵詞:爬蟲;Python;大數據

一、研究背景

在這個大數據時代,人工智能蓬勃發展的時代,不論是研究領域還是工程領域,數據已經是必不可少的一部分。現代數據挖掘、神經網絡、深度學習等尖端領域所依賴的也是數據。數據成為了大數據時代的根基,而獲取數據的途徑很大程度上是依賴網絡爬蟲。作為搜索引擎的核心組成模塊,網絡爬蟲在信息檢索過程中有著舉足輕重的地位。

HTTP協議是用于從WWW服務器傳輸超文本到本地瀏覽器的傳送協議。它可以使瀏覽器更加高效,使網絡傳輸減少。它不僅保證計算機正確快速地傳輸超文本文檔,還確定傳輸文檔中的哪一部分,以及哪部分內容首先顯示等。

我們在瀏覽器中URL,回車之后便會在瀏覽器中觀察到頁面內容。實際上這個過程是瀏覽器向網站所在服務器發送了一個請求,網站服務器在接收到這個請求后進行解析處理,然后返回對應響應,接著響應傳回瀏覽器。響應包含頁面源代碼、數據包信息等,瀏覽器對其進行解析處理,然后將網頁呈現出來。

二、網絡爬蟲技術的研究

把互聯網看作一張大網,那么數據就是這張大網上的一個個交錯節點,而爬蟲就是在這張網上爬行的蜘蛛。網絡爬蟲還有其他的名字,比如網絡蜘蛛、網絡機器人等。本章將介紹網絡爬蟲的基本原理,并設計實現一個基于Python的網絡爬蟲,闡述網絡爬蟲面臨的挑戰。

(一)網絡爬蟲基本原理

爬蟲可以簡單概括為采集網頁并保存信息的自動化程序。互聯網用戶主要通過兩種方式來獲取網絡中的相關數據信息,一種是對瀏覽頁輸入相應請求,并下載網頁代碼,通過技術解析后形成所需信息界面;另一種是發送請求至模擬瀏覽器,請求的相關數據被提取和存放到數據庫中,爬蟲則是所有自動化獲取網絡數據的總稱。

(二)網絡爬蟲的實現

在寫爬蟲之前,我們先來看一下網站的robots.txt文件。從這份文件中,我們可以看到:User-agent: *,這是指的所有的爬蟲,它下面的Disallow后面的所有的網站目錄都不允許爬。# Crawl-delay: 5這是說的是爬蟲的延時,不能太快,不然會增加豆瓣服務器的負擔。我們在瀏覽器里用眼睛看到了我們想要的東西,電影信息,電影海報,這是我們需要的,眼睛能看到的信息都可以采集,所謂“所見即所得”。

確定了爬取目標之后就是進行網頁的下載,因為豆瓣電影是靜態頁面,所以源代碼里包含了網頁上信息,只要把源代碼下載下來就可以提取信息了。

爬蟲只需要對豆瓣網站服務器發送對應的GET請求,即可以得到頁面的源代碼。在獲取頁面時,并沒有遇到信息丟失的問題,也就是豆瓣電影并沒有使用諸如Ajax、JavaScript等技術來實現動態加載。

詳情頁鏈接在

  • 標簽內的標簽的href值的位置,對html文檔結構進行分析,實現了提取電影詳情頁的函數。這里將所有信息存在了隊列里,存在隊列里,隊列先進先出,然后用了os新建文件夾。用MySQL數據庫保存,將排名、電影名、地址存為一張數據表。用txt文件讀寫,將這些信息保存在了txt文本中。用try-except語句捕捉異常,以防突發問題,從而不影響整個程序。

    在得到了頁面的地址后,存在隊列里然后接下來處理他們。把每一部電影的詳情頁都爬取下來進行數據提取了。爬取詳情頁的方法與爬取排行榜的方法相同。網頁的結構有一定的規則,根據特殊的節點屬性、CSS選擇器、Xpath等技術手段可以精準定位信息位置,以此來提取數據。信息提取可以使數據從雜亂無章,變得條理清晰,以便后續使用和處理。

    響應獲取后,函數返回的是一個Beautiful Soup對象。詳情頁的信息提取是爬蟲中最重要也是最難的一步,這里函數利用Beautiful Soup從html中提取信息,Beautiful Soup雖然操作簡單,功能強大,但其解析速度并不算快。

    一般爬蟲會將數據保存到數據庫中。蟲除了可以下載文字信息,也可保存圖片信息,電影海報下載函數使用了urllib庫進行圖片保存。

    (三)網絡爬蟲技術的挑戰

    早期互聯網的開放性高,數據獲取難度小。隨這各大公司對數據資產的日益看重,獲取數據的難度越來越大,雖然爬蟲技術在大數據時代得到了蓬勃發展,但是依然面臨著反爬技術的水平不斷提高、爬蟲的法律限制以及用戶隱私帶來的挑戰。惡意爬蟲指的是使用技術手段,以服務器承受不住的速度達到快速爬取而導致被爬取對象利益受損、用戶隱私數據泄露和導致網絡癱瘓的爬蟲行為。

    參考文獻:

    [1]張艷,吳玉全.基于Python的網絡數據爬蟲程序設計[J].電腦編程技巧與維護,2020(04):26-27.

    [2]孫建言,馬雨欣,武文杰.基于Python的網絡爬蟲系統[J].電腦知識與技術,2019,15(26):61-63.

    [3]黎曦. 基于網絡爬蟲的論壇數據分析系統的設計與實現[D].華中科技大學,2019.

    猜你喜歡
    大數據
    大數據環境下基于移動客戶端的傳統媒體轉型思路
    新聞世界(2016年10期)2016-10-11 20:13:53
    基于大數據背景下的智慧城市建設研究
    科技視界(2016年20期)2016-09-29 10:53:22
    數據+輿情:南方報業創新轉型提高服務能力的探索
    中國記者(2016年6期)2016-08-26 12:36:20
  • 主站蜘蛛池模板: 国产成人精品无码一区二| 99re在线观看视频| 久久成人免费| 99久久婷婷国产综合精| 欧美成人日韩| 狼友视频国产精品首页| 福利在线一区| 欧美成a人片在线观看| 97超级碰碰碰碰精品| 天天做天天爱天天爽综合区| 国产不卡网| 久久五月天综合| 精品自窥自偷在线看| 欧美激情综合| 成人国产精品网站在线看| 日本尹人综合香蕉在线观看| 国产视频久久久久| 久久午夜夜伦鲁鲁片不卡| 亚洲精品色AV无码看| 国产SUV精品一区二区6| 亚洲成人黄色在线| 人妖无码第一页| 亚洲精品卡2卡3卡4卡5卡区| 老司机久久99久久精品播放| 伊人久综合| 久久精品66| 日韩小视频在线观看| 午夜天堂视频| 少妇高潮惨叫久久久久久| 不卡网亚洲无码| 国产女人在线视频| 精品三级网站| 最新日韩AV网址在线观看| 免费毛片a| 久青草网站| 国产97视频在线观看| 人妻无码中文字幕第一区| 91麻豆久久久| 国产菊爆视频在线观看| 久久国产成人精品国产成人亚洲 | 久久国产亚洲偷自| 欧美日韩国产精品综合| 波多野结衣久久精品| 亚洲成人一区二区三区| 午夜福利无码一区二区| 又黄又湿又爽的视频| 女人18毛片一级毛片在线| 久久福利网| 黑人巨大精品欧美一区二区区| 久久精品66| 国产成人亚洲无吗淙合青草| 国产美女无遮挡免费视频网站 | 五月激激激综合网色播免费| 99久久这里只精品麻豆| 国产情侣一区| 伊人无码视屏| 日韩欧美国产三级| 国产最新无码专区在线| 色吊丝av中文字幕| AV不卡无码免费一区二区三区| 九九视频免费在线观看| 欧美成人一级| 亚洲无码日韩一区| 国产激爽大片在线播放| 全部免费毛片免费播放| 草逼视频国产| 在线人成精品免费视频| 四虎国产精品永久一区| 91欧美在线| 98超碰在线观看| 精品国产美女福到在线不卡f| 一级毛片a女人刺激视频免费| 国产剧情伊人| 最新国产麻豆aⅴ精品无| 精品久久久久成人码免费动漫| 亚洲一级毛片| 亚洲第一区精品日韩在线播放| 中文字幕亚洲专区第19页| 色婷婷国产精品视频| 国产99久久亚洲综合精品西瓜tv| 久久综合久久鬼| 婷婷色在线视频|