999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Python的網絡爬蟲技術的研究

2021-03-19 01:17:38桂林電子科技大學
電子世界 2021年3期
關鍵詞:頁面信息

桂林電子科技大學 李 彥

本文介紹了Python技術的網絡爬蟲系統的特點和工作原理,對網絡爬蟲的應用邏輯做了詳細的介紹,同時,通過對爬蟲技術、數據分析在旅游行業的應用的研究,亦為爬蟲技術、數據分析在其他行業如商務、醫學、教育、科學與工程等各個方面的應用提供有價值的應用參考。

網絡爬蟲(Crawler)作為一種古老的網絡技術,它伴隨著大數據與人工智能時代的來臨而受到越來越多人的重視與青睞。具有足夠豐富的功能的Python在網絡爬蟲技術中脫穎而出。在日常的工作中,給予了強大的數據信息支持技,解決了企業信息采集、市場數據分析、信息自動匹配等問題。通俗的講爬蟲就是把你手動打開窗口、輸入數據等等操作用程序代替。用程序替你獲取你想要的信息。爬蟲的關鍵是:“匹配”“采集”“自動化”。

1 網絡爬蟲技術的應用場景

話說是因為有了web才有了爬蟲,目前市面上的爬蟲技術應用都是圍繞著web網頁進行的。

現實生活中很多網絡信息檢索、存儲之中都會通過網絡爬蟲技術來實現網頁中數據爬取、分析和采集。比如人們在生活場景中常用到搜索引擎進行信息查閱,包括谷歌、百度、搜狗的等,都運用到了搜索技術;網絡購物、互聯網電商平臺、線上旅游OTA平臺等,要用到爬蟲技術獲取自身想要的網絡數據信息從而實現數據分析的需求的場景,該技術得到了廣泛的應用。

2 Python語言的介紹

Python語言是高級語言,由Guido van Russum在阿姆斯特丹于1989年的圣誕節期間首次被設計完成,1991年第一次公開發行文本。它是一種解釋性語言,你可以用它來創建網頁應用、游戲和搜索引擎。多個領域都會見到Python的身影,如:云計算、web開發、科學運算、人工智能、金融量化交易等。同時,該語言具有獨特的語法結構,擁有較強的可讀性,具備互交性、結構簡單、代碼清晰、可移植、源代碼已維護、可嵌入以及可拓展等特點,適合完成高層人物,幾乎可以再所有操作系統中運行。若要使用Python語言來實現網絡爬蟲技術,應當充分利用Python語言簡潔以及資源豐富的優勢。如在研發網絡爬蟲系統的獲取網絡數據信息時,無需較為復雜的代碼編輯器、調試器等工具,可使用Eclipse通過插件作為Python語言的開發工具。

3 Python語言編寫網絡爬蟲系統的優勢

軟件質量高。秉承了簡潔、清晰的特點,擁有高度一致的編程模式,簡單易學,容易上手。設計風格從始至終不做改變,可保證開發者在統一規則內設計出規范性的代碼。如若出現錯誤代碼,Python提供了合理的“退出機制”。

開發速度快。Python不需要復雜的IDE,它可以簡單到只用一個文本編輯器,對多數中小型應用進行開發。無需編譯也無需調試,往往只需要幾十行代碼就可以開發出需要幾百行C代碼才能實現的功能。

功能強大。為了實現更多的功能,Python內置了許多預編碼的庫工具。ScraPy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架。可運用到信息搜索、數據識別、存儲歷史數據等一系列程序中。同時,Python還有很多強大的框架幫助編程者實現更多功能。例如:TruboGears、Django、Pylons等。

易于擴展。可通過C或者C++編寫的模塊進行拓展,也十分擅長做文本處理和字符串處理。

4 基于Python網絡爬蟲技術的數據爬取研究

通過獲取網絡數據的方式有兩種:

方式1:發出請求--->匹配網頁代碼--->解析成頁面。

方式2:模擬瀏覽器發送請求(獲取網頁代碼)->提取有用的數據->存放于數據庫或文件中。

爬蟲要做的就是方式2;

爬蟲主要步驟:

(1)分析目標網站,明晰目標網站結構,理清關鍵數據位置。(2)發起請求:使用http庫或瀏覽器模擬工具向目標站點發起請求,即發送一個Request。(3)獲取響應內容。如果得到了一個Response,Response包含:html,json,圖片,視頻等。說明瀏覽器能正常響應。(4)解析內容:解析html數據:正則表達式(RE模塊),第三方解析庫如Beautifulsoup,lxml等。解析json數據:json模塊;通過解析html、json或其他數據,獲得想要的關鍵數據信息,或者是下一個待爬取的URL地址。(5)保存數據。雖然網絡爬蟲可以方便地為人們獲取感性區的信息數據,但在進行網絡爬蟲時,亦應了解網絡爬蟲引發的問題。

網絡爬蟲的“性能”騷擾:

web默認接受人類訪問,由于網絡爬蟲的頻繁訪問會給服務器帶來巨大的額資源開銷。

網絡爬蟲的法律風險:

服務器上的數據有產權歸屬,網絡爬蟲獲取數據牟利將帶來法律風險。

網絡爬蟲的隱私泄露:

網絡爬蟲可能具備突破簡單控制訪問的能力,獲取被保護的數據從而泄露個人隱私。

5 Python網絡爬蟲應用關鍵技術

頁面請求:

網絡爬蟲的第一個實現步驟就是模擬瀏覽器向目標網站的服務器發送請求,以獲得頁面的響應數據。

目標網站的web可分為動態頁面和靜態頁面兩種,二者是存在區別的。

在靜態頁面程序里,客戶端通過網絡,將web瀏覽器鏈接在服務器上,利用HTTP協議發起一個與需求一致的請求,將需求準確的告知服務區,web服務器接到請求后,服務器將會根據接收到的需求信息,從文件系統(存放了所有靜態頁面的磁盤)取出內容。之后通過web服務器返回給客戶端,客戶端接收到內容之后經過瀏覽器渲染解析,得到顯示的效果。為了讓靜態web頁面顯示更加好看,使用javascript/VBScript/ajax.但是這些特效都是在客戶端上借助于瀏覽器展現給用戶的,所以在服務器上本身并沒有任何的變化。

靜態頁web的缺點是:因JS的大量使用,瀏覽器頁面必須打開,大量的內存被占用,雖然減輕了服務端的壓力,但客戶端的壓力加重了。

動態web的不同之處在于所有的請求會先經過一個WEB Server來處理,雖然程序仍舊會用客戶端和服務端,但可以通過網絡連接到服務器上,使用HTTP協議發起請求,一定程度上減輕了服務端與客戶端的壓力。

針對不同頁面Python語言有相應的方便簡單的頁面獲取庫,例如requests庫及Selenium庫,而對于比較大型的網站,則可以使用scryapy開源架構。

6 爬蟲系統的功能應用舉例

旅游電商數據采集應用場景為例,基于爬蟲的一日游與多日游數據分析系統需要實現以下功能:

數據爬取功能:實現從主流旅游信息平臺爬取多區域多省份的一日游/多日游項目的產品信息,信息內容包括地點名稱,價格區間,店鋪名稱,產品銷量,產品具體行程,用戶評分。爬取過程應實現自動化的入口網址記錄,產品詳情頁巡游,停止條件判斷,關鍵信息定位及提取、異常處理及容錯。

數據清洗功能:包括處理缺失數據、添加默認值、刪除不完整的行、刪除不完整的列、規范化數據類型、必要的轉換、重命名列名等。例如對于一日游與多日游源數據中的行程信息,需要對其進行二次轉換,將行程數據中的地點名稱進行分割。

數據存儲功能:實現對已清洗數據的格式化、持久化存儲存儲,考慮到系統的穩定性及對后續業務的支持,系統存儲的方式包括文本文件存儲、關系型數據庫存儲。

數據呈現功能:將分析結果以直觀、清晰的可視化圖像呈現給使用者。

交互功能:實現使用者與系統的交互,如對一日游與多日游數據種類的選擇,地區數據的選擇等。以馬蜂窩網站獲取一日游數據為例,整個系統的業務邏輯為:數據爬取--數據清洗--數據存儲--數據分析--分析結果可視化。因此,整個系統將劃分為以下多個模塊來實現,如圖1所示紅色虛線內所示。

圖1 系統架構圖

系統爬取馬蜂窩所有目的地的區域編碼思路如下:

(1)向馬蜂窩目的地首頁'https://www.mafengwo.cn/mdd/'發送請求,獲取頁面響應html源碼。

(2)在響應的頁面html源碼中,找到class屬性為'hot-list clearfix'的

標簽。

(3)在class屬性為'hot-list clearfix'的

標簽內部,找到所有

(4)在所有

里,找到附帶href屬性的標簽,并從href屬性的鏈接URL中提取馬蜂窩地區代碼。

(5)保存所有地區代碼。

結束語:本文深入研究網路爬蟲技術,深入理解網絡爬蟲的概念、運行機制、實現邏輯、技術難點等各個方面。滿足不同的用戶在不同場景下對數據信息的采集需求。編程者可通過自己在網絡上搜索、分析轉換為自己所需的數據,爬蟲讓互聯網信息的世界變得簡單化和清晰化。爬蟲強大的文本處理庫和網絡支持庫,可以加速實現互聯網數據信息的整理,提高數據使用者的工作效率,在互聯網經濟中占據著不可忽視的地位。

猜你喜歡
頁面信息
微信群聊總是找不到,打開這個開關就好了
大狗熊在睡覺
刷新生活的頁面
保健醫苑(2022年1期)2022-08-30 08:39:14
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
展會信息
中外會展(2014年4期)2014-11-27 07:46:46
同一Word文檔 縱橫頁面并存
淺析ASP.NET頁面導航技術
其實IE也懂Chrome的心
信息
建筑創作(2001年3期)2001-08-22 18:48:14
健康信息
祝您健康(1987年3期)1987-12-30 09:52:32
主站蜘蛛池模板: 免费国产小视频在线观看| 国产国产人在线成免费视频狼人色| 亚洲人成网址| 99r在线精品视频在线播放| 伊人国产无码高清视频| 国产成年女人特黄特色毛片免| 69综合网| 国产麻豆精品在线观看| 中文字幕伦视频| 亚洲性色永久网址| 青草视频免费在线观看| 91小视频在线播放| 无码内射中文字幕岛国片| 亚洲精品色AV无码看| 久久中文字幕av不卡一区二区| 国产在线观看91精品亚瑟| 日韩毛片免费观看| 国产在线小视频| 亚洲成人手机在线| 国产精品区网红主播在线观看| 久久福利网| 日本人妻丰满熟妇区| 亚洲av成人无码网站在线观看| 国产va视频| 91福利在线观看视频| 亚洲熟女偷拍| 亚洲乱伦视频| 亚洲熟女中文字幕男人总站| 伊人久综合| 91精品专区| 特级aaaaaaaaa毛片免费视频| 国产高清毛片| 国产精品视频3p| 亚洲成年人网| 999国内精品视频免费| 波多野结衣二区| 国产麻豆永久视频| 青草视频久久| 婷婷色婷婷| 精品亚洲欧美中文字幕在线看| 一区二区三区精品视频在线观看| 夜精品a一区二区三区| 色综合日本| 一级毛片不卡片免费观看| 久青草国产高清在线视频| 亚洲午夜久久久精品电影院| 免费jjzz在在线播放国产| 国产丝袜无码精品| 亚洲精品爱草草视频在线| 色哟哟国产精品| 亚洲AⅤ综合在线欧美一区| 色成人亚洲| 麻豆精品在线| 国产精品美女免费视频大全| 亚洲国产综合精品中文第一| 中字无码av在线电影| 88国产经典欧美一区二区三区| 欧美成人在线免费| 精久久久久无码区中文字幕| 777国产精品永久免费观看| 精品无码国产自产野外拍在线| www.99精品视频在线播放| 毛片卡一卡二| 91亚洲精选| 日韩av无码DVD| 成人欧美在线观看| 三级视频中文字幕| 国内精品久久久久久久久久影视 | 国产91小视频| 国产美女在线免费观看| 日本在线欧美在线| 久久久国产精品免费视频| 九色91在线视频| 亚洲欧美日韩动漫| 国产成人8x视频一区二区| 国产哺乳奶水91在线播放| 中文纯内无码H| 五月婷婷综合网| 国产女人水多毛片18| 色哟哟色院91精品网站| 国产精品欧美激情| 国产一区二区免费播放|