基于Python的爬蟲系統(tǒng)設(shè)計與實現(xiàn)

2020-09-10 00:11:40呂定輝

商業(yè)2.0-市場與監(jiān)管 2020年4期

摘要：隨著互聯(lián)網(wǎng)技術(shù)發(fā)展，網(wǎng)絡(luò)所承載的數(shù)據(jù)逐漸體現(xiàn)其價值，且網(wǎng)絡(luò)數(shù)據(jù)體量日益倍增，對網(wǎng)絡(luò)數(shù)據(jù)的利用越來越受到各行各業(yè)的重視。該網(wǎng)絡(luò)爬蟲系統(tǒng)以基于Python語言的Scrapy網(wǎng)絡(luò)爬蟲框架技術(shù)為基礎(chǔ)，綜合考慮對反爬機制的應對措施及相關(guān)系統(tǒng)優(yōu)化，滿足一定的爬取效率要求，便于數(shù)據(jù)挖掘等數(shù)據(jù)研究利用。系統(tǒng)主要實現(xiàn)了實體管道模塊、爬蟲業(yè)務(wù)模塊、中間件模塊、Cookies池模塊。過程中涉及到的關(guān)鍵技術(shù)主要包括Cookies池服務(wù)、反爬蟲策略、頁面解析、Selenium+ChromeDriver實現(xiàn)模擬訪問、MongoDB實現(xiàn)數(shù)據(jù)持久化存儲等。

關(guān)鍵詞：爬蟲;Scrapy框架;Selenium+ChromeDriver;MongoDB

1.項目研究的背景及意義

隨著大數(shù)據(jù)發(fā)展戰(zhàn)略的逐步推進，打破信息孤島，合理整合利用數(shù)據(jù)信息成為信息融合技術(shù)的關(guān)鍵要素[1]。而及時掌握各種消息并對其進行分析和處理具有重大社會意義。隨著國家持續(xù)推進全國網(wǎng)絡(luò)安全和信息化建設(shè)，互聯(lián)網(wǎng)信息技術(shù)不斷創(chuàng)新發(fā)展，經(jīng)濟數(shù)字化轉(zhuǎn)型已成大勢所趨[2]。隨著網(wǎng)絡(luò)效應的不斷增強，微博等用戶群體的不斷擴大，其中某些平臺每天都會有過億的博文發(fā)送量及轉(zhuǎn)發(fā)量，在網(wǎng)絡(luò)數(shù)據(jù)產(chǎn)生和消費中占到很大比例。

網(wǎng)絡(luò)爬蟲技術(shù)作為對網(wǎng)絡(luò)數(shù)據(jù)提取的基本技術(shù)在近些年隨網(wǎng)絡(luò)信息技術(shù)發(fā)展也不斷推陳出新，既是作為搜索引擎的基礎(chǔ)結(jié)構(gòu)推動著互聯(lián)網(wǎng)網(wǎng)頁瀏覽訪問的基本進程，又為新時代數(shù)據(jù)技術(shù)提供著多樣化的功能性應用場景[3]。Python語言作為當今流行語言之一，以廣泛的開源庫支持和語言特性與爬蟲系統(tǒng)開發(fā)有著很高的契合度[4]。……

登錄APP查看全文