
摘要:隨著互聯(lián)網(wǎng)技術(shù)發(fā)展,網(wǎng)絡(luò)所承載的數(shù)據(jù)逐漸體現(xiàn)其價值,且網(wǎng)絡(luò)數(shù)據(jù)體量日益倍增,對網(wǎng)絡(luò)數(shù)據(jù)的利用越來越受到各行各業(yè)的重視。該網(wǎng)絡(luò)爬蟲系統(tǒng)以基于Python語言的Scrapy網(wǎng)絡(luò)爬蟲框架技術(shù)為基礎(chǔ),綜合考慮對反爬機制的應對措施及相關(guān)系統(tǒng)優(yōu)化,滿足一定的爬取效率要求,便于數(shù)據(jù)挖掘等數(shù)據(jù)研究利用。系統(tǒng)主要實現(xiàn)了實體管道模塊、爬蟲業(yè)務(wù)模塊、中間件模塊、Cookies池模塊。過程中涉及到的關(guān)鍵技術(shù)主要包括Cookies池服務(wù)、反爬蟲策略、頁面解析、Selenium+ChromeDriver實現(xiàn)模擬訪問、MongoDB實現(xiàn)數(shù)據(jù)持久化存儲等。
關(guān)鍵詞:爬蟲;Scrapy框架;Selenium+ChromeDriver;MongoDB
1.項目研究的背景及意義
隨著大數(shù)據(jù)發(fā)展戰(zhàn)略的逐步推進,打破信息孤島,合理整合利用數(shù)據(jù)信息成為信息融合技術(shù)的關(guān)鍵要素[1]。而及時掌握各種消息并對其進行分析和處理具有重大社會意義。隨著國家持續(xù)推進全國網(wǎng)絡(luò)安全和信息化建設(shè),互聯(lián)網(wǎng)信息技術(shù)不斷創(chuàng)新發(fā)展,經(jīng)濟數(shù)字化轉(zhuǎn)型已成大勢所趨[2]。隨著網(wǎng)絡(luò)效應的不斷增強,微博等用戶群體的不斷擴大,其中某些平臺每天都會有過億的博文發(fā)送量及轉(zhuǎn)發(fā)量,在網(wǎng)絡(luò)數(shù)據(jù)產(chǎn)生和消費中占到很大比例。
網(wǎng)絡(luò)爬蟲技術(shù)作為對網(wǎng)絡(luò)數(shù)據(jù)提取的基本技術(shù)在近些年隨網(wǎng)絡(luò)信息技術(shù)發(fā)展也不斷推陳出新,既是作為搜索引擎的基礎(chǔ)結(jié)構(gòu)推動著互聯(lián)網(wǎng)網(wǎng)頁瀏覽訪問的基本進程,又為新時代數(shù)據(jù)技術(shù)提供著多樣化的功能性應用場景[3]。Python語言作為當今流行語言之一,以廣泛的開源庫支持和語言特性與爬蟲系統(tǒng)開發(fā)有著很高的契合度[4]。……