基于Scrapy的賭博網(wǎng)站數(shù)據(jù)采集與分析

2020-07-18 11:40:00付順順

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2020年6期

關(guān)鍵詞：引擎頁面

◆付順順

(1.安徽省公安教育研究院安徽 230088; 2.安徽公安職業(yè)學(xué)院安徽 230031 )

賭博問題滋生違法犯罪、對社會安全穩(wěn)定和人民群眾財產(chǎn)安全等造成嚴(yán)重危害。隨著互聯(lián)網(wǎng)的快速發(fā)展，利用互聯(lián)網(wǎng)和網(wǎng)上金融支付手段進(jìn)行賭博的現(xiàn)象迅速發(fā)展。據(jù)《人民公安報》報道，2019年全國公安機(jī)關(guān)共偵破網(wǎng)絡(luò)賭博刑事案件7200余起，抓獲犯罪嫌疑人2.5萬名，查扣凍結(jié)涉賭資金逾180億元，這一系列數(shù)字表明，我國的防控治理工作面臨的形勢依然嚴(yán)峻復(fù)雜[1]。當(dāng)前網(wǎng)絡(luò)賭博的一種重要表現(xiàn)形式就是開設(shè)專門賭博網(wǎng)站，采用嚴(yán)密的內(nèi)部分級制度發(fā)展不同級別的會員，邀約賭博人員、利用特定對象設(shè)立賭博規(guī)則等組織不特定的境內(nèi)人員，通過各種形式參賭。因此，收集和分析賭博類網(wǎng)站，有助于從源頭治理網(wǎng)絡(luò)賭博案件的發(fā)生。網(wǎng)絡(luò)賭博，作為一個需要大規(guī)模不同階層的人群參與的違法活動，為了保證目標(biāo)人群的接入方便性，從而要求此類網(wǎng)站需依托于互聯(lián)網(wǎng)技術(shù)存在，而不是像暗網(wǎng)一樣。這就使得我們可以使用網(wǎng)絡(luò)爬蟲采集賭博網(wǎng)站數(shù)據(jù)。

網(wǎng)絡(luò)爬蟲，是實現(xiàn)自動瀏覽網(wǎng)頁和網(wǎng)頁數(shù)據(jù)抓取的計算機(jī)應(yīng)用程序。Scrapy 是使用 Python 編寫的爬蟲應(yīng)用框架程序，具有結(jié)構(gòu)簡單、使用方便的特點，用戶借助Scrapy可以快速瀏覽下載網(wǎng)頁信息，并根據(jù)需要保存關(guān)鍵數(shù)據(jù)為需要的數(shù)據(jù)格式。目前，Scrapy 被廣泛應(yīng)用于數(shù)據(jù)挖掘領(lǐng)域，已經(jīng)發(fā)展成為數(shù)據(jù)挖掘研究領(lǐng)域重要的應(yīng)用工具。本研究將以某賭博網(wǎng)站為例，基于Scrapy 設(shè)計爬蟲，并將該爬蟲應(yīng)用其他賭博網(wǎng)站并存儲，以期為賭博網(wǎng)站數(shù)據(jù)的進(jìn)一步挖掘利用提供基礎(chǔ)。

1 基于Scrapy的賭博網(wǎng)站爬蟲設(shè)計

1.1 Scrapy框架工作流程

Scrapy主要分為5部分：Scrapy Engine（引擎）、Scheduler（調(diào)度器）、Spiders（蜘蛛）、Item Pipeline（數(shù)據(jù)處理流水線）和Downloader（下載器）如圖1所示。

具體流程是：首先，引擎（Engine）將初始URL（s）交給處理該網(wǎng)站的Spider，并在調(diào)度器（Scheduler）以Request調(diào)度，之后引擎向調(diào)度器請求下一個要爬取的URL，調(diào)度器返回下一個要爬取的URL給引擎，引擎將URL通過下載中間件轉(zhuǎn)發(fā)給下載器（Downloader），一旦頁面下載完畢，下載器生成一個該頁面的Response，并將其通過下載中間件發(fā)送給引擎，引擎從下載器中接收到Response并通過Spider中間件發(fā)送給Spider處理，Spider處理Response并返回爬取到的Item及（跟進(jìn)的）新的Request給引擎，引擎將爬取到的Item給Item Pipeline，將（Spider返回的）Request給調(diào)度器，重復(fù)執(zhí)行直到調(diào)度器中沒有更多地request，引擎關(guān)閉該網(wǎng)站[2]。

1.2 模型建立

原有的賭博網(wǎng)站數(shù)據(jù)采集同大部分網(wǎng)絡(luò)爬蟲程序一致，主要關(guān)注某一具體HTML標(biāo)簽中的內(nèi)容，如網(wǎng)頁head、title等特定標(biāo)簽，并以這些內(nèi)容作為特征，進(jìn)行賭博網(wǎng)站的識別。通過研究發(fā)現(xiàn)，現(xiàn)在部分賭博網(wǎng)站的特定標(biāo)簽內(nèi)容不具有實際意義。為了能很好地支持后續(xù)研究，提高賭博網(wǎng)站的自動識別率，本文將從初始url出發(fā)，并以該url為限定域，采集網(wǎng)站的全部頁面內(nèi)容和存儲[3]。具體步驟如下：

圖1 Scrapy 框架工作流程

（1）使用Scrapy提供的全站爬取類CarwlSpider，方便在爬蟲在工作的時候能自動根據(jù)定義的一些規(guī)則判斷探測到的url鏈接是否需要下載。

（2）為了避免字段出錯，提高數(shù)據(jù)傳遞過程的準(zhǔn)確性，使用Scrapy中的 item文件集中創(chuàng)建需要爬取的字段屬性類，在其他需要的地方實例化該類即可，通過此種方式的被實例化的類的字段可直接被傳遞到pipelinet文件中集中處理字段值的保存事項。本爬蟲中需要在 item 中定義的字段有四個：“url”，當(dāng)前頁面的url；“url_md5”，當(dāng)前頁面的 urlde md5 值，方便檢索；“url_text”，頁面內(nèi)容；“url_text_samples”，去除頁面內(nèi)容的標(biāo)簽。

（3）設(shè)置一個common文件，放置一些常用的處理函數(shù)，比如url的md5處理。

（4）在setting文件中打開自動接收并處理的pipeline管道，并在 pipelines中設(shè)置所有數(shù)據(jù)的存儲和處理，本爬蟲采用的是csv存儲。

（5）突破反爬蟲機(jī)制，當(dāng)前大部分網(wǎng)站的反爬蟲策略會對訪問用戶的User Agent進(jìn)行檢查，為保證爬蟲的有效進(jìn)行，收集當(dāng)前用戶還在使用的瀏覽器的User Agent，在每次請求頁面時隨機(jī)替換。

（6）將 robot協(xié)議改為不要遵守，避免尋找網(wǎng)站里面的robots.txt，導(dǎo)致爬蟲會很快停掉。

（7）創(chuàng)建analysis.py，對采集到的數(shù)據(jù)進(jìn)行簡單分析。

2 基于Scrapy的賭博網(wǎng)站爬蟲實現(xiàn)

2.1 建立爬蟲

由于 Scrapy是一個框架，為了能正常使用這個框架的各個中間件和接口，需要項目自動創(chuàng)建，具體命令：

scrapy startproject 爬蟲項目名

此時只是創(chuàng)建了一個工程框架，但還沒有爬蟲。接下來，創(chuàng)建爬蟲文件，在Scrapy中提供了多種爬蟲模板，由于本爬蟲時整站爬取，故使用CarwlSpider，具體命令如下：

scrapy genspider -t crawl vns36101 vns36101.com

其中，通過-t指定使用 crawl模板創(chuàng)建crawlspider整站爬蟲，爬蟲的名字是vns36101，要爬取的域名范圍是vns36101.com。

2.2 實現(xiàn)爬蟲主文件

通過使用 crawl模板創(chuàng)建crawlspider整站爬蟲時，在爬蟲主程序文件中重點只需編寫兩項內(nèi)容。首先是url鏈接規(guī)則分析，由于本爬蟲時為了重點保存頁面，因此我們 Rule規(guī)則的設(shè)為LinkExtractor（allow=r'.*'），“.*”，即正則表達(dá)式的所有頁面。其次是編寫頁面解析字段，本例中采用的是 ItemLoader實例化在items中寫好的本爬蟲的item對象，包含四個字段。本頁面主要代碼如圖2所示。

2.3 實現(xiàn)爬取字段

在scrapy中定義結(jié)構(gòu)化字段，都在items.py中。在數(shù)據(jù)通過return到此處是還可以通過MapCompose加載自定義的處理字段的函數(shù)。本爬蟲在處理 url_text_samples時使用了一個去除所有空格和換行符的函數(shù)，使得該字段存儲的都是文本，具體如圖3所示。

圖3 items.py

2.4 實現(xiàn)數(shù)據(jù)存儲

在pipelines.py中創(chuàng)建本爬蟲中使用的時csv格式存儲，具體參考如圖4。

圖4 pipelines.py

3 數(shù)據(jù)分析

為了可視化該賭博網(wǎng)站的主要關(guān)鍵詞，在本爬蟲中還實現(xiàn)了簡單的網(wǎng)頁內(nèi)容分析[4-5]。具體分析方式時將爬出獲取的整站數(shù)據(jù)里面的url_text_samples字段的值讀取之后合并，隨后用jieba分詞進(jìn)行分詞，，得到詞文件之后采用，textrank算法抽取該網(wǎng)站的關(guān)鍵詞，最后通過wordcloud將該網(wǎng)站的關(guān)鍵詞的其云圖生成如圖5所示。

圖5 詞云圖

通過具體分析發(fā)現(xiàn)，在該賭博網(wǎng)站中，關(guān)鍵詞的前50個中具有非常明顯的博彩、彩票、投注等詞這，這些特征對實現(xiàn)進(jìn)一步分析有非常強(qiáng)的指導(dǎo)意義，如圖6。

圖6 前50個關(guān)鍵詞

4 結(jié)語

本文基于 Scrapy框架實現(xiàn)賭博網(wǎng)站爬蟲，通過 crawlspider模板的整站爬蟲，達(dá)到了預(yù)期爬取數(shù)量和質(zhì)量。此外通過簡單分析，得知賭博網(wǎng)站的整個網(wǎng)站的文字特性非常強(qiáng)，可以用于指導(dǎo)進(jìn)步對賭博網(wǎng)站的分析。