999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于Scrapy的賭博網(wǎng)站數(shù)據(jù)采集與分析

2020-07-18 11:40:00付順順
關(guān)鍵詞:引擎頁面

◆付順順

(1.安徽省公安教育研究院 安徽 230088; 2.安徽公安職業(yè)學(xué)院 安徽 230031 )

賭博問題滋生違法犯罪、對社會安全穩(wěn)定和人民群眾財產(chǎn)安全等造成嚴(yán)重危害。隨著互聯(lián)網(wǎng)的快速發(fā)展,利用互聯(lián)網(wǎng)和網(wǎng)上金融支付手段進(jìn)行賭博的現(xiàn)象迅速發(fā)展。據(jù)《人民公安報》報道,2019年全國公安機(jī)關(guān)共偵破網(wǎng)絡(luò)賭博刑事案件7200余起,抓獲犯罪嫌疑人2.5萬名,查扣凍結(jié)涉賭資金逾180億元,這一系列數(shù)字表明,我國的防控治理工作面臨的形勢依然嚴(yán)峻復(fù)雜[1]。當(dāng)前網(wǎng)絡(luò)賭博的一種重要表現(xiàn)形式就是開設(shè)專門賭博網(wǎng)站,采用嚴(yán)密的內(nèi)部分級制度發(fā)展不同級別的會員,邀約賭博人員、利用特定對象設(shè)立賭博規(guī)則等組織不特定的境內(nèi)人員,通過各種形式參賭。因此,收集和分析賭博類網(wǎng)站,有助于從源頭治理網(wǎng)絡(luò)賭博案件的發(fā)生。網(wǎng)絡(luò)賭博,作為一個需要大規(guī)模不同階層的人群參與的違法活動,為了保證目標(biāo)人群的接入方便性,從而要求此類網(wǎng)站需依托于互聯(lián)網(wǎng)技術(shù)存在,而不是像暗網(wǎng)一樣。這就使得我們可以使用網(wǎng)絡(luò)爬蟲采集賭博網(wǎng)站數(shù)據(jù)。

網(wǎng)絡(luò)爬蟲,是實現(xiàn)自動瀏覽網(wǎng)頁和網(wǎng)頁數(shù)據(jù)抓取的計算機(jī)應(yīng)用程序。Scrapy 是使用 Python 編寫的爬蟲應(yīng)用框架程序,具有結(jié)構(gòu)簡單、使用方便的特點,用戶借助Scrapy可以快速瀏覽下載網(wǎng)頁信息,并根據(jù)需要保存關(guān)鍵數(shù)據(jù)為需要的數(shù)據(jù)格式。目前,Scrapy 被廣泛應(yīng)用于數(shù)據(jù)挖掘領(lǐng)域,已經(jīng)發(fā)展成為數(shù)據(jù)挖掘研究領(lǐng)域重要的應(yīng)用工具。本研究將以某賭博網(wǎng)站為例,基于Scrapy 設(shè)計爬蟲,并將該爬蟲應(yīng)用其他賭博網(wǎng)站并存儲,以期為賭博網(wǎng)站數(shù)據(jù)的進(jìn)一步挖掘利用提供基礎(chǔ)。

1 基于Scrapy的賭博網(wǎng)站爬蟲設(shè)計

1.1 Scrapy框架工作流程

Scrapy主要分為5部分:Scrapy Engine(引擎)、Scheduler(調(diào)度器)、Spiders(蜘 蛛)、Item Pipeline(數(shù)據(jù)處理流水線)和Downloader(下載器)如圖1所示。

具體流程是:首先,引擎(Engine)將初始URL(s)交給處理該網(wǎng)站的Spider,并在調(diào)度器(Scheduler)以Request調(diào)度,之后引擎向調(diào)度器請求下一個要爬取的URL,調(diào)度器返回下一個要爬取的URL給引擎,引擎將URL通過下載中間件轉(zhuǎn)發(fā)給下載器(Downloader),一旦頁面下載完畢,下載器生成一個該頁面的Response,并將其通過下載中間件發(fā)送給引擎,引擎從下載器中接收到Response并通過Spider中間件發(fā)送給Spider處理,Spider處理Response并返回爬取到的Item及(跟進(jìn)的)新的Request給引擎,引擎將爬取到的Item給Item Pipeline,將(Spider返回的)Request給調(diào)度器,重復(fù)執(zhí)行直到調(diào)度器中沒有更多地request,引擎關(guān)閉該網(wǎng)站[2]。

1.2 模型建立

原有的賭博網(wǎng)站數(shù)據(jù)采集同大部分網(wǎng)絡(luò)爬蟲程序一致,主要關(guān)注某一具體HTML標(biāo)簽中的內(nèi)容,如網(wǎng)頁head、title等特定標(biāo)簽,并以這些內(nèi)容作為特征,進(jìn)行賭博網(wǎng)站的識別。通過研究發(fā)現(xiàn),現(xiàn)在部分賭博網(wǎng)站的特定標(biāo)簽內(nèi)容不具有實際意義。為了能很好地支持后續(xù)研究,提高賭博網(wǎng)站的自動識別率,本文將從初始url出發(fā),并以該url為限定域,采集網(wǎng)站的全部頁面內(nèi)容和存儲[3]。具體步驟如下:

圖1 Scrapy 框架工作流程

(1)使用Scrapy提供的全站爬取類CarwlSpider,方便在爬蟲在工作的時候能自動根據(jù)定義的一些規(guī)則判斷探測到的url鏈接是否需要下載。

(2)為了避免字段出錯,提高數(shù)據(jù)傳遞過程的準(zhǔn)確性,使用Scrapy中的 item文件集中創(chuàng)建需要爬取的字段屬性類,在其他需要的地方實例化該類即可,通過此種方式的被實例化的類的字段可直接被傳遞到pipelinet文件中集中處理字段值的保存事項。本爬蟲中需要在 item 中定義的字段有四個:“url”,當(dāng)前頁面的url;“url_md5”,當(dāng)前頁面的 urlde md5 值,方便檢索;“url_text”,頁面內(nèi)容;“url_text_samples”,去除頁面內(nèi)容的標(biāo)簽。

(3)設(shè)置一個common文件,放置一些常用的處理函數(shù),比如url的md5處理。

(4)在setting文件中打開自動接收并處理的pipeline管道,并在 pipelines中設(shè)置所有數(shù)據(jù)的存儲和處理,本爬蟲采用的是csv存儲。

(5)突破反爬蟲機(jī)制,當(dāng)前大部分網(wǎng)站的反爬蟲策略會對訪問用戶的User Agent進(jìn)行檢查,為保證爬蟲的有效進(jìn)行,收集當(dāng)前用戶還在使用的瀏覽器的User Agent,在每次請求頁面時隨機(jī)替換。

(6)將 robot協(xié)議改為不要遵守,避免尋找網(wǎng)站里面的robots.txt,導(dǎo)致爬蟲會很快停掉。

(7)創(chuàng)建analysis.py,對采集到的數(shù)據(jù)進(jìn)行簡單分析。

2 基于Scrapy的賭博網(wǎng)站爬蟲實現(xiàn)

2.1 建立爬蟲

由于 Scrapy是一個框架,為了能正常使用這個框架的各個中間件和接口,需要項目自動創(chuàng)建,具體命令:

scrapy startproject 爬蟲項目名

此時只是創(chuàng)建了一個工程框架,但還沒有爬蟲。接下來,創(chuàng)建爬蟲文件,在Scrapy中提供了多種爬蟲模板,由于本爬蟲時整站爬取,故使用CarwlSpider,具體命令如下:

scrapy genspider -t crawl vns36101 vns36101.com

其中,通過-t指定使用 crawl模板創(chuàng)建crawlspider整站爬蟲,爬蟲的名字是vns36101,要爬取的域名范圍是vns36101.com。

2.2 實現(xiàn)爬蟲主文件

通過使用 crawl模板創(chuàng)建crawlspider整站爬蟲時,在爬蟲主程序文件中重點只需編寫兩項內(nèi)容。首先是url鏈接規(guī)則分析,由于本爬蟲時為了重點保存頁面,因此我們 Rule規(guī)則的設(shè)為LinkExtractor(allow=r'.*'),“.*”,即正則表達(dá)式的所有頁面。其次是編寫頁面解析字段,本例中采用的是 ItemLoader實例化在items中寫好的本爬蟲的item對象,包含四個字段。本頁面主要代碼如圖2所示。

2.3 實現(xiàn)爬取字段

在scrapy中定義結(jié)構(gòu)化字段,都在items.py中。在數(shù)據(jù)通過return到此處是還可以通過MapCompose加載自定義的處理字段的函數(shù)。本爬蟲在處理 url_text_samples時使用了一個去除所有空格和換行符的函數(shù),使得該字段存儲的都是文本,具體如圖3所示。

圖3 items.py

2.4 實現(xiàn)數(shù)據(jù)存儲

在pipelines.py中創(chuàng)建本爬蟲中使用的時csv格式存儲,具體參考如圖4。

圖4 pipelines.py

3 數(shù)據(jù)分析

為了可視化該賭博網(wǎng)站的主要關(guān)鍵詞,在本爬蟲中還實現(xiàn)了簡單的網(wǎng)頁內(nèi)容分析[4-5]。具體分析方式時將爬出獲取的整站數(shù)據(jù)里面的url_text_samples字段的值讀取之后合并,隨后用jieba分詞進(jìn)行分詞,,得到詞文件之后采用,textrank算法抽取該網(wǎng)站的關(guān)鍵詞,最后通過wordcloud將該網(wǎng)站的關(guān)鍵詞的其云圖生成如圖5所示。

圖5 詞云圖

通過具體分析發(fā)現(xiàn),在該賭博網(wǎng)站中,關(guān)鍵詞的前50個中具有非常明顯的博彩、彩票、投注等詞這,這些特征對實現(xiàn)進(jìn)一步分析有非常強(qiáng)的指導(dǎo)意義,如圖6。

圖6 前50個關(guān)鍵詞

4 結(jié)語

本文基于 Scrapy框架實現(xiàn)賭博網(wǎng)站爬蟲,通過 crawlspider模板的整站爬蟲,達(dá)到了預(yù)期爬取數(shù)量和質(zhì)量。此外通過簡單分析,得知賭博網(wǎng)站的整個網(wǎng)站的文字特性非常強(qiáng),可以用于指導(dǎo)進(jìn)步對賭博網(wǎng)站的分析。

猜你喜歡
引擎頁面
微信群聊總是找不到,打開這個開關(guān)就好了
大狗熊在睡覺
以學(xué)促干 挺膺擔(dān)當(dāng) 激活砥礪前行的紅色引擎
刷新生活的頁面
三生 三大引擎齊發(fā)力
藍(lán)谷: “涉藍(lán)”新引擎
商周刊(2017年22期)2017-11-09 05:08:31
無形的引擎
河南電力(2015年5期)2015-06-08 06:01:46
基于Cocos2d引擎的PuzzleGame開發(fā)
同一Word文檔 縱橫頁面并存
淺析ASP.NET頁面導(dǎo)航技術(shù)
主站蜘蛛池模板: 午夜国产精品视频黄| 91无码人妻精品一区| 日本午夜影院| 四虎在线高清无码| 看你懂的巨臀中文字幕一区二区 | 亚洲综合色婷婷| 久久国产高潮流白浆免费观看| 五月婷婷亚洲综合| 伊人中文网| 日韩无码视频专区| 青青草原国产免费av观看| 国产成人盗摄精品| 99ri精品视频在线观看播放| 午夜性爽视频男人的天堂| 国产第一色| 伊人久久大香线蕉综合影视| 国产精品网曝门免费视频| 青青操国产| 国产婬乱a一级毛片多女| 天天综合网站| 国产无人区一区二区三区| 中国黄色一级视频| 福利视频一区| 亚洲三级片在线看| 国产亚洲成AⅤ人片在线观看| 精品无码人妻一区二区| 国产精品污视频| 中文字幕第1页在线播| 国产欧美日韩资源在线观看| 精品第一国产综合精品Aⅴ| 蜜桃视频一区二区三区| 国产迷奸在线看| 在线不卡免费视频| 在线日韩日本国产亚洲| 欧美日本在线观看| 欧美中文一区| 日韩一区二区三免费高清| 亚洲av无码成人专区| 99re经典视频在线| 亚洲精品无码av中文字幕| 国产高清不卡视频| 少妇人妻无码首页| 日本妇乱子伦视频| 国产精品亚洲片在线va| 国产尤物jk自慰制服喷水| 欧美一级黄色影院| 欧美精品伊人久久| 亚洲天堂网在线观看视频| 午夜丁香婷婷| 99视频在线看| 国产男女免费视频| 日韩人妻精品一区| 中文字幕色在线| 91成人精品视频| 精品国产网| 欧美日韩久久综合| 四虎在线高清无码| av色爱 天堂网| 首页亚洲国产丝袜长腿综合| 亚洲an第二区国产精品| 中文字幕亚洲精品2页| 丝袜无码一区二区三区| 热99精品视频| 天天操精品| 老汉色老汉首页a亚洲| 欧美不卡在线视频| 秋霞午夜国产精品成人片| 色九九视频| 免费看美女自慰的网站| 国产精品亚洲天堂| 久久久精品国产SM调教网站| 国产91精品久久| 亚洲欧美日韩天堂| 青青草国产一区二区三区| 亚洲动漫h| 国产成人无码综合亚洲日韩不卡| 国产又粗又爽视频| 欧美在线导航| 美美女高清毛片视频免费观看| 国产男人天堂| 亚洲综合狠狠| 国产精品福利导航|