999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于決策樹算法的爬蟲識別技術

2018-01-24 21:58:49劉宇程學林
軟件 2017年7期

劉宇 程學林

摘要:網(wǎng)絡爬蟲指的是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。但是實際上爬蟲還分為正規(guī)爬蟲和非正規(guī)爬蟲,所謂的正規(guī)爬蟲就是通過正規(guī)途徑和手段獲取網(wǎng)站信息和數(shù)據(jù),非正規(guī)爬蟲又稱為惡意爬蟲,主要用于非法盜竊數(shù)據(jù),給網(wǎng)站服務器增加負擔以及偷窺一些敏感信息數(shù)據(jù)等。本文將會基于決策樹算法設計一種新爬蟲檢測技術,并根據(jù)爬蟲檢測結果提供一些反爬機制,對惡意爬蟲進行進行評屏蔽等,進而實現(xiàn)對網(wǎng)站和服務器以及部分數(shù)據(jù),信息的保護,降低互聯(lián)網(wǎng)資源重疊現(xiàn)象。

關鍵詞:網(wǎng)絡爬蟲;爬蟲檢測;惡意爬蟲;反爬蟲

0引言

隨著網(wǎng)絡的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。為了快速從互聯(lián)網(wǎng)中獲得大量目標數(shù)據(jù),就需要編寫一些腳本程序,按照一定規(guī)律批量獲取數(shù)據(jù),這就是所謂的爬蟲,但是在一部分通過正常途徑,即先請求網(wǎng)站Robot.tXt之后,再在不影響對方網(wǎng)站前提下,獲取相關資料的正規(guī)爬蟲之外,還有一些惡意爬蟲,它們通常表現(xiàn)為無論網(wǎng)站是的Robot.txt是否允許爬蟲爬取,都會強制性,批量性獲取網(wǎng)站數(shù)據(jù),同時會在短時間內大量的發(fā)起請求,還有一部分惡意爬蟲會惡意制造虛假PV,模擬點擊付費廣告鏈接,批量檢索網(wǎng)站禁止爬蟲爬取信息,用于商業(yè)性質分析等。這類爬蟲在給互聯(lián)網(wǎng)帶來巨大的機器流量同時,也會給網(wǎng)站帶來極大的負擔,使得網(wǎng)站性能大大降低,目前互聯(lián)網(wǎng)內有40%-60%的流量來自爬蟲或者相關機器流量,已經(jīng)嚴重妨礙核威脅互聯(lián)網(wǎng)相關的產(chǎn)業(yè)健康發(fā)展!

為了應對爬蟲帶來的危害,國內外相關學者和各大公司企業(yè),教育機構甚至很多個人網(wǎng)站站長等,都對爬蟲檢測,識別等技術進行了深入的研究,例如目前常見的爬蟲檢測有判斷請求的Headers,查看請求頻率等眾多方法。但是由于常見的這些檢測方法并不能靈活快速的檢測請求類型,所以本文將會基于決策樹算法建立一種新的爬蟲檢測方式,同時做一些相關的反爬設計。

1請求與爬蟲檢測

對于網(wǎng)絡爬蟲的檢測,其實就是對請求的分析,一般情況下判斷一個請求是否是爬蟲,通常是:

(1)單位時問內同一IP請求頻率:如果在某一段時間內,某個IP發(fā)出大量請求,而這種請求又不是正常人工可以發(fā)出的(例如一分鐘發(fā)出上千次請求等),那么可以基本判定該請求屬于爬蟲行為;

(2)單位時間內同一IP請求時間間隔:正常人為訪問時,訪問時間間隔是不固定的,但是很多時候爬蟲的訪問時間間隔是固定的或者在某段時間范圍內,如果同一IP每次發(fā)起請求時間間隔都是在一個固定時間間隔內或者波動范圍極小的時間間隔內,那么也可以基本判定該行為屬于爬蟲行為;

(3)User-Agent是否為常用瀏覽器User-Agent:通常情況下每個瀏覽器具有特定的User.Agent,以讓服務器識別該請求是通過哪個瀏覽器發(fā)起的,但是很多爬蟲在設計時,并未設置User.Agent,所以如果非常見瀏覽器User-Agent或者帶有編程語言名稱的User-Agent基本可以判定為該行為是爬蟲行為;

(4)請求是否為全部請求:一般情況一個網(wǎng)站如果有圖片或者link標簽等,這樣打開一個網(wǎng)頁通常會加載多個資源,如CSS,Js等,但是爬蟲訪問的時候,通常不會做這些額外的請求。所以當一個請求發(fā)起之后,只請求了頁面源代碼而未請求相關關聯(lián)資源,那么可以基本判定,該請求是爬蟲行為;

(5)是否請求robot:通常情況,爬蟲都會請求Robot.txt,而用戶是不會請求這個文檔的,所以請求Robot.txt的通常為爬蟲行為,當然也是有一部分爬蟲不會請求該文件的,所以未請求該文檔的并不代表非爬蟲行為;

(6)請求時是否會帶有Cookies:一般情況下爬蟲請求頁面的時候,都不會帶有Cookies,而人為訪問的時候,都會帶有前一頁面或者前一次訪問的Cookies,所以在沒有前一次Cookies的請求中,有極大可能是爬蟲發(fā)起的請求;

(7)是否觸發(fā)爬蟲陷阱:通常情況下,爬蟲陷阱指的是將Spider訪問引入到能產(chǎn)生無限循環(huán)的頁面,或者帶人其他特殊頁面中,正常情況下,人為訪問是不會走人該陷阱的,而爬蟲是“無思維”請求,所以極有可能會自動走入該陷阱。一般情況下走入該陷阱并在陷阱中無法跳出的行為是爬蟲行為。endprint

主站蜘蛛池模板: 第一区免费在线观看| 国产香蕉国产精品偷在线观看| 中文字幕亚洲精品2页| 青草视频在线观看国产| 欧美日韩中文字幕二区三区| 欧美三级不卡在线观看视频| 美女被躁出白浆视频播放| 欧美国产综合视频| 2021国产精品自拍| 国产成人禁片在线观看| 久久中文电影| 天天综合亚洲| 巨熟乳波霸若妻中文观看免费| 中文字幕在线永久在线视频2020| 欧美精品成人一区二区视频一| 国产日韩欧美在线视频免费观看 | 中文字幕无码av专区久久| 欧美精品另类| 97综合久久| 超薄丝袜足j国产在线视频| 久草视频福利在线观看| 日本成人福利视频| 免费高清a毛片| 国产粉嫩粉嫩的18在线播放91 | 国产午夜一级毛片| 超级碰免费视频91| 免费在线一区| 国产精品偷伦视频免费观看国产| 久久香蕉国产线看观看精品蕉| 欧洲精品视频在线观看| 在线日韩一区二区| 在线国产三级| 青青热久麻豆精品视频在线观看| 一本久道热中字伊人| 久草青青在线视频| 91在线播放国产| 亚洲乱伦视频| 中文字幕永久在线看| 国产熟睡乱子伦视频网站| 一区二区三区国产精品视频| 欧美精品黑人粗大| 色天堂无毒不卡| 99re这里只有国产中文精品国产精品| 免费看久久精品99| 全午夜免费一级毛片| 亚洲AV人人澡人人双人| 伊人精品成人久久综合| 成年人国产视频| 无码一区中文字幕| 亚洲国产日韩视频观看| 在线va视频| 久久99国产综合精品女同| 成色7777精品在线| 久久成人免费| 久青草国产高清在线视频| 亚洲欧美国产五月天综合| 在线免费亚洲无码视频| 精品国产成人a在线观看| 9久久伊人精品综合| 国产亚洲欧美在线中文bt天堂| 国产精品视频白浆免费视频| 无码日韩视频| 亚洲天堂网站在线| 久久99这里精品8国产| 怡春院欧美一区二区三区免费| 青草视频在线观看国产| 国产a在视频线精品视频下载| 在线观看视频99| 国产素人在线| 久久久久人妻一区精品色奶水| 91年精品国产福利线观看久久 | 天天色天天综合网| 亚洲日产2021三区在线| 久久黄色影院| 美女扒开下面流白浆在线试听| 亚洲高清在线天堂精品| 免费亚洲成人| 91福利在线观看视频| 欧美福利在线观看| 免费亚洲成人| 国产乱肥老妇精品视频| 国产手机在线ΑⅤ片无码观看|