999精品在线视频,手机成人午夜在线视频,久久不卡国产精品无码,中日无码在线观看,成人av手机在线观看,日韩精品亚洲一区中文字幕,亚洲av无码人妻,四虎国产在线观看 ?

基于機器學習的反爬蟲應用策略研究

2020-12-23 21:46:13林楚苓關春喜梁焰豪
科學導報·學術 2020年48期
關鍵詞:機器學習

林楚苓 關春喜 梁焰豪

摘? 要:網絡的迅速發展,讓萬維網成為大量信息的載體,搜索引擎進入大眾的生活。為了定向的幫助搜索引擎抓取相關網頁資源,網絡爬蟲應運而生。網絡爬蟲是一個自動提取網頁的程序,一些惡意的網絡爬蟲不僅會對網站的信息進行竊取,還會對網站造成不可彌補的傷害。隨之進入我們生活的還有網絡爬蟲的死對頭——反爬蟲。本文研究使用機器學習進行爬蟲識別,從而使得更好的制定反爬蟲策略,用機器識別代替人工識別,減少了人為識別爬蟲的工作量,降低了識別爬蟲的人力物力的損耗,還能提高爬蟲的識別率,從而做到保護網站信息以及網站設備。

關鍵詞:網絡爬蟲;反爬蟲策略;機器學習;信息安全

1? 引言

現階段,科技不斷地發展,人們的搜索引擎變得多種多樣,為了快速從互聯網中獲得大量目標數據,就需要編寫一些腳本程序,按照一定規律批量獲取數據,這就是所謂的爬蟲[1]。網絡爬蟲的出現,既是造福了社會,也是污染了網絡環境,惡意爬蟲會嚴重增加了網站服務器的負擔,還可能造成僵尸網絡的出現。不僅如此,惡意爬蟲的出現還為盜取他人網站重要數據提供了便利的途徑,非法爬取網站的重要數據會造成網站重要數據和用戶信息的泄露,導致網站重大的商業損失。針對網絡爬蟲,反爬蟲機制孕育而生,如今大部分的網絡爬蟲還依靠著人為進行識別,這樣的反爬蟲工作即費時又費力。近幾年來,機器學習由于可以大大減少人為工作量,減少了對人力物力損耗而出現在人們的生活中。本文將研究基于機器學習實現反爬蟲的應用策略,針對網絡爬蟲的特征實現機器學習自動化識別惡意網絡爬蟲,從而實現反爬蟲策略,使得能夠對網站及其重要數據進行更好的保護。

2? 機器學習爬蟲識別的實現

2.1? 機器學習

目前人工智能已經為人類創造出了非??捎^的經濟效益,人工智能可以代替人類做大量人類不想做、不能做的工作,而且機器犯錯誤的概率比人低,并且能夠持續工作,大大的提升工作效率,節約了大量的成本。機器學習(Machine Learning,ML)是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科,是人工智能的一個分支。

2.2? 爬蟲特征

為了更好的識別網絡爬蟲,從而進行反爬蟲策略的實施,收集了網絡爬蟲的特征。目前網絡上的網絡爬蟲具有以下特征:①相同IP的請求頻率大、②相同的IP每次訪問的時間間隔小、③IP所在地不穩定、④user-agent不是常見標識、⑤驗證碼的請求次數多、⑥激活爬蟲陷阱、⑦圖片訪問百分比高、⑧錯誤響應高、⑨不對robot.txt進行訪問。

2.3? 識別算法

決策樹是機器學習的經典算法之一,決策樹(Decision tree)由一個決策圖和可能的結果(包括資源成本和風險)組成,用來創建到達目標的規劃。決策樹建立并用來輔助決策,是一種特殊的樹結構。根據網絡爬蟲的特征,使用決策樹算法對訓練集訓練生成概率運算的決策模型,從而使用該決策模型進行識別網絡爬蟲。

2.4? 實現流程

通過連接需檢測網絡爬蟲的網站數據庫,遍歷需檢測網站的所有訪問請求特征,再使用決策數通過訓練集訓練出來的識別模塊對收集到的訪問請求特征進行請求分析,從而實現對訪問中網絡爬蟲的識別,最后輸出對應IP的檢測結果和判斷依據。通過這樣的反饋可以使得網站管理員對網站訪問進行限制、人工糾錯等相關操作。使用機器學習識別爬蟲,在降低了人工成本和提高網站運行效率的同時還能避免特殊訪問節點的爬蟲檢測誤判。流程圖如圖1所示。

3? 反爬蟲策略的實現

有矛必有盾,網絡爬蟲的反制機制便是針對惡意爬蟲而制定的、為防止爬蟲對網站進行侵害的一種策略。反爬蟲機制是針對爬蟲特征對網絡爬蟲進行防御的一系列計策。反爬蟲機制大大減小了爬蟲對網站的危害,在一定程度上保護了網站的數據安全、減小了網站服務器的負擔。但在現階段,大部分的反爬蟲工作仍然依靠著人為操作,人工判斷、識別爬蟲,從而實現對爬蟲的封禁等操作,浪費了大量的人力、物力、財力等,而且識別爬蟲的效率也處于較低的狀態。

通過機器學習識別網絡爬蟲,不僅可以讓網站管理人員可以對可疑的IP進行限制等相關操作,網站設計者還可以根據識別爬蟲后輸出的信息優化自身系統中的反爬蟲機制,從而做到更好的保護網站的安全。如同一IP訪問頻率過高的情況出現過多時,可以在服務端增加對IP訪問頻率的限制,當超過一定頻率便認定為網絡爬蟲,從而進行防御。網站管理人員也可以直接根據爬蟲檢測對系統的爬蟲檢測數據進行數據分析,設計出合理的主題反爬蟲方案,從而更有效的實現對網站的保護,減少網絡爬蟲對網站硬件資源侵害和重要數據盜取,使得網站在互聯網時代的潮流中保持的競爭優勢。

4? 總結

目前網絡上超過60%的訪問請求都來源于爬蟲機器人,而其中便有不少爬蟲屬于惡意爬蟲。這類爬蟲擁有一些共性,如盜竊站點數據、偷取敏感信息、對站點進行攻擊等。[3]由于網絡爬蟲的策略是盡可能多的“爬過”網站中的高價值信息,會根據特定策略盡可能多的訪問頁面,占用網絡帶寬并增加Web服務器的處理開銷,不少小型站點的站長發現當網絡爬蟲光顧的時候,訪問流量將會有明顯的增長。惡意用戶可以利用爬蟲程序對Web站點發動DoS攻擊,使Web服務在大量爬蟲程序的暴力訪問下,資源耗盡而不能提供正常服務。惡意用戶還可能通過網絡爬蟲抓取各種敏感資料用于不正當用途。網絡爬蟲及其對應的技術為網站帶來了可觀訪問量的同時,也帶來了直接與間接的安全威脅,越來越多的網站開始關注對網絡爬蟲的限制問題。在網絡世界中,作為站點管理員,保障網站及其數據安全是一件十分重要的事情。本文研究了機器學習與網絡爬蟲識別相結合,使得更加有效智能的識別網絡爬蟲,降低網絡爬蟲對網站的侵害,還大大減小了人為識別網絡爬蟲的誤差,在一定程度上阻止了網絡爬蟲對網站的侵害,達到數據保護、系統穩定性保障、競爭優勢保持的目的。

參考文獻

[1]? 周立柱,林玲.聚焦爬蟲技術研究綜述[J].計算機應用,2005(09):1965-1969.

[2]? 劉宇,程學林.基于決策樹算法的爬蟲識別技術[J].軟件,2017,38(07):122-125.

[3]? 梁焰豪,關春喜,林楚苓,等.基于機器學習的電商網站知識產權保護[J].電腦迷,2018,000(021):188.

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
時代金融(2016年27期)2016-11-25 17:51:36
前綴字母為特征在維吾爾語文本情感分類中的研究
科教導刊(2016年26期)2016-11-15 20:19:33
下一代廣播電視網中“人工智能”的應用
活力(2016年8期)2016-11-12 17:30:08
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
主站蜘蛛池模板: 国产成人乱码一区二区三区在线| 久久精品女人天堂aaa| 日韩国产精品无码一区二区三区 | 性网站在线观看| 欧美专区在线观看| 国产人人射| 国产精品一区二区在线播放| 久久夜色精品| 高清码无在线看| 性色在线视频精品| 亚洲浓毛av| 国产精选小视频在线观看| 免费在线国产一区二区三区精品| 天天操精品| 大乳丰满人妻中文字幕日本| 欧美日韩北条麻妃一区二区| 国产99精品视频| 在线一级毛片| 99热最新在线| 免费无码一区二区| 亚洲国产清纯| 欧美劲爆第一页| 亚洲日韩精品伊甸| 三上悠亚在线精品二区| AV不卡在线永久免费观看| 国产自在线播放| a毛片在线播放| 无码中文字幕精品推荐| 99无码熟妇丰满人妻啪啪| 久久精品亚洲热综合一区二区| 一级毛片a女人刺激视频免费| 97无码免费人妻超级碰碰碰| 亚洲无线视频| 97se亚洲| 国产女同自拍视频| 玖玖精品视频在线观看| 色135综合网| 1769国产精品视频免费观看| 香蕉网久久| 欧美亚洲一区二区三区导航| 黄片一区二区三区| 在线国产三级| 国产欧美中文字幕| 久久国产精品麻豆系列| 夜夜操狠狠操| 欧美中文字幕无线码视频| 国产高清不卡视频| 国产系列在线| 国产极品美女在线| 国产麻豆永久视频| 国产乱子伦精品视频| 91成人在线免费视频| 亚洲国产天堂久久综合226114| 久久成人国产精品免费软件 | 亚洲日韩精品伊甸| 国产精鲁鲁网在线视频| 亚洲精品中文字幕午夜| 久久精品一品道久久精品| 麻豆精品在线| 成人亚洲视频| 中文无码日韩精品| 久久国产精品77777| 国产精品高清国产三级囯产AV | 无码日韩精品91超碰| 色婷婷在线影院| 午夜毛片福利| 丰满人妻中出白浆| 日韩高清成人| www中文字幕在线观看| 91在线播放免费不卡无毒| 国产乱子伦精品视频| 鲁鲁鲁爽爽爽在线视频观看| 色综合综合网| 91在线精品免费免费播放| 国产91精品调教在线播放| 最近最新中文字幕在线第一页| 国产精品自在拍首页视频8| 国产精品lululu在线观看| 在线观看免费人成视频色快速| 亚洲精品国产首次亮相| 四虎永久在线精品国产免费| 欧美yw精品日本国产精品|