網絡爬蟲針對“反爬”網站的爬取策略研究

2020-08-13 11:26:55文成香李璋林

數碼世界 2020年6期

文成香李璋林

摘要：網絡技術的快速發展，網絡爬蟲技術也得到了廣泛普及和應用。更多的用戶開展運用網絡爬蟲技術去獲取自身所需的信息，而過多的網絡爬蟲會對網站的運行造成一定的負擔和壓力。因此，信息時代背景下，為了更好的提升網站訪問體驗感和速度，降低網絡爬蟲技術給網絡帶來的影響，從而提出有效的反爬蟲技術和手段，滿足用戶對各種數據和信息的需求，給人們提供一個良好的網絡環境。本文根據網絡爬蟲的內涵，闡述了網站中常見的反爬蟲技術，并且提出了網絡爬蟲應對“反爬”網站的爬取對策。這樣能夠從根源上去杜絕惡意爬蟲去網址訪問，這樣對網址的穩定運行以及數據保護有著重要的作用和意義。

關鍵詞：網絡爬蟲 “反爬”網站爬取策略

引言

信息技術的革新，現如今搜索引擎成為了人類獲取信息和數據的主要途徑。在搜索引擎過程中，釋放出來的網絡爬蟲會占用大量的互聯網寬帶，并且造成網站訪問速度變慢，甚至進入網站“癱瘓”的狀態，直接降低用戶對網站的訪問體驗感。針對上述問題和現狀，很多網站都開始采取一些有效手段去攔截網絡爬蟲的爬取，由此誕生出反爬蟲技術，進而為網站的正常運行奠定基礎保障。

一、網絡爬蟲的內涵

1.網絡爬蟲簡析

所謂的網絡爬蟲又稱之為網頁蜘蛛、網絡機器人。它是一個自動獲取網頁的程序，作為搜索引擎的重要組成部分，可以隨時在特定網站上下載用戶所需的信息，其中涉及到了招聘、二手買賣信息等。網絡爬蟲之所以叫網頁蜘蛛，是因為它是由很多的超鏈接構成，所形成的完整網，每進入到一個網頁就可以獲取新的超鏈接，再進行下一步的爬行搜索，獲取新的線索。信息時代的普及和發展，雖然滿足了人們對數據的需求，但是人們更加渴求于網絡爬蟲的程序，比如企業信息爬蟲、論文網站爬蟲等。網絡爬蟲給我們帶來了很多便利，在獲取所需數據時，非搜索引擎也給網絡造成了不利的影響，直接降低了網絡運行速度。首先，網絡爬蟲程序訪問網站的速度比起一般的網站訪問速度要高的多，我們開始設想如果大部分的用戶都去使用一個網站的數據，并且同時運用爬蟲程序的獲取目標網站，可想而知勢必會增加網站的服務器的符合，也會導致目標網絡擁堵，甚至產生網絡直接崩潰的現象，影響用戶對網站的體驗。此外，大部分網絡里面的收益都來自于數據，如果網站所有的數據被他人輕易提取且實用，那么會直接降低網站的收益。因此采取適當的網站反爬手段和措施尤為重要。

2.網絡爬蟲搜索對策

網絡爬蟲在正常運行過程中，其中URL隊列抓取是其中關鍵的一部分。其中抓取的先后順序十分重要，其中涉及到先抓取和后抓取哪個頁面，我們將排列URL順序的方法，稱之為抓取對策。其中最為常見的是廣度優先搜索對策，在抓取中，以節點開始，完成現目前層次搜索后再直接跳轉到下一個層次搜索。該種策略的實現方式十分簡單。其次，關于深度搜索策略，這種策略的主要思想是從起始頁開始，每條鏈接緊跟著一個鏈接，處理完成后線路后直接跳轉到下一個起始頁，繼續跟蹤鏈接。此外，反向鏈接策略指的是一個網頁被其他網頁鏈接指定的數量，反向鏈接數的網頁內容很容易受到其他推薦內容的影響。因此，搜索引擎抓取系統會根據這個指標去評價網頁的重要度，最終去確定網頁抓取的先后順序。

二、網站中常見的反爬蟲技術

首先，我國網站中最常見的則是關于涉及到驗證碼的反爬蟲技術，現有80%以上的網絡都會設置驗證碼，其設置的目的是為了區分人類和計算機操作的行為，最早接觸的是圖片、數字以及滑動驗證碼。其次，隨著網絡技術的發展，提出了一種限制用戶行為的反爬蟲技術，現如今部分網站都會根據用戶的操作行為去判斷爬蟲程序，如果在短暫的時間內對一個網址進行多次的訪問，又是同一個用戶反復的操作和訪問，亦或是訪問的頁面固定，簡單而言，就是直接體現出不像用戶訪問的狀態。最后，通過分析日志的方式去判斷網頁爬蟲不是一個實時的反爬蟲手段，可以通過設置網站的流量瀏覽記錄去反映出用戶的真實訪問狀態，對于短期內出現大量方位行為可以流量系統記錄的參考，在結合人工判斷的前提下，將惡意的爬蟲訪問拉入黑名單。此外，還可以通過設置網絡路由器、防火墻等方式，去約束網站被訪問的網段。但是通過網絡設備去識別IP，這樣可能會提升誤傷的概率。

三、網絡爬蟲應對“反爬”網站的爬取對策

1.驗證碼辨別技術

由于驗證碼技術具有隨機性較強、簡單的特點，能夠在一定程度上阻礙網絡上惡意行為的訪問，在互聯網領域得到了廣泛的應用。其次，圖片驗證碼是通過爬蟲獲取到所需要的樣本圖片，將圖片里面的文字和字母分開，通過神經網絡算法去識別驗證碼。關于滑動驗證碼，一般情況下，人類在操作滑動這個步驟時，會有一個延時的動作，然后才進行滑塊拖動，滑塊移動時快慢不一致，最后再進行微微調整。拖動的路徑基本上符合BETA分布這樣的偏態分布，同時，人的行為也比較符合隨機性和規律性特點，大體上符合BETA分布的規律，但是固定時間和間隔移動的長度是隨機設置的。

2.降低訪問請求頻率

在對網絡進行訪問的過程中，網絡爬蟲會對目標站點發送大量的請求，這樣的爬蟲機制不僅會增加中小型網站的荷載力，還會浪費大量的網站資源，甚至導致整個網站完全崩潰，因此很多網站都提出了反爬蟲的機制和策略。比如通過判斷爬蟲的USER-AGENT信息去直接訪問請求，或者通過網站流量統計和日志分析去識別爬蟲，這樣對網站進行全方位的實時監控，提升反爬蟲策略的效果和作用。為了不被站點判定為爬蟲而被拒絕訪問網站，我們可以直接降低網站訪問請求頻率，這樣不會遭受到網站的封殺和拒絕訪問。最主要的方法是在訪問URL的程序當中，將訪問請求設置一段休眠時間段。具體的休眠時間是根據實際需求而定的，以毫秒為準，這種反爬策略的優勢是有效的降低了目標網站的時間負載，但是缺陷是爬蟲反爬的效率比較低。

3.設置代理服務器

設置代理服務器，以提升爬蟲效率為主，實際上就是對網絡的反爬蟲機制進行阻止，降低訪問請求頻率較高的網絡地址。為了改善這一問題，我們可以使用代理服務器，去改變IP和服務器端口，直接限制訪問頻率較高的主機對站點的訪問。只要具備足夠的IP條件符合爬取的條件，這樣就能保證爬蟲不被站點所限制和封殺。但是設置代理服務器，不僅會消耗大量的時間和資源，還會給站點帶來較大的負載，加大延遲，提升了失敗率。

四、結束語

綜上所述，為了有效的避免爬蟲被限制，最為有效的辦法則是偽裝成正常用戶，只要堅持這個原則，總能解決問題。如果能夠深入的了解到反爬蟲技術的原理和策略，就可以針對實際問題，提出反爬蟲爬取策略和手段，進而在保證網站穩定安全運行的同時，也能提升網絡爬蟲的效率，為人們提供更加優質的網絡服務。

參考文獻

[1]伏康，杜振鵬.網站反爬蟲策略的分析與研究[J].電腦知識與技術，2019，15（28）：28-30.

[2]胡俊瀟，陳國偉.網絡爬蟲反爬策略研究[J].科技創新與應用，2019（15）：137-138+140.

[3]劉清.網絡爬蟲針對“反爬”網站的爬取策略分析[J].信息與電腦（理論版），2019（03）：23-24.

[4]鄒科文，李達，鄧婷敏，李嘉振，陳義明.網絡爬蟲針對“反爬”網站的爬取策略研究[J].電腦知識與技術，2016，12（07）：61-63.

數碼世界2020年6期

數碼世界的其它文章: 基于數據挖掘技術的高校教務管理研究; 機械設計制造及其自動化發展方向的研究; 基于易班平臺的高職院校生態文明教育存在的問題及對策; 現代信息技術與創新創業教育深度融合機制研究; 新冠疫情沖擊下再度思量農林類高職院校公共突發衛生事件的防控; 中國制造業出口貿易國內增加值及其影響因素的國際比較研究